首页 > 快讯 > dots.vlm1 开源多模态大模型由小红书推出,借助 NaViT 视觉编码器引领行业前沿

dots.vlm1 开源多模态大模型由小红书推出,借助 NaViT 视觉编码器引领行业前沿

发布时间:2025-08-07 15:16:53 | 责任编辑:吴昊 | 浏览量:6 次

小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器 和 DeepSeek V3大语言模型,从零开始完全训练,其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型,如 Gemini2.5Pro 和 Seed-VL1.5,标志着开源多模态模型的性能达到了新的高度。
dots.vlm1的核心亮点在于其原生自研的 NaViT 视觉编码器。与传统基于成熟模型微调的方式不同,NaViT 从零训练,并支持动态分辨率,能够更好地适应多样化的真实图像场景。该模型还通过结合纯视觉与文本视觉的双重监督,极大提升了其泛化能力,尤其是在处理表格、图表、公式、文档等非典型结构化图片时表现出色。
在数据方面,Hi Lab 团队构建了规模庞大且清洗精细的训练集。他们通过自主重写网页数据和自研 dots.ocr 工具处理 PDF 文档,显著提升了图文对齐的质量,为模型的跨模态理解能力打下了坚实基础。
在主流国际多模态评测集上,dots.vlm1的综合表现令人瞩目。它在 MMMU、MathVision 和 OCR Reasoning 等多项基准测试中,达到了与 Gemini2.5Pro 和 Seed-VL1.5相当的水平。在复杂的图表推理、STEM 数学推理以及长尾细分场景识别等应用中,dots.vlm1展现出卓越的逻辑推理和分析能力,完全胜任奥数等高难度任务。
尽管在文本推理的极复杂任务上与 SOTA 闭源模型仍有差距,但其通用数学推理和代码能力已与主流大语言模型持平。
Hi Lab 团队表示,未来将继续优化模型。他们计划扩大跨模态数据规模,并引入强化学习等前沿算法,进一步提升推理泛化能力。通过开源 dots.vlm1,小红书致力于为多模态大模型生态系统带来新的动力,推动行业发展。

dots.vlm1 开源多模态大模型由小红书推出,借助 NaViT 视觉编码器引领行业前沿

小红书人文智能实验室(Hi Lab)今天开源了首个多模态大模型 dots.vlm1,核心亮点如下:

  1. 架构

    • 12 亿参数 NaViT 视觉编码器:完全从零开始训练,不依赖现有视觉骨干网络,原生支持动态分辨率输入。

    • DeepSeek V3 大语言模型:提供强大的文本理解与推理能力。

  2. 能力

    • 视觉多模态:在 MMMU、MathVision、OCR Reasoning 等多个基准测试中,性能接近当前闭源最佳模型 Gemini 2.5 ProSeed-VL1.5 thinking,具备复杂图表推理、OCR 识别、高考数学题解等能力。

    • 文本能力:在数学、代码等任务上达到 DeepSeek-R1-0528 水平,但在更广泛的推理任务上仍有提升空间。

  3. 开源与体验

    • 开源地址:GitHub(链接)与 Hugging Face(链接)已上线。

    • 在线体验:可通过 Hugging Face Spaces 免费试用(链接)。

  4. 意义

    • 为开源视觉语言模型树立了新的性能上限,展示了小红书在自研多模态大模型上的决心与实力。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐