首页 > 快讯 > dots.ocr全新登场！1.7B参数的多语言文档处理巨头，直面Doubao和Gemini挑战

dots.ocr全新登场！1.7B参数的多语言文档处理巨头，直面Doubao和Gemini挑战

发布时间：2025-08-08 16:12:44 | 责任编辑：张毅 | 浏览量：682 次

近期，一款名为dots.ocr的多语言文档解析模型引发了AI领域的广泛关注。这款基于1.7B参数的轻量化视觉-语言模型，以其出色的性能和统一布局检测与OCR能力，成为文档处理领域的新星。
轻量高效:1.7B参数实现SOTA性能
dots.ocr基于仅1.7B参数的语言模型构建，相较于许多依赖更大模型的文档解析工具，其推理速度更快，处理单页PDF仅需数秒即可完成。尽管模型规模较小，dots.ocr在文本、表格和阅读顺序的解析上表现优异，达到了业界领先（SOTA）水平，其公式识别能力甚至可与Doubao-1.5和gemini2.5-pro等大型模型相媲美。这一高效性能使其成为开发者与企业的理想选择。
多语言支持:覆盖百种语言的强大能力
dots.ocr在多语言文档解析方面表现出色，尤其在低资源语言的处理上展现了显著优势。模型支持包括中文、英文在内的100种语言，能够准确识别多语言文档中的文本内容和布局元素。无论是处理多语言混合文档，还是应对复杂语言环境，dots.ocr都能提供稳定的解析效果，为全球化应用场景提供了强有力的支持。
精准布局检测:全面解析文档元素
在文档布局检测方面，dots.ocr展现了强大的能力。模型能够准确识别文档中的标题、段落、图片、表格等多种布局元素，并精确标注其位置和类别。得益于其统一的视觉-语言架构，dots.ocr避免了传统多模型流水线带来的复杂性，简化了处理流程，同时保持了良好的阅读顺序，确保解析结果符合文档的逻辑结构。
表格与公式解析:高精度与格式保留
dots.ocr在表格和公式解析上的表现尤为亮眼。模型能够精准检测表格的边界、单元格位置及内容，提取结果高度准确，适合处理结构化数据需求较高的场景。在公式识别方面，dots.ocr不仅能够处理复杂的数学公式，还能保留原始布局并输出为LaTeX格式，极大方便了学术研究和专业文档处理。尽管在特殊细节的处理上仍有优化空间，但其整体表现已足以媲美行业顶尖模型。
应用场景与局限性
dots.ocr的快速处理能力和多功能特性使其在多种场景中具备广泛应用潜力，例如文档数字化、学术研究、数据提取等。然而，当前模型在处理高复杂度的表格和公式时尚未完全完善，且对图片内容的解析暂不支持。此外，当文档字符像素比过高或包含连续特殊字符（如省略号或下划线）时，解析可能会出现问题，建议调整图像分辨率或使用特定提示词优化结果。开发团队表示，未来将进一步优化模型，增强表格、公式解析能力，并探索更通用的视觉-语言感知模型。
文档解析领域的创新标杆
我们认为dots.ocr的发布标志着文档解析技术迈向了新的高度。其轻量化设计、统一架构和多语言支持打破了传统OCR工具的局限，为开发者提供了更高效、灵活的解决方案。未来，随着模型在高吞吐量处理和复杂场景支持上的进一步优化，dots.ocr有望成为文档智能化的核心工具。结语dots.ocr以其1.7B参数的轻量架构、卓越的多语言解析能力和高效的处理速度，为文档处理领域注入了新的活力。从精准的布局检测到强大的表格与公式解析，这款模型正在重新定义AI驱动的文档解析体验。

dots.ocr 横空出世，确实有让人惊艳的资本。它由小红书 hi lab 团队开源，仅 1.7B 参数，却在多语言文档解析任务上直接对标 Doubao-1.5 和 Gemini 2.5 Pro 这种百亿级“巨无霸”。下面从性能、特点、对比、使用四个角度为你快速拆解。

性能有多强？
• OmniDocBench 权威基准：文本识别 Edit 距离仅 0.032（英）/0.066（中）；表格解析 TEDS 得分 88.6%（英）/89.0%（中），超过 Gemini 2.5 Pro 的 85.8%；阅读顺序误差也全面领先。
• 多语言：内部 100 语种、1493 张 PDF 测试集取得“决定性优势”，小语种不再头疼。
• 公式识别：与豆包-1.5、Gemini2.5-Pro 打得有来有回。
核心亮点
• 单一视觉-语言模型端到端完成“检测+识别+阅读顺序”，无需多模型流水线。
• 17 亿参数带来推理速度优势，本地 GPU 可一键 Docker/vLLM 部署。
• 输出直接给 JSON（结构化坐标+内容）、Markdown 和带框可视化图，方便二次开发。
与 Doubao & Gemini 的正面 PK
参数量表格TEDS 阅读顺序误差部署成本
dots.ocr 1.7 B 89.0 % 0.040 低（本地可跑）
Doubao-1.5 ~100 B 未公开相近高（闭源）
Gemini 2.5 Pro 100 B+ 85.8 % 更高高（API）

一句话：用“小模型”的算力成本，打出“大模型”的精度。

如何立即体验？
• 在线 Demo：https://dotsocr.xiaohongshu.com

• GitHub：https://github.com/rednote-hilab/dots.ocr

• HuggingFace：rednote-hilab/dots.ocr
• 本地一条命令：

docker run --gpus all -p 8000:8000 rednote/dots.ocr:latest

当然，官方也坦诚存在局限：超高字符密度图片可能失败、复杂表格/公式仍可优化、暂不支持图片中的图片。

总结：如果你需要高精度、多语言、可本地部署的文档解析方案，dots.ocr 是当前开源圈里最有性价比的选择之一，完全可以拿它和 Doubao/Gemini 同时跑 AB Test，用数据说话。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：马斯克认为，AI成为应对日本人口问题的关键所在

下一篇：揭开AI界面设计中“紫色魔咒”之谜：一条推文揭示的技术趋势

dots.ocr全新登场！1.7B参数的多语言文档处理巨头，直面Doubao和Gemini挑战

最新Ai信息

最新Ai工具

热门AI推荐