首页 > 快讯 > dots.ocr全新登场!1.7B参数的多语言文档处理巨头,直面Doubao和Gemini挑战

dots.ocr全新登场!1.7B参数的多语言文档处理巨头,直面Doubao和Gemini挑战

发布时间:2025-08-08 16:12:44 | 责任编辑:张毅 | 浏览量:7 次

近期,一款名为dots.ocr的多语言文档解析模型引发了AI领域的广泛关注。这款基于1.7B参数的轻量化视觉-语言模型,以其出色的性能和统一布局检测与OCR能力,成为文档处理领域的新星。
轻量高效:1.7B参数实现SOTA性能
dots.ocr基于仅1.7B参数的语言模型构建,相较于许多依赖更大模型的文档解析工具,其推理速度更快,处理单页PDF仅需数秒即可完成。尽管模型规模较小,dots.ocr在文本、表格和阅读顺序的解析上表现优异,达到了业界领先(SOTA)水平,其公式识别能力甚至可与Doubao-1.5和gemini2.5-pro等大型模型相媲美。这一高效性能使其成为开发者与企业的理想选择。
多语言支持:覆盖百种语言的强大能力
dots.ocr在多语言文档解析方面表现出色,尤其在低资源语言的处理上展现了显著优势。模型支持包括中文、英文在内的100种语言,能够准确识别多语言文档中的文本内容和布局元素。无论是处理多语言混合文档,还是应对复杂语言环境,dots.ocr都能提供稳定的解析效果,为全球化应用场景提供了强有力的支持。
精准布局检测:全面解析文档元素
在文档布局检测方面,dots.ocr展现了强大的能力。模型能够准确识别文档中的标题、段落、图片、表格等多种布局元素,并精确标注其位置和类别。得益于其统一的视觉-语言架构,dots.ocr避免了传统多模型流水线带来的复杂性,简化了处理流程,同时保持了良好的阅读顺序,确保解析结果符合文档的逻辑结构。
表格与公式解析:高精度与格式保留
dots.ocr在表格和公式解析上的表现尤为亮眼。模型能够精准检测表格的边界、单元格位置及内容,提取结果高度准确,适合处理结构化数据需求较高的场景。在公式识别方面,dots.ocr不仅能够处理复杂的数学公式,还能保留原始布局并输出为LaTeX格式,极大方便了学术研究和专业文档处理。尽管在特殊细节的处理上仍有优化空间,但其整体表现已足以媲美行业顶尖模型。
应用场景与局限性
dots.ocr的快速处理能力和多功能特性使其在多种场景中具备广泛应用潜力,例如文档数字化、学术研究、数据提取等。然而,当前模型在处理高复杂度的表格和公式时尚未完全完善,且对图片内容的解析暂不支持。此外,当文档字符像素比过高或包含连续特殊字符(如省略号或下划线)时,解析可能会出现问题,建议调整图像分辨率或使用特定提示词优化结果。开发团队表示,未来将进一步优化模型,增强表格、公式解析能力,并探索更通用的视觉-语言感知模型。
文档解析领域的创新标杆
我们认为dots.ocr的发布标志着文档解析技术迈向了新的高度。其轻量化设计、统一架构和多语言支持打破了传统OCR工具的局限,为开发者提供了更高效、灵活的解决方案。未来,随着模型在高吞吐量处理和复杂场景支持上的进一步优化,dots.ocr有望成为文档智能化的核心工具。结语dots.ocr以其1.7B参数的轻量架构、卓越的多语言解析能力和高效的处理速度,为文档处理领域注入了新的活力。从精准的布局检测到强大的表格与公式解析,这款模型正在重新定义AI驱动的文档解析体验。

dots.ocr全新登场!1.7B参数的多语言文档处理巨头,直面Doubao和Gemini挑战

dots.ocr 横空出世,确实有让人惊艳的资本。它由小红书 hi lab 团队开源,仅 1.7B 参数,却在多语言文档解析任务上直接对标 Doubao-1.5 和 Gemini 2.5 Pro 这种百亿级“巨无霸”。下面从性能、特点、对比、使用四个角度为你快速拆解。

  1. 性能有多强?
    • OmniDocBench 权威基准:文本识别 Edit 距离仅 0.032(英)/0.066(中);表格解析 TEDS 得分 88.6%(英)/89.0%(中),超过 Gemini 2.5 Pro 的 85.8%;阅读顺序误差也全面领先。
    • 多语言:内部 100 语种、1493 张 PDF 测试集取得“决定性优势”,小语种不再头疼。
    • 公式识别:与豆包-1.5、Gemini2.5-Pro 打得有来有回。

  2. 核心亮点
    • 单一视觉-语言模型端到端完成“检测+识别+阅读顺序”,无需多模型流水线。
    • 17 亿参数带来推理速度优势,本地 GPU 可一键 Docker/vLLM 部署。
    • 输出直接给 JSON(结构化坐标+内容)、Markdown 和带框可视化图,方便二次开发。

  3. 与 Doubao & Gemini 的正面 PK
    参数量 表格TEDS 阅读顺序误差 部署成本
    dots.ocr 1.7 B 89.0 % 0.040 低(本地可跑)
    Doubao-1.5 ~100 B 未公开 相近 高(闭源)
    Gemini 2.5 Pro 100 B+ 85.8 % 更高 高(API)

一句话:用“小模型”的算力成本,打出“大模型”的精度。

  1. 如何立即体验?
    • 在线 Demo:https://dotsocr.xiaohongshu.com

    • GitHub:https://github.com/rednote-hilab/dots.ocr

    • HuggingFace:rednote-hilab/dots.ocr
    • 本地一条命令:

docker run --gpus all -p 8000:8000 rednote/dots.ocr:latest

当然,官方也坦诚存在局限:超高字符密度图片可能失败、复杂表格/公式仍可优化、暂不支持图片中的图片。

总结:如果你需要高精度、多语言、可本地部署的文档解析方案,dots.ocr 是当前开源圈里最有性价比的选择之一,完全可以拿它和 Doubao/Gemini 同时跑 AB Test,用数据说话。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐