首页 > 快讯 > DeepSeek-OCR 2 现已发布:融合“视觉因果流”技术,使文档识别能力更贴近人类思维模式

DeepSeek-OCR 2 现已发布:融合“视觉因果流”技术,使文档识别能力更贴近人类思维模式

发布时间:2026-01-27 14:38:32 | 责任编辑:吴昊 | 浏览量:14 次

DeepSeek 宣布推出新一代文档识别模型 DeepSeek-OCR2。 该模型在视觉编码器设计上实现了重大突破,旨在解决传统模型在处理复杂版式文档时逻辑感缺失的问题。
DeepSeek-OCR2的核心亮点在于自研的 DeepEncoder V2编码器。 不同于传统视觉模型按照从左到右、从上到下的固定栅格顺序处理图像,新模型引入了“视觉因果流”概念。 它能够根据图像语义动态调整信息的处理顺序,在识别文字前先对视觉内容进行智能排序,从而使机器的阅读逻辑更贴合人类对表格、公式及复杂文档的理解方式。
在架构上,模型沿用了高效的编解码框架。 图像经 DeepEncoder V2进行语义建模和顺序重组后,交由混合专家架构(MoE)语言模型进行解码。 实验数据表明,在 OmniDocBench v1.5基准测试中,DeepSeek-OCR2的整体得分达到91.09%,较前代提升了3.73%。 尤其在阅读顺序准确度方面,其编辑距离显著降低,表明模型对内容结构的还原能力更强。
此外,DeepSeek-OCR2在实际应用中也展现出更强的稳定性。 在 PDF 批处理及在线日志数据的测试中,识别重复率均有明显下降。 这意味着模型在保持低资源开销的同时,提供了更高质量、更具逻辑性的识别输出。
划重点:
动态语义排序:DeepSeek-OCR2通过“视觉因果流”技术,打破了传统固定栅格的识别顺序,实现了基于语义的动态阅读。
性能跨越式提升:在权威基准测试中,新模型识别性能提升3.73%,阅读顺序准确度显著增强。
高效 MoE 架构:模型继续采用 MoE 架构解码,在不增加算力负担的前提下,实现了更高的识别精度与可靠性。

DeepSeek-OCR 2 现已发布:融合“视觉因果流”技术,使文档识别能力更贴近人类思维模式

这是一篇关于DeepSeek-OCR 2 正式发布:引入“视觉因果流”,文档识别更接近人类逻辑的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐