首页 > 快讯 > DeepSeek-OCR 2 现已发布：融合“视觉因果流”技术，使文档识别能力更贴近人类思维模式

DeepSeek-OCR 2 现已发布：融合“视觉因果流”技术，使文档识别能力更贴近人类思维模式

发布时间：2026-01-27 14:38:32 | 责任编辑：吴昊 | 浏览量：77 次

DeepSeek 宣布推出新一代文档识别模型 DeepSeek-OCR2。该模型在视觉编码器设计上实现了重大突破，旨在解决传统模型在处理复杂版式文档时逻辑感缺失的问题。
DeepSeek-OCR2的核心亮点在于自研的 DeepEncoder V2编码器。不同于传统视觉模型按照从左到右、从上到下的固定栅格顺序处理图像，新模型引入了“视觉因果流”概念。它能够根据图像语义动态调整信息的处理顺序，在识别文字前先对视觉内容进行智能排序，从而使机器的阅读逻辑更贴合人类对表格、公式及复杂文档的理解方式。
在架构上，模型沿用了高效的编解码框架。图像经 DeepEncoder V2进行语义建模和顺序重组后，交由混合专家架构（MoE）语言模型进行解码。实验数据表明，在 OmniDocBench v1.5基准测试中，DeepSeek-OCR2的整体得分达到91.09%，较前代提升了3.73%。尤其在阅读顺序准确度方面，其编辑距离显著降低，表明模型对内容结构的还原能力更强。
此外，DeepSeek-OCR2在实际应用中也展现出更强的稳定性。在 PDF 批处理及在线日志数据的测试中，识别重复率均有明显下降。这意味着模型在保持低资源开销的同时，提供了更高质量、更具逻辑性的识别输出。
划重点:
动态语义排序:DeepSeek-OCR2通过“视觉因果流”技术，打破了传统固定栅格的识别顺序，实现了基于语义的动态阅读。
性能跨越式提升:在权威基准测试中，新模型识别性能提升3.73%，阅读顺序准确度显著增强。
高效 MoE 架构:模型继续采用 MoE 架构解码，在不增加算力负担的前提下，实现了更高的识别精度与可靠性。

这是一篇关于DeepSeek-OCR 2 正式发布：引入“视觉因果流”，文档识别更接近人类逻辑的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。