首页 > 快讯 > 百度推出世界级文档解析方案 PaddleOCR-VL，革新OCR领域布局！

百度推出世界级文档解析方案 PaddleOCR-VL，革新OCR领域布局！

发布时间：2025-10-17 15:11:27 | 责任编辑：吴昊 | 浏览量：74 次

近日，百度正式发布并开源其自研的多模态文档解析模型 PaddleOCR-VL。这一模型在全球权威的文档解析评测榜单 OmniBenchDoc V1.5中，以92.6分的佳绩荣登综合性能全球第一的宝座，展现出其在文本、表格、公式和阅读顺序四大核心能力上的卓越表现。
PaddleOCR-VL 的核心模型参数仅为0.9B，具有轻量高效的特点，能够在极低的计算开销下，精准识别包括文本、手写汉字、表格、公式及图表等复杂元素。该模型支持109种语言，涵盖中文、英语、法语、日语、俄语、阿拉伯语和西班牙语等多种语言场景，适用于政企文档管理、知识检索、档案数字化以及科研信息抽取等多种智能文档处理任务。
作为文心4.5的衍生模型，PaddleOCR-VL-0.9B 通过融合 NaViT 动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型，成功实现了在精度和效率上的双重突破。具体而言，该模型在 OmniDocBench v1.5上的表现极为亮眼，文本编辑距离为0.035，公式识别的 CDM 为91.43，表格的 TEDS 达到了93.52，阅读顺序预测误差值为0.043，这些数据展示了其在复杂文档、手写稿及历史档案识别等高难度场景中的稳定性和可靠性。
在推理速度方面，PaddleOCR-VL 在一张 A100GPU 上每秒可处理1881个 Token，相较于其他主流模型，推理速度有显著提升，较 MinerU2.5快14.2%，比 dots.ocr 更是提升了253.01%。这一表现使得 PaddleOCR-VL 在 OCR 技术中树立了新的标杆。
与传统 OCR 技术不同，PaddleOCR-VL 能够如同人类一样理解复杂的版面结构，精确提取财报表格、数学公式和课堂笔记等多元信息，并自动恢复符合人类阅读习惯的顺序，确保信息传达的准确性和逻辑的清晰性。其创新的两阶段架构，第一阶段负责版面检测与阅读顺序预测，第二阶段则进行文本、表格、公式等元素的识别与结构化输出，这种设计显著提高了识别的稳定性和效率。

这是一篇关于百度发布全球领先文档解析模型 PaddleOCR-VL，重塑OCR技术格局！的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：美国人对于AI的忧虑超越了全球平均水平

下一篇：爱诗科技AI视频业务获1亿元B+轮融资：年度经常性营收达到4000万美元，服务用户数突破1亿

百度推出世界级文档解析方案 PaddleOCR-VL，革新OCR领域布局！

最新Ai信息

最新Ai工具

热门AI推荐