开源发布的百度飞桨PaddleOCR 3.0:OCR精准度提升13%
发布时间:2025-05-22 10:16:06 | 责任编辑:吴昊 | 浏览量:7 次
2025年5月20日,百度飞桨团队正式发布了PaddleOCR3.0版本,并对外开源。这一新版本在文字识别精度、多语种支持、手写体识别以及高精度文档解析等方面取得了显著进展,进一步提升了PaddleOCR在OCR领域的技术实力和应用价值。
PaddleOCR自发布以来,凭借其学术前沿算法和产业落地实践,受到了产学研各方的喜爱,并被广泛应用于众多知名开源项目。此次发布的PaddleOCR3.0全面适配了飞桨框架3.0正式版,不仅提升了文字识别精度,还支持多文字类型识别和手写体识别,满足了大模型应用对复杂文档高精度解析的需求。此外,结合文心大模型4.5Turbo,PaddleOCR3.0显著提升了关键信息抽取精度,并新增了对昆仑芯、昇腾等国产硬件的支持。
PaddleOCR3.0的核心亮点之一是全场景文字识别模型PP-OCRv5。该模型实现了单一模型支持简体中文、繁体中文、中文拼音、英文、日文五种文字类型,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。与上一代相比,PP-OCRv5的整体识别精度提升了13个百分点,达到了业界领先水平。PP-OCRv5通过统一模型架构实现了多种文字类型的无缝识别,简化了部署流程,提升了识别的总体精度和速度。
在文档解析方面,PaddleOCR3.0推出了通用文档解析方案PP-StructureV3。该方案强化了版面区域检测、表格识别、公式识别的能力,增加了图表理解和多栏阅读顺序的恢复能力,并可以将结果转换为Markdown和JSON格式。PP-StructureV3在OmniDocBench基准测试中领先众多开源和闭源方案,展现了其在多场景、多版式PDF高精度解析方面的强大能力。
此外,PaddleOCR3.0还发布了智能文档理解方案PP-ChatOCRv4。该方案原生支持文心大模型4.5Turbo,关键信息抽取精度相比上一代提升了15个百分点。PP-ChatOCRv4结合了大模型和小模型的优势,支持离线使用多模态文档理解模型PP-DocBee2,能够一站式解决版面分析、生僻字、多页PDF、表格、印章识别等复杂文档信息抽取问题。
PaddleOCR3.0的发布,不仅体现了百度在OCR技术上的持续创新,也为广大开发者提供了更加强大和易用的工具,助力开发者快速落地AI应用。
开源地址:
https://github.com/PaddlePaddle/PaddleOCR
GitHub
百度飞桨PaddleOCR 3.0于2025年5月20日正式发布并开源。这一版本在OCR精度上实现了显著提升,整体识别精度相比上一代跃升了13个百分点。以下是PaddleOCR 3.0的主要亮点:
技术升级
- 全场景文字识别模型PP-OCRv5:
- 单模型支持简体中文、繁体中文、中文拼音、英文和日文五种文字类型,是业界首个单模型支持多语言的超轻量级(<100M)开源模型。
- 支持复杂手写体识别,对中英日手写体的复杂连笔和非规范字迹识别精度有显著提升。
- 在多场景高难度文字识别评估集上,识别精度达到当前最优。
- 通用文档解析方案PP-StructureV3:
- 支持多场景、多版式PDF高精度解析,在OmniDocBench基准测试中领先众多开源和闭源方案。
- 增强了版面区域检测、表格识别、公式识别的能力,增加了图表理解和多栏阅读顺序恢复的能力。
- 智能文档理解方案PP-ChatOCRv4:
- 结合文心大模型4.5 Turbo,关键信息抽取精度相比上一代提升15个百分点。
- 支持离线使用多模态文档理解模型PP-DocBee2,能够一站式解决版面分析、生僻字、多页PDF、表格、印章识别等复杂文档信息抽取问题。
硬件支持
PaddleOCR 3.0新增对昆仑芯、昇腾等国产硬件的支持,进一步提升了在国产硬件环境下的性能。
应用场景
PaddleOCR 3.0的多语言和手写体识别能力使其在教育、医疗、法律等多个领域具有广泛的应用前景。例如,教育行业的试卷批改、医疗行业的病历数字化以及法律行业的合同笔录数字化等场景。
总体来看,PaddleOCR 3.0通过技术创新和硬件适配,显著提升了OCR识别的精度和效率,为开发者提供了更强大的工具。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。