百度PaddleOCR-VL模型在全球OCR排名中登顶,连续五天稳居Huggingface趋势榜榜首
发布时间:2025-10-24 14:23:59 | 责任编辑:吴昊 | 浏览量:6 次
10月16日,百度飞桨(PaddlePaddle)团队正式发布了最新视觉语言模型 PaddleOCR-VL,一经上线便引发全球 OCR(光学字符识别)领域轰动。该模型以 0.9B 参数规模 在权威评测 OmniDocBench V1.5 中取得 92.56分 的成绩,超越包括 DeepSeek-OCR 在内的所有主流模型,成功登顶全球 OCR 榜单。
截至10月21日,Huggingface 全球模型趋势榜(Trending Models)前3名均被 OCR 模型包揽:
🥇PaddleOCR-VL(百度飞桨)
🥈DeepSeek-OCR
🥉NanonetOCR
其中,百度的 PaddleOCR-VL 已连续 5天位居榜首,成为当前最受关注的开源 OCR 模型。
PaddleOCR-VL 支持 109种语言识别,可精准解析文本、表格、公式与图表,并具备文档语义结构重建能力。这意味着它不仅能“识字”,还能“读懂”复杂文档内容,在科研论文、发票识别、知识抽取等领域展现出极高实用价值。
值得一提的是,DeepSeek 团队在其论文中也特别致谢 PaddleOCR,并透露其训练数据部分使用了 PaddleOCR 进行标注。这一细节揭示了当前业界 OCR 模型繁荣背后的真实逻辑:百度、DeepSeek 与上海 AI Lab 等机构几乎在同时开源 OCR 模型,目的并非仅是比拼识别性能,而是为大模型训练清洗、标注数据提供基础能力。
换句话说,这场“OCR 军备竞赛”的核心,不只是识别谁更准,而是谁能更快地让 AI 看懂世界的文字与图像。
这是一篇关于百度 PaddleOCR-VL 模型登顶全球 OCR 榜,连续五日领跑 Huggingface 趋势榜的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
