首页 > 快讯 > 腾讯推出的 HunyuanOCR 开源模型,以仅10亿参数实现多项最优性能

腾讯推出的 HunyuanOCR 开源模型,以仅10亿参数实现多项最优性能

发布时间:2025-11-25 15:09:12 | 责任编辑:吴昊 | 浏览量:3 次

近日,腾讯正式推出其全新开源模型 HunyuanOCR,参数量仅为1B。该模型基于腾讯独创的混元多模态架构设计,已在多个行业标准的 OCR 应用中取得了 SOTA(最先进水平)的佳绩。腾讯方面表示,HunyuanOCR 的 “端到端” 设计理念使得模型的各项功能在一次前向推理中便可快速获得最优结果。
HunyuanOCR 主要由三大核心组件构成:原生分辨率视频编码器、自适应视觉适配轻量化混元语言模型。与市面上其他 OCR 模型不同的是,Hunyuan 采用了全端到端的训练和推理方式,并通过规模的应用导向数据以及在线强化学习,展现了出色的推理能力。
在复杂文档解析的测试中 HunyuanOCR 以94.1的高分超越了包括谷歌 Gemini3-pro 在内的多个领先模型。其文字检测和识别能力也非常出,涵盖了文档、艺术字、街景、手写、广告、票据等多种应用场景,相较于其他开源及商业 OCR 模型表现优异,在 OCR 中,该模型的总得分高达860分,成为总参数3B 以下的模型中的佼佼者。
HunyuanOCR 还支持14种语种的翻功能,在翻译领域,表现出。该模型对多复杂文档电子化处理,将扫描件拍摄图中的文本按照阅读顺序组织,并能够使用 LaTe 格式表示公式 HTML 格式复杂表格。
应用方面,HunyOCR 适合进行语种文档解析、票据字段抽取视频字幕识别及拍照翻译等任务,展示了广泛的应用潜力。
github:https://github.com/Tencent-Hunyuan/HunyuanOCR
划重点:
🔍 HunyuanOCR 模型1B,通过端到端设计实现多项 SOTA 成果。
📄该模型支持复杂文档解析、文字检测及识别,覆盖多种应用场景。
🌐 HunyuanOCR 还具备14小语种翻译能力,特别适用于拍照翻译功能。

腾讯推出的 HunyuanOCR 开源模型,以仅10亿参数实现多项最优性能

这是一篇关于腾讯发布 HunyuanOCR 开源模型,参数仅 1B 成就多项 SOTA 表现的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐