首页 > 快讯 > 腾讯混元的开源HunyuanOCR模型：10亿参数引领前沿，强化OCR多场景应用

腾讯混元的开源HunyuanOCR模型：10亿参数引领前沿，强化OCR多场景应用

发布时间：2025-11-25 15:17:01 | 责任编辑：吴昊 | 浏览量：248 次

11月25日，腾讯混元正式宣布开源全新 OCR 模型 HunyuanOCR。该模型参数仅10亿（1B），依托混元原生多模态架构打造，在多项业界 OCR 应用榜单中斩获 SOTA(最先进水平)成绩，为 OCR 技术落地提供轻量化高效解决方案。
HunyuanOCR 采用全端到端范式设计，由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三部分构成。其核心优势在于 “高效便捷”:体积小巧便于部署，单次前向推理即可实现功能最优输出，效率远超业界级联方案。
性能方面，HunyuanOCR 表现亮眼。在复杂文档解析的 OmniDocBench 测评中，以94.1分超越谷歌 Gemini3-Pro 等领先模型;在覆盖文档、手写、街景等9大场景的自建基准测试中，文字检测和识别能力大幅领先同类开源及商业模型;OCRBench 榜单上，其以1B 参数斩获总参数3B 以下模型 SOTA，总得分860分。小语种翻译领域，该模型支持14种高频小语种与中 / 英文互译，还拿下 ICDAR2025端到端文档翻译比赛小模型赛道冠军。
应用场景上，HunyuanOCR 可实现多语种复杂文档解析、票据字段 JSON 格式提取、视频双语字幕自动抽取等功能，已覆盖卡证处理、视频创作、跨境沟通等领域。目前，用户可通过 web 端、移动端链接或 GitHub、Hugging Face 开源地址下载体验，直接访问 Hugging Face 空间即可快速试用。
地址：
https://hunyuan.tencent.com/vision/zh?tabIndex=0
https://github.com/Tencent-Hunyuan/HunyuanOCR

这是一篇关于腾讯混元开源 HunyuanOCR 模型:1B 参数斩获多项 SOTA，多场景赋能 OCR 应用的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：腾讯推出的 HunyuanOCR 开源模型，以仅10亿参数实现多项最优性能

下一篇：问世首款纯AMD驱动的MoE巨型模型ZAYA1：配以14T tokens和CCA注意机制，效能直追Qwen3

腾讯混元的开源HunyuanOCR模型：10亿参数引领前沿，强化OCR多场景应用

最新Ai信息

最新Ai工具

热门AI推荐