首页 > 快讯 > NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型，实现5.63%历史最低错误率

NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型，实现5.63%历史最低错误率

发布时间：2025-07-18 10:45:16 | 责任编辑：张毅 | 浏览量：170 次

NVIDIA刚刚发布了Canary-Qwen-2.5B，这是一款突破性的自动语音识别（ASR）和语言模型(LLM)混合模型，以创纪录的5.63%词错率(WER)荣登Hugging Face OpenASR排行榜榜首。该模型获得CC-BY许可，具有商业许可和开源特性，为企业级语音AI发展扫清了障碍。
此次发布标志着重要的技术里程碑，Canary-Qwen-2.5B将转录和语言理解统一到单一模型架构中，支持直接从音频执行摘要和问答等下游任务。这种创新架构彻底改变了传统ASR流程，将转录和后处理从独立阶段整合为统一工作流程。
该模型在多个维度创下新纪录:
Canary-Qwen-2.5B的核心创新在于其混合架构，包含两个关键组件:
FastConformer编码器专门用于低延迟和高精度转录，而Qwen3-1.7B LLM解码器则是未经修改的预训练大型语言模型，通过适配器接收音频转录标记。
这种适配器设计确保了模块化，允许Canary编码器分离，并将Qwen3-1.7B作为独立LLM运行用于基于文本的任务。单一部署即可处理口语和书面输入的下游语言任务，提升了多模态灵活性。
与许多受非商业许可约束的研究模型不同，Canary-Qwen-2.5B采用CC-BY许可发布，开启了广泛的商业应用场景:
该模型的LLM感知解码功能还提升了标点符号、大写字母和上下文准确度，这些往往是传统ASR输出的薄弱环节。
Canary-Qwen-2.5B针对多种NVIDIA GPU进行了优化，支持从数据中心的A100、H100到工作站RTX PRO6000，再到消费级GeForce RTX5090等硬件。这种跨硬件类别的扩展性使其适用于云推理和内部边缘工作负载。
通过开源该模型及其训练方案，NVIDIA研究团队旨在促进社区驱动的语音AI进步。开发者可以混合搭配其他兼容NeMo的编码器和LLM，为新领域或语言创建特定任务的混合模型。
该版本还为以LLM为中心的ASR开创了先河，其中LLM不再是后处理器，而是集成在语音转文本流程中的核心代理。这种方法反映了向代理模型迈进的更广阔趋势——能够基于现实世界多模态输入进行全面理解和决策的系统。
NVIDIA的Canary-Qwen-2.5B不仅仅是一个ASR模型，更是将语音理解与通用语言模型相集成的蓝图。凭借SoTA性能、商业可用性以及开放的创新途径，该版本有望成为企业、开发者和研究人员解锁下一代语音优先AI应用的基础工具。

NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型，实现5.63%历史最低错误率-项目/模型网址:
Hugging Face

NVIDIA 最新发布的 Canary-Qwen-2.5B 是一款突破性的自动语音识别（ASR）和语言模型（LLM）混合模型，以创纪录的 5.63% 词错率（WER）荣登 Hugging Face OpenASR 排行榜榜首，成为商用级超高速语音识别新标杆。该模型采用 CC-BY 许可，具有商业可用性和开源特性，支持企业级语音 AI 开发，应用场景包括企业转录服务、实时会议总结、语音控制 AI 代理等。

Canary-Qwen-2.5B 的核心创新在于其混合架构：FastConformer 编码器用于低延迟、高精度转录，Qwen3-1.7B LLM 解码器通过适配器接收音频转录标记，支持直接从音频执行摘要和问答等下游任务，将转录和语言理解统一到单一模型架构中，彻底改变传统 ASR 流程。此外，该模型基于 234,000 小时多样化英语语音数据集训练，参数仅 25 亿，处理速度可比实时快 418 倍，且针对多种 NVIDIA GPU（从数据中心到消费级）进行了优化，部署灵活性高。

通过开源该模型及其训练方案，NVIDIA 旨在推动社区驱动的语音 AI 进步，使开发者能够混合搭配其他兼容 NeMo 的编码器和 LLM，为新领域或语言创建特定任务的混合模型。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：杨建朝，字节跳动视觉大模型的前负责人宣告暂时离岗，由周畅接替此职位引起广泛关注

下一篇： Suno v4.5+更新，引入全新人声替换选项，支持将原歌曲演唱者声音替换为任意用户选择的音色

最新Ai工具

新

RubricPro 美国🇺🇸

RubricPro 是一款基于人工智能的评分工具，能够根据用户自定义的评分标准（Rubric）快速评估论文、简历、商业计划等文档，帮助教育工作者、招聘人员和专业人士高效完成评分任务。

新

Peek 美国🇺🇸

Peek 是一款基于人工智能的浏览器工作空间工具，能够自动整理和总结用户的浏览器标签。它通过AI技术帮助用户高效管理网页内容，提升工作效率，让用户在探索互联网的无限知识时保持专注和高效。

新

OpinioAI 美国🇺🇸

OpinioAI 是一个基于人工智能的市场研究平台，能够快速生成AI买家画像和市场细分，帮助用户理解目标受众的偏好、兴趣和意见。用户还可以利用自有数据构建专属模型，进行更精准的研究。

新

Go Eliza 美国🇺🇸

Go Eliza 是一家利用人工智能技术直接与酒店进行谈判以获取更优惠预订价格的平台，旨在为用户提供更具性价比的酒店预订服务。

新

Flowmapp 美国🇺🇸

Flowmapp 是一款强大的视觉化平台，专为规划令人印象深刻的网页设计项目而设计。它支持创建项目简介、网站地图、结构、线框图、内容、估算和发票，适用于团队、代理机构、设计师、产品团队、UX 设计师、开发人员、初创公司和工作室。

新

Feedback Navigator 美国🇺🇸

Feedback Navigator 是一款基于人工智能的用户反馈分析工具，能够快速收集客户反馈数据并提取有价值的见解。它支持从多个平台（如 Trustpilot、Booking 和 Yelp）导入数据，提供自定义分类、情感分析、常见请求检测等功能，帮助企业更好地理解客户需求并采取行动。

3 Replies to “NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型，实现5.63%历史最低错误率”

Donnell说道：

2025年8月12日 15:46

Hello there! This post couldn’t be written any better!
Going through this article reminds me of my previous roommate!
He always kept preaching about this. I’ll forward this post to him.
Pretty sure he’ll have a good read. I appreciate you for sharing!
kojo forex说道：

2025年8月12日 17:02

Just desire to say your article is as surprising. The clarity in your post is simply nice and i can assume you are an expert on this subject.
Well with your permission allow me to grab your feed to keep up to date with forthcoming
post. Thanks a million and please continue
the enjoyable work.
best airdrops说道：

2025年8月12日 17:58

Hi! I just wanted to ask if you ever have any trouble with
hackers? My last blog (wordpress) was hacked and I ended up
losing many months of hard work due to no data backup.
Do you have any methods to stop hackers?

NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型，实现5.63%历史最低错误率

最新Ai信息

最新Ai工具

3 Replies to “NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型，实现5.63%历史最低错误率”

发表回复

热门AI推荐