NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型,实现5.63%历史最低错误率
发布时间:2025-07-18 10:45:16 | 责任编辑:张毅 | 浏览量:14 次
NVIDIA刚刚发布了Canary-Qwen-2.5B,这是一款突破性的自动语音识别(ASR)和语言模型(LLM)混合模型,以创纪录的5.63%词错率(WER)荣登Hugging Face OpenASR排行榜榜首。该模型获得CC-BY许可,具有商业许可和开源特性,为企业级语音AI发展扫清了障碍。
此次发布标志着重要的技术里程碑,Canary-Qwen-2.5B将转录和语言理解统一到单一模型架构中,支持直接从音频执行摘要和问答等下游任务。这种创新架构彻底改变了传统ASR流程,将转录和后处理从独立阶段整合为统一工作流程。
该模型在多个维度创下新纪录:
Canary-Qwen-2.5B的核心创新在于其混合架构,包含两个关键组件:
FastConformer编码器专门用于低延迟和高精度转录,而Qwen3-1.7B LLM解码器则是未经修改的预训练大型语言模型,通过适配器接收音频转录标记。
这种适配器设计确保了模块化,允许Canary编码器分离,并将Qwen3-1.7B作为独立LLM运行用于基于文本的任务。单一部署即可处理口语和书面输入的下游语言任务,提升了多模态灵活性。
与许多受非商业许可约束的研究模型不同,Canary-Qwen-2.5B采用CC-BY许可发布,开启了广泛的商业应用场景:
该模型的LLM感知解码功能还提升了标点符号、大写字母和上下文准确度,这些往往是传统ASR输出的薄弱环节。
Canary-Qwen-2.5B针对多种NVIDIA GPU进行了优化,支持从数据中心的A100、H100到工作站RTX PRO6000,再到消费级GeForce RTX5090等硬件。这种跨硬件类别的扩展性使其适用于云推理和内部边缘工作负载。
通过开源该模型及其训练方案,NVIDIA研究团队旨在促进社区驱动的语音AI进步。开发者可以混合搭配其他兼容NeMo的编码器和LLM,为新领域或语言创建特定任务的混合模型。
该版本还为以LLM为中心的ASR开创了先河,其中LLM不再是后处理器,而是集成在语音转文本流程中的核心代理。这种方法反映了向代理模型迈进的更广阔趋势——能够基于现实世界多模态输入进行全面理解和决策的系统。
NVIDIA的Canary-Qwen-2.5B不仅仅是一个ASR模型,更是将语音理解与通用语言模型相集成的蓝图。凭借SoTA性能、商业可用性以及开放的创新途径,该版本有望成为企业、开发者和研究人员解锁下一代语音优先AI应用的基础工具。
Hugging Face
NVIDIA 最新发布的 Canary-Qwen-2.5B 是一款突破性的自动语音识别(ASR)和语言模型(LLM)混合模型,以创纪录的 5.63% 词错率(WER)荣登 Hugging Face OpenASR 排行榜榜首,成为商用级超高速语音识别新标杆。该模型采用 CC-BY 许可,具有商业可用性和开源特性,支持企业级语音 AI 开发,应用场景包括企业转录服务、实时会议总结、语音控制 AI 代理等。
Canary-Qwen-2.5B 的核心创新在于其混合架构:FastConformer 编码器用于低延迟、高精度转录,Qwen3-1.7B LLM 解码器通过适配器接收音频转录标记,支持直接从音频执行摘要和问答等下游任务,将转录和语言理解统一到单一模型架构中,彻底改变传统 ASR 流程。此外,该模型基于 234,000 小时多样化英语语音数据集训练,参数仅 25 亿,处理速度可比实时快 418 倍,且针对多种 NVIDIA GPU(从数据中心到消费级)进行了优化,部署灵活性高。
通过开源该模型及其训练方案,NVIDIA 旨在推动社区驱动的语音 AI 进步,使开发者能够混合搭配其他兼容 NeMo 的编码器和 LLM,为新领域或语言创建特定任务的混合模型。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。