首页 > 快讯 > NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型,实现5.63%历史最低错误率

NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型,实现5.63%历史最低错误率

发布时间:2025-07-18 10:45:16 | 责任编辑:张毅 | 浏览量:170 次

NVIDIA刚刚发布了Canary-Qwen-2.5B,这是一款突破性的自动语音识别(ASR)和语言模型(LLM)混合模型,以创纪录的5.63%词错率(WER)荣登Hugging Face OpenASR排行榜榜首。该模型获得CC-BY许可,具有商业许可和开源特性,为企业级语音AI发展扫清了障碍。
此次发布标志着重要的技术里程碑,Canary-Qwen-2.5B将转录和语言理解统一到单一模型架构中,支持直接从音频执行摘要和问答等下游任务。这种创新架构彻底改变了传统ASR流程,将转录和后处理从独立阶段整合为统一工作流程。
该模型在多个维度创下新纪录:
Canary-Qwen-2.5B的核心创新在于其混合架构,包含两个关键组件:
FastConformer编码器专门用于低延迟和高精度转录,而Qwen3-1.7B LLM解码器则是未经修改的预训练大型语言模型,通过适配器接收音频转录标记。
这种适配器设计确保了模块化,允许Canary编码器分离,并将Qwen3-1.7B作为独立LLM运行用于基于文本的任务。单一部署即可处理口语和书面输入的下游语言任务,提升了多模态灵活性。
与许多受非商业许可约束的研究模型不同,Canary-Qwen-2.5B采用CC-BY许可发布,开启了广泛的商业应用场景:
该模型的LLM感知解码功能还提升了标点符号、大写字母和上下文准确度,这些往往是传统ASR输出的薄弱环节。
Canary-Qwen-2.5B针对多种NVIDIA GPU进行了优化,支持从数据中心的A100、H100到工作站RTX PRO6000,再到消费级GeForce RTX5090等硬件。这种跨硬件类别的扩展性使其适用于云推理和内部边缘工作负载。
通过开源该模型及其训练方案,NVIDIA研究团队旨在促进社区驱动的语音AI进步。开发者可以混合搭配其他兼容NeMo的编码器和LLM,为新领域或语言创建特定任务的混合模型。
该版本还为以LLM为中心的ASR开创了先河,其中LLM不再是后处理器,而是集成在语音转文本流程中的核心代理。这种方法反映了向代理模型迈进的更广阔趋势——能够基于现实世界多模态输入进行全面理解和决策的系统。
NVIDIA的Canary-Qwen-2.5B不仅仅是一个ASR模型,更是将语音理解与通用语言模型相集成的蓝图。凭借SoTA性能、商业可用性以及开放的创新途径,该版本有望成为企业、开发者和研究人员解锁下一代语音优先AI应用的基础工具。

NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型,实现5.63%历史最低错误率-项目/模型网址:
Hugging Face
NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型,实现5.63%历史最低错误率

NVIDIA 最新发布的 Canary-Qwen-2.5B 是一款突破性的自动语音识别(ASR)和语言模型(LLM)混合模型,以创纪录的 5.63% 词错率(WER)荣登 Hugging Face OpenASR 排行榜榜首,成为商用级超高速语音识别新标杆。该模型采用 CC-BY 许可,具有商业可用性和开源特性,支持企业级语音 AI 开发,应用场景包括企业转录服务、实时会议总结、语音控制 AI 代理等。

Canary-Qwen-2.5B 的核心创新在于其混合架构:FastConformer 编码器用于低延迟、高精度转录,Qwen3-1.7B LLM 解码器通过适配器接收音频转录标记,支持直接从音频执行摘要和问答等下游任务,将转录和语言理解统一到单一模型架构中,彻底改变传统 ASR 流程。此外,该模型基于 234,000 小时多样化英语语音数据集训练,参数仅 25 亿,处理速度可比实时快 418 倍,且针对多种 NVIDIA GPU(从数据中心到消费级)进行了优化,部署灵活性高。

通过开源该模型及其训练方案,NVIDIA 旨在推动社区驱动的语音 AI 进步,使开发者能够混合搭配其他兼容 NeMo 的编码器和 LLM,为新领域或语言创建特定任务的混合模型。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

3 Replies to “NVIDIA AI发布Canary-Qwen-2.5B商用超快语音识别模型,实现5.63%历史最低错误率”

  1. Donnell说道:

    Hello there! This post couldn’t be written any better!
    Going through this article reminds me of my previous roommate!
    He always kept preaching about this. I’ll forward this post to him.
    Pretty sure he’ll have a good read. I appreciate you for sharing!

  2. kojo forex说道:

    Just desire to say your article is as surprising. The clarity in your post is simply nice and i can assume you are an expert on this subject.
    Well with your permission allow me to grab your feed to keep up to date with forthcoming
    post. Thanks a million and please continue
    the enjoyable work.

  3. best airdrops说道:

    Hi! I just wanted to ask if you ever have any trouble with
    hackers? My last blog (wordpress) was hacked and I ended up
    losing many months of hard work due to no data backup.
    Do you have any methods to stop hackers?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

热门AI推荐