首页 > 快讯 > 全新的英伟达开源语音识别模型 Parakeet-TDT-0.6B-V2 发布，大幅增强语音转写功能

全新的英伟达开源语音识别模型 Parakeet-TDT-0.6B-V2 发布，大幅增强语音转写功能

发布时间：2025-05-06 09:49:54 | 责任编辑：张毅 | 浏览量：271 次

近日，英伟达在 Hugging Face 平台上推出了其最新的自动语音识别（ASR）模型 ——Parakeet-TDT-0.6B-V2。这一新模型不仅在性能上有显著提升，还将开源理念与商业应用相结合，吸引了广泛关注。
超强转录能力
Parakeet-TDT-0.6B-V2的最大亮点在于其出色的转录效率。据称，该模型能够在仅仅一秒内完成60分钟音频的转录，极大提高了语音处理的速度。这一效率让开发者和企业在构建语音识别和转录服务时，能够获得更快的反馈和更高的生产力。
在技术参数上，Parakeet-TDT-0.6B-V2拥有6亿个参数，结合了 FastConformer 编码器和 TDT 解码器架构。这一设计使得该模型在 Hugging Face 的开放 ASR 排行榜上脱颖而出，当前其平均 “词错误率”（WER）仅为6.05%，接近市面上多个商业转录工具的表现，例如 OpenAI 的 GPT-4o-transcribe(2.46%)和 ElevenLabs Scribe(3.3%)。
广泛应用场景
Parakeet-TDT-0.6B-V2于2025年5月1日全球发布，旨在帮助开发者、研究人员和行业团队构建多样化的应用，包括转录服务、语音助手、字幕生成器以及对话式 AI 平台等。该模型支持标点符号、大小写字母的处理，并提供详细的逐字时间戳，满足各种语音转文本的需求。
开发者可以利用英伟达的 NeMo 工具包轻松部署该模型，支持 Python 和 PyTorch 等开发环境的兼容性，既可直接使用，也可根据特定需求进行微调。
训练数据与模型优化
Parakeet-TDT-0.6B-V2的训练数据来自名为 Granary 的大规模语音数据集，该数据集包含约12万小时的英语音频，其中包括1万小时的高质量人工转录数据和11万小时的伪标记语音。这些数据来源于多个知名数据集，如 LibriSpeech 和 Mozilla Common Voice，确保了模型的训练质量和多样性。
在评估方面，该模型经过多个英语 ASR 基准测试验证，显示出良好的泛化能力。即使在复杂的噪声环境下，它也能保持稳定的性能，适用于各种音频格式的转录。
兼容性与效率
为了确保广泛的应用场景，Parakeet-TDT-0.6B-V2针对英伟达的多款 GPU 硬件进行了优化，如 A100、H100、T4和 V100。虽然高端 GPU 能最大化其性能，但即使在只有2GB RAM 的系统上，该模型也能够顺利运行，这为其在不同设备上的应用提供了更多可能。
值得注意的是，英伟达在开发该模型时未使用任何个人数据，符合其负责任的 AI 开发框架。此外，英伟达还提供了详细的训练过程文档和数据集来源信息，确保用户在使用过程中能够理解模型的背景和依据。
Parakeet-TDT-0.6B-V2的发布不仅展示了英伟达在自动语音识别领域的创新实力，也为开发者提供了一个强大且灵活的工具，助力他们在各自的领域中实现更多可能。
huggingface:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

英伟达于2025年5月1日在Hugging Face平台上发布了全新的开源自动语音识别（ASR）模型Parakeet-TDT-0.6B-V2。该模型在语音转录能力上实现了显著提升，具有以下特点：

性能提升

转录速度：Parakeet-TDT-0.6B-V2能够在1秒内转录60分钟的音频，其RTFx（实时因子）性能达到3380，速度远超其他同类模型。
准确率：该模型在Hugging Face的开放ASR排行榜中以6.05%的平均词错误率（WER）位居首位，这意味着每100个词中仅有约6个词可能出现错误。

技术创新

架构设计：该模型基于FastConformer编码器架构和TDT解码器开发，采用全注意力机制训练，能够高效处理长达24分钟的音频片段。
时间戳预测：支持精确的单词级时间戳预测，这对于字幕生成等需要精确时间同步的应用场景非常关键。
自动标点和大写：模型能够自动在转录文本中添加标点符号和大写字母，生成自然流畅的文字。

应用场景

Parakeet-TDT-0.6B-V2适用于多种语音转录需求，包括：

为会议、播客、讲座生成字幕。
为客服语音记录建立文本索引。
开发基于语音的搜索引擎。
转录歌曲歌词。

开源与使用

开源许可：该模型采用商业许可的Creative Commons CC-BY-4.0许可证，允许开发者免费使用、修改和商业化部署。
使用方式：开发者可以通过NVIDIA的NeMo工具包安装和部署该模型。此外，模型还支持在NVIDIA GPU加速系统上运行，以实现更快的训练和推理。

Parakeet-TDT-0.6B-V2凭借其卓越的性能和开源优势，有望成为语音识别领域的强大工具。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。