首页 > 快讯 > 语音到文本的新标准：ElevenLabs 夺冠，谷歌 Gemini 凭借“多功能”位列第二

语音到文本的新标准：ElevenLabs 夺冠，谷歌 Gemini 凭借“多功能”位列第二

发布时间：2026-03-02 11:54:50 | 责任编辑：张毅 | 浏览量：74 次

Artificial Analysis 近日发布了其语音转文字（Speech-to-Text）基准测试的2.0版本(AA-WER v2.0)。测试结果显示，ElevenLabs 与谷歌在音频转录领域展现出极强的统治力。
在核心的词错率（WER）指标上，ElevenLabs 推出的 Scribe v2 以 2.3% 的极低错误率位居榜首。紧随其后的是谷歌的 Gemini3Pro，错误率为 2.9%。值得注意的是，谷歌并未针对转录任务对 Gemini 进行专项训练，这一优异表现完全得益于其强大的多模态通用能力。
其他主流模型表现如下:
Mistral Voxtral Small:以 3.0% 的错误率位列第三。
谷歌 Gemini3Flash:表现稳健，错误率为 3.1%。
OpenAI Whisper Large v3:作为最受欢迎的开源模型，此次以 4.2% 的错误率排在中游位置。
垫底阵营:阿里巴巴的 Qwen3ASR Flash（5.9%）、亚马逊的 Nova2Omni（6.0%）以及 Rev AI（6.1%）在测试中排名靠后。
在专门针对语音助手指令的 AA-AgentTalk 测试中，排名格局依然稳定。ElevenLabs Scribe v2和 Google Gemini3Pro 分别以 1.6% 和 1.7% 的错误率遥遥领先，展现了在处理短促、直接的语音交互时的极高可靠性。

这是一篇关于语音转文字新标杆：ElevenLabs 夺冠，谷歌 Gemini 凭“全能”位居次席的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：语音到文本的新标准：ElevenLabs 获得冠军，Google Gemini 以其“多功能性”排名第二

下一篇：美团全新产品在线首秀！Tabbit AI 浏览器测试版登场：融合全球顶级模型，智能助手代你处理繁琐工作

语音到文本的新标准：ElevenLabs 夺冠，谷歌 Gemini 凭借“多功能”位列第二

最新Ai信息

最新Ai工具

热门AI推荐