腾讯自研ASR语音识别大模型混元已集成至ima平台
发布时间:2025-07-23 08:22:10 | 责任编辑:张毅 | 浏览量:7 次
7月22日,腾讯混元宣布其自主研发的ASR(语音识别)大模型正式应用于ima平台,首次在手机App端实现了语音输入功能,为用户带来了“出口成章”的便捷体验。用户现在可以通过语音直接输入问题或记录灵感,无需手动敲击键盘,极大地提升了输入效率。
腾讯混元ASR大模型以其敏锐的听觉和智能的理解能力脱颖而出,在复杂环境下依然能够准确识别语音,每分钟可识别300字,速度比手动输入快4倍,且识别结果更加精准自然。该模型采用业界首个基于双编码器的流式ASR架构,相比传统ASR技术,在语义理解能力上有了显著提升,尤其在中英文混杂等场景中表现更为出色。
此次ima平台引入的语音输入功能,覆盖了知识库问答、笔记创作等多个应用场景。用户在进行知识库查询或首页问答时,若问题较长,可直接通过语音输入;在撰写笔记时,ima则像一位会听音的笔记小助手,帮助用户进行创作,并能根据旧笔记快捷续写,实现无缝衔接。此外,iOS用户还可以通过添加桌面小组件,实现更快速的提问体验。
腾讯混元团队表示,未来将继续优化ASR大模型,提升方言识别和多语言识别能力,不断扩充支持的语言类型,以满足不同场景下的使用需求。此次语音输入功能的上线,不仅展示了腾讯混元在语音识别领域的技术实力,也为用户带来了更加高效、便捷的输入方式,开启了智能交互的新篇章。
腾讯混元自主研发的ASR(自动语音识别)大模型已正式接入 ima平台,成为腾讯“四个加速”战略中加速大模型创新与加速知识库建设的关键落子。
此次接入的核心亮点包括:
-
高准确率复杂场景识别:混元ASR大模型具备更强的抗噪能力与方言适配性,显著提升在会议、客服、教育等场景下的语音转写准确率。
-
与ima知识库深度协同:用户通过ima平台调用混元ASR能力后,可直接将语音内容结构化沉淀为个人或企业知识库,实现“边说边记”、“所听即所得”的AI工作台体验。
-
低延迟实时交互:结合腾讯云的TRTC实时音视频技术,端到端延迟可控制在300ms以内,支持实时字幕、语音指令等交互场景。
此次技术整合标志着腾讯混元大模型从底层能力向个人AI助手场景的进一步渗透,用户可通过ima平台以API或插件形式快速调用该ASR能力,无需额外训练即可在笔记、会议、访谈等场景中实现“语音一键转知识”。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。