首页 > 快讯 > 能说会唱还懂搞笑！小米推出MiMo-V2-TTS大模型：方言与情感轻松驾驭

能说会唱还懂搞笑！小米推出MiMo-V2-TTS大模型：方言与情感轻松驾驭

发布时间：2026-03-19 10:21:24 | 责任编辑：张毅 | 浏览量：109 次

语音合成技术正从“机械复读”向“情感共鸣”完成质的跨越。3月19日，小米正式发布自研语音合成大模型 Xiaomi MiMo-V2-TTS。这不仅是一个能让机器“开口说话”的工具，更是一个集演、说、唱于一体的“全能声优”。
MiMo-V2-TTS 基于小米自研的 Audio Tokenizer（音频分词器）与多码本语音-文本联合建模架构。在经过上亿小时语音数据的大规模预训练后，它展现出了惊人的多粒度语音风格控制力:
情感大师: 模型支持从整体定调到局部情绪的精准调节。它能在同一句话内实现语气的自然转折和情感的细腻递变，完美还原人类说话时的自然韵律。
跨界歌者: 除了说话，它还具备高质量的歌声合成能力，能够准确表达音高与节奏，唱腔自然且富有表现力。
方言达人: 为了贴近不同地域用户的使用习惯，模型支持东北话、四川话、河南话、粤语、台湾腔等多种方言，并能进行角色化、风格化的演绎。
值得一提的是，MiMo-V2-TTS 极大地简化了交互成本。它能智能识别文本中的标点符号、语气词及强调标记，并自动将其转化为恰当的语音表达，全程无需用户进行额外的标注或手动干预。
对于小米而言，这款大模型的发布是其语音技术路线图上的关键里程碑。在未来的规划中，小米计划覆盖中英文之外的更多语种，并将其与 MiMo-V2-Omni 的多模态理解能力深度融合。
当 AI Agent 不仅能看懂世界，更能以富有感染力的人类声音讲述世界，人机交互的未来形态已跃然纸上。随着 MiMo-V2-TTS 的落地，小米生态内的智能设备将不再是冰冷的终端，而是更具“人味儿”的数字伙伴。

这是一篇关于能说会唱还会耍宝！小米发布 MiMo-V2-TTS 大模型：方言、情感信手拈来的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：小米推出自研MiMo-V2-TTS语音合成大模型，实现多方言与情感深度调控

下一篇：淘宝百亿补贴推出“龙虾养殖设备”专场：Mac mini直降现货仅售3999元

能说会唱还懂搞笑！小米推出MiMo-V2-TTS大模型：方言与情感轻松驾驭

最新Ai信息

最新Ai工具

热门AI推荐