首页 > 快讯 > MiniMax Audio推Speech- 02语音模型，一次性可以输入20万字符

MiniMax Audio推Speech- 02语音模型，一次性可以输入20万字符

发布时间：2025-04-02 11:37:23 | 责任编辑：字母汇 | 浏览量：463 次

《MiniMax Audio推Speech- 02语音模型，一次性可以输入20万字符》相关软件官网

备受关注的音频技术创新者MiniMax Audio正式发布了其全新的Speech-02系列语音模型，支持30多种语音，一次性可以输入20万字符。为用户带来更真实、更流畅、更便捷的音频体验。
全新的Speech-02系列是本次更新的核心亮点。据官方介绍，该系列在多语言覆盖能力上实现了显著提升，能够更准确、更地道地呈现多种语言的发音。
更令人惊喜的是，Speech-02的人声相似度高达99%，这意味着合成的语音听起来更加自然、贴近真人. 此外，该模型还实现了零节奏故障，彻底解决了音频播放过程中可能出现的卡顿和节奏不稳问题，保证了听感的连贯性和流畅性。值得强调的是，尽管在多方面进行了重大升级，Speech-02系列依然维持了原有的亲民价格。
除了核心的语音合成技术的提升，MiniMax Audio还推出了多项实用新功能。全新的“Read Anything”功能允许用户通过上传本地文件或粘贴网络URL，即可随时随地收听各类内容，极大地拓展了用户获取音频信息的渠道 [1，我们之前的对话]。无论是文档、电子书还是网页文章，用户都可以轻松转化为自己喜欢的音色进行聆听。
针对长文本处理的需求，MiniMax Audio推出了强大的“Long-Text Mode（长文本））”，该模式单次输入即可支持高达20万字符的异步语音合成，这使得创建音频书籍、播客等长音频内容变得前所未有的便捷，彻底解决了以往长文本合成时需要分段处理的困扰。
为了优化用户的使用体验，MiniMax Audio还对历史管理功能进行了增强，用户可以更方便地查看、删除和整理自己的语音合成历史和设置。同时，新增的“Discovery Hub”将所有新功能和更新内容集中展示，帮助用户快速了解和掌握MiniMax Audio的最新动态。
体验入口:https://www.minimax.io/audio

MiniMax Audio推Speech- 02语音模型，一次性可以输入20万字符

MiniMax Audio 最新推出的 Speech-02 语音模型在长文本语音合成领域实现了重大突破，支持 单次输入 20 万字符（约 3 万字），大幅提升了有声书、播客等长内容生成的效率。以下是该模型的核心亮点及行业影响：

1. 超长文本处理能力

20 万字符单次输入：远超前代模型（如 T2A-01 支持 1 万字符），可完整生成长篇内容（如整本小说章节），无需分段处理。
流式输出优化：结合 T2A Stream 技术，实现语音生成与播放同步，减少等待时间。

2. 多语言与高拟真度

支持 30+ 语言：包括中文、英语、日语等，音色库涵盖 300+ 预置选项（如新闻播报、ASMR 耳语等）。
情感与语调控制：可精确调节语速、音高，甚至模拟笑声、戏剧性停顿等细节，接近真人表现。

3. 商业化与成本优势

API 价格下调 50%：从 10 元/万字符降至 5 元/万字符，降低企业长文本语音合成成本。
适用场景：有声书制作、新闻播报、数字人配音等，已与起点中文网合作推出 AI 角色音色（如“说书先生”）。

行业影响

Speech-02 的推出进一步巩固了 MiniMax 在 中文语音合成 市场的领先地位，其长文本处理能力直接对标 ElevenLabs 等国际厂商，但更侧重中文场景优化。结合此前开源的 MiniMax-01 系列大模型（支持 400 万 token 上下文），MiniMax 正形成从文本到语音的完整 AIGC 生态。

未来，随着多模态交互需求增长，此类技术或加速应用于 AI 视频配音、实时翻译 等领域。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：腾讯发布GeometryCrafter：用AI解锁开放世界视频的几何一致性之美

下一篇：腾讯GeometryCrafter AI模型下载地址

MiniMax Audio推Speech- 02语音模型，一次性可以输入20万字符

1. 超长文本处理能力

2. 多语言与高拟真度

3. 商业化与成本优势

行业影响

最新Ai信息

最新Ai工具

热门AI推荐