首页 > 快讯 > GPT-realtime 模型正式问世，由微软推出，强调逼真语音和多模态输入功能

GPT-realtime 模型正式问世，由微软推出，强调逼真语音和多模态输入功能

发布时间：2025-09-05 10:02:28 | 责任编辑：张毅 | 浏览量：115 次

微软正式宣布，其最新的语音转语音（S2S）模型 GPT-realtime 已在 Azure AI Foundry 平台上正式发布。这款新模型将微软在语音技术方面的多项改进整合到一个统一的产品中，其核心优势聚焦于自然的语言处理、卓越的音频质量以及更精准的指令跟随能力。
开发者现在可以通过全新的 Real-time API 访问 GPT-realtime。该模型旨在提供更自然、富有表现力的语音输出和更高质量的音频体验。作为此次发布的一部分，微软还推出了两种全新的语音选项——Marin 和 Cedar，旨在为用户带来逼真且清晰的语音合成效果。
微软在公告中强调了新模型的几项关键改进，包括增强的功能调用能力、更高的指令执行准确性，以及创新的图像输入支持。这项新功能允许用户在语音对话中加入图像并进行讨论，从而实现多模态交互，而无需依赖视频流。
除了技术层面的升级，微软还对定价模型进行了调整。与之前的 gpt-4o-realtime 预览版本相比，正式版的 gpt-realtime 价格降低了20%，成本将依据每百万代币（token）的使用量进行计算。
此次发布标志着微软正致力于为广大开发者和企业扩展其实时 AI 能力。通过将富有表现力的语音合成、高质量音频和多模态输入相结合，GPT-realtime 有望为从高级客户支持系统到创新的辅助功能工具等广泛的应用场景提供强大的技术支持。

是的，微软已在 2025 年 9 月 5 日正式宣布，其最新的语音转语音（S2S）模型 GPT-realtime 已在 Azure AI Foundry 平台全面上线。该模型主打更自然的语音合成、多模态输入（语音+图像）以及更低的延迟，标志着微软在实时 AI 语音交互领域迈出重要一步

。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： OpenAI 携手博通，AI 芯片将迎来大规模生产！

下一篇： MIT 研究显示九成企业 GenAI 项目挫败，评论指报告结论过于简单化

GPT-realtime 模型正式问世，由微软推出，强调逼真语音和多模态输入功能

最新Ai信息

最新Ai工具

热门AI推荐