首页 > 快讯 > OpenAI推出三款实时语音新模型，GPT-5级推理能力正式实现

OpenAI推出三款实时语音新模型，GPT-5级推理能力正式实现

发布时间：2026-05-08 12:18:58 | 责任编辑：张毅 | 浏览量：36 次

人工智能巨头 OpenAI 再次刷新了语音交互的技术边界，正式推出了三款全新的实时语音模型：GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper。这三款模型目前已集成至 Realtime API 供开发者使用，旨在从底层技术上攻克语音交互中长期存在的延迟高、无法自然打断以及多语言支持难等痛点。
作为此次发布的重头戏，GPT-Realtime-2 被定义为目前最智能的 AI 语音模型，也是首个具备 GPT-5 级推理能力的语音工具。与传统的语音助手不同，它在保持对话极度自然流畅的同时，能够实时进行复杂的逻辑推理、灵活调用外部工具，并能精准识别且处理用户的打断或纠正。这一突破意味着未来的语音助手将不再只是简单的指令执行者，而是能处理多步骤复杂任务的实时协作伙伴。
在定价策略上，GPT-Realtime-2 的音频输入费用设定为每百万 Token 32 美元（约合人民币 218 元），输出费用为 64 美元（约合人民币 436 元），而缓存输入的成本显著降低，仅需 0.4 美元。
除了核心推理模型，另外两款功能性模型也各具特色。GPT-Realtime-Translate 展现了强大的翻译性能，支持 70 种输入语言与 13 种输出语言的即时转换，其翻译速度几乎与说话者同步，能够胜任跨国会议等高要求的实时沟通场景。而 GPT-Realtime-Whisper 则专注于追求极致的流式转录，实现了“音随人动”的低延迟体验，极大缩短了会议记录和实时字幕的等待时间。这两款模型的计费方式更为灵活，分别按分钟计费，价格为每分钟 0.034 美元和 0.017 美元。
业内分析认为，OpenAI 这一系列动作标志着 AI 语音交互正从“简单响应”向“深度实时理解”跨越，进一步巩固了其在智能时代的技术领先地位。

这是一篇关于OpenAI 发布三款实时语音模型，GPT-5 级推理能力落地的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：报告显示全球 AI 使用量飙升，富国与穷国间的鸿沟随之扩大。

下一篇：商汤科技推出日日新 SenseNova 6.7 Flash-Lite，多模态性能迎来质的飞跃

OpenAI推出三款实时语音新模型，GPT-5级推理能力正式实现

最新Ai信息

最新Ai工具

热门AI推荐