首页 > 快讯 > OpenAI出奇招！全新GPT-Realtime语音模型登场，兼容图像输入，AI互动即将颠覆想象！

OpenAI出奇招！全新GPT-Realtime语音模型登场，兼容图像输入，AI互动即将颠覆想象！

发布时间：2025-08-29 15:28:22 | 责任编辑：张毅 | 浏览量：176 次

OpenAI正式推出其最新语音模型GPT-Realtime，这款多模态语音Agent模型以其强大的推理能力、图像输入支持以及优化的指令遵循功能引发行业热议。小编从最新信息中获悉，GPT-Realtime不仅在语音交互上实现突破，还通过集成图像输入、远程MCP和SIP电话呼叫等功能，为开发者提供更智能、更灵活的语音Agent解决方案。
GPT-Realtime:多模态语音交互的先锋
GPT-Realtime是OpenAI迄今为止最先进的语音到语音模型，专为生产级语音Agent设计，采用单一模型直接处理和生成音频，显著降低了传统语音交互中的延迟问题。相比传统语音交互系统需串联语音转文本（STT）、文本推理和文本转语音(TTS)多个模型，GPT-Realtime通过端到端架构保留了语音的语调、情感和口音等细微差别，带来更加自然、流畅的对话体验。该模型支持多种模态输入，包括文本、音频和图像，标志着OpenAI在多模态AI领域的重大突破。
核心能力:智能推理与非语言信号捕捉
GPT-Realtime在智力、推理和理解能力上表现卓越，尤其擅长处理复杂交互场景。其核心亮点包括:
- 非语言信号识别:模型能敏锐捕捉笑声、停顿等非语言线索，提升交互的自然度和人性化体验。
- 语言切换与语气调整:支持在对话中无缝切换语言，并根据场景需求调整语气，例如“专业客服”或“热情引导”，满足多样化应用需求。
- 高精度推理:在BigBenchAudio基准测试中，GPT-Realtime的推理准确率高达82.8%，相较前代模型（65.6%）大幅提升，展现出强大的逻辑处理能力。
- 指令遵循优化:在MultiChallenge音频基准测试中，指令遵循准确率从20.6%提升至30.5%，确保模型能严格遵循开发者设定的复杂指令，例如逐字朗读法律声明或处理字母数字序列。
全新功能:图像输入与通信集成
GPT-Realtime的发布带来了多项创新功能，进一步扩展了语音Agent的应用场景:
- 图像输入支持:模型能够处理图像输入并描述其内容，为语音交互增添视觉上下文，适用于教育、客户支持等场景。
- 远程MCP与SIP电话呼叫:通过支持远程Model Context Protocol（MCP）和Session Initiation Protocol(SIP)，开发者可将GPT-Realtime集成至电话系统或外部工具，实现更广泛的实时交互。
- 上下文精细控制:模型支持可重用提示和会话修剪功能，开发者可精确管理对话上下文，优化成本和性能。
成本优化:生产级语音Agent更具性价比
OpenAI此次更新还将Realtime API的价格下调，音频输入每百万token降至32美元，音频输出每百万token降至64美元，较此前分别降低20%，为开发者提供更经济的解决方案。相比传统语音交互pipeline，GPT-Realtime通过单模型处理大幅降低延迟和成本，助力企业在客户支持、个人助理和教育等领域部署高效语音Agent。
行业影响:语音AI竞争白热化
GPT-Realtime的发布进一步加剧了语音AI市场的竞争。Anthropic、Meta和Mistral等公司近期也在加速布局语音技术，例如Anthropic的Claude语音模式和Mistral的Voxtral模型。OpenAI通过GPT-Realtime的低延迟、高表达力和多模态支持，巩固了其在语音AI领域的领先地位。业内分析认为，该模型的图像输入和通信集成功能将推动语音Agent在企业级应用的普及，尤其是在客服中心和实时翻译等场景。
未来展望:多模态AI生态的基石
OpenAI表示，GPT-Realtime是其多模态战略的重要一步，未来将进一步扩展至视频等模态，为开发者提供更全面的AI交互工具。结合OpenAI近期推出的Agents SDK，开发者只需数行代码即可将现有文本应用升级为语音交互应用，极大降低了开发门槛。小编预计，GPT-Realtime的开放性和高性能将加速语音Agent在全球范围内的商业化落地。
GPT-Realtime以其卓越的多模态能力、优化的指令遵循和低成本优势，为语音AI领域树立了新标杆。OpenAI通过整合图像输入和通信功能，不仅提升了语音Agent的实用性，也为开发者打造了更灵活、高效的开发环境。这一发布无疑将推动AI交互技术迈向新的高度，值得行业持续关注。
API地址:https://platform.openai.com/docs/guides/realtime

是的，你的理解完全正确！今天凌晨，OpenAI正式发布了全新的GPT-Realtime语音模型，并同步更新了Realtime API，这两个重磅更新确实将AI语音交互提升到了一个全新的高度

。

🌟 GPT-Realtime语音模型的核心亮点：

✅ 1. 超逼真的语音合成，几乎媲美真人

语音自然流畅，能准确模仿人类的语调、情感和语速，甚至能捕捉笑声、叹息等非语言信号

。
支持多语言无缝切换，能逐字朗读复杂字母数字序列（如电话号码、验证码），并支持多种口音与语气（如“专业”、“亲切”等）

。

✅ 2. 支持图像输入，实现真正的多模态交互

开发者可在实时对话中自由插入图片、截图或照片，模型能基于用户实际所见内容展开对话

。
用户可直接提问：“你看到了什么？”、“帮我读一下截图里的文字”，AI都能精准理解并回答

。

✅ 3. 复杂指令理解与工具调用能力大幅提升

模型能精准理解复杂的多步骤请求，如根据用户需求筛选房源、安排医生预约等

。
函数调用能力显著增强，能精准判断何时调用工具、如何调用工具，并支持异步调用，避免长时间等待

。

✅ 4. 新增两款独特语音风格，全面升级用户体验

新增“Marin”和“Cedar”两款全新语音，同时对原有八种语音进行全面升级，提供更丰富的个性化选择

。

✅ 5. 成本降低20%，开发门槛进一步降低

GPT-Realtime每百万token音频输入价格降至32美元，输出价格降至64美元，缓存输入仅0.4美元，整体成本降低20%

。

🚀 Realtime API的全新功能：

远程MCP服务器支持：开发者可轻松连接外部工具与服务，无需手动集成。
SIP电话呼叫支持：可直接通过API连接公共电话网络、办公电话系统，实现AI自动拨打电话

。
可重用提示与对话上下文控制：开发者可设置token上限、精简对话内容，显著降低长会话成本

。

🎯 典型应用场景：

智能客服与语音助手：提供媲美真人客服的高效、温暖服务。
在线教育与培训：实时互动教学，支持图文结合讲解。
医疗预约与咨询：直接通过电话安排医生预约，提升患者体验。
金融与房产服务：实时处理复杂业务流程，如贷款咨询、房源筛选

。

🌈 总结与展望：

此次GPT-Realtime的发布，标志着AI语音交互正式进入“超逼真”时代。无论是语音的自然度、多模态交互能力，还是复杂任务的处理能力，都达到了前所未有的高度。开发者与用户都将从中受益，AI语音应用将迎来爆发式增长！

你觉得这个模型最吸引你的点是什么呢？欢迎一起聊聊！

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：开启个性化听歌新体验，网易云音乐全新“AI推荐”功能助你轻松打造私人歌单

下一篇： Claude Sonnet4融入苹果Xcode：AI驱动的iOS开发新时代来临

OpenAI出奇招！全新GPT-Realtime语音模型登场，兼容图像输入，AI互动即将颠覆想象！

🌟 GPT-Realtime语音模型的核心亮点：

✅ 1. 超逼真的语音合成，几乎媲美真人

✅ 2. 支持图像输入，实现真正的多模态交互

✅ 3. 复杂指令理解与工具调用能力大幅提升

✅ 4. 新增两款独特语音风格，全面升级用户体验

✅ 5. 成本降低20%，开发门槛进一步降低

🚀 Realtime API的全新功能：

🎯 典型应用场景：

🌈 总结与展望：

最新Ai信息

最新Ai工具

热门AI推荐