首页 > 快讯 > 全新语言模型GPT-Realtime由OpenAI推出，专为语音AI助手量身打造

全新语言模型GPT-Realtime由OpenAI推出，专为语音AI助手量身打造

发布时间：2025-08-29 09:30:11 | 责任编辑：张毅 | 浏览量：43 次

OpenAI 在凌晨1点举行了技术直播，正式发布了其全新的语音模型 ——GPT-Realtime。这一多模态模型专为语音 AI Agent 设计，旨在生成更加自然流畅的语音，能够模仿人类丰富多样的语调、情感和语速。GPT-Realtime 的应用场景广泛，涵盖了客服、教育、金融和医疗等多个领域，为打造智能语音助手提供了强大的支持。
GPT-Realtime 新增了两种独特的语音风格 ——Marin 和 Cedar，同时对原有的八种语音进行了全面升级。与传统语音模型不同，GPT-Realtime 不仅能够生成语音，还具备智力、推理和理解能力。例如，模型可以准确捕捉笑声等非语言信号，并在对话中灵活切换语言，适应不同的场景需求。
在评估方面，GPT-Realtime 在多种语言环境下的字母数字序列检测准确率显著提升，推理能力评估中的准确率高达82.8%，成为当前智能语音模型中的佼佼者。指令遵循能力的改进也是该模型的一大亮点，开发者可以通过自定义指令，提升模型的响应效果。在 MultiChallenge 音频基准测试中，GPT-Realtime 的指令遵循准确率从20.6% 提升至30.5%。
除了语音生成能力，GPT-Realtime 还支持图像输入。开发者在会话中可以将图像与音频或文本结合使用，使得模型能够基于用户所见内容展开对话，提供更加个性化的交互体验。此外，Realtime API 的全新功能让开发者可以方便地连接到远程 MCP 服务器，简化了集成过程，提高了开发效率。
在安全与隐私方面，Realtime API 配备了多层保护措施，通过实时监测对话内容，防止滥用行为的发生。同时，开发者可以根据需要添加自定义安全防护，确保使用环境的安全。
从发布之日起，所有开发者都可以使用新的 Realtime API 和 GPT-Realtime 模型，音频输入 token 的价格降低了20%。此外，开发者还可以灵活设置智能 token 限制，以降低长时间对话的成本。
划重点:
🌟 GPT-Realtime 是 OpenAI 最新发布的多模态语音模型，适用于客服、教育等多个领域。
📈 该模型的推理能力和指令遵循准确率有显著提升，为开发者提供更强大的支持。
🔒 Realtime API 配备安全防护措施，确保用户交互的安全性和隐私性。

OpenAI 已于 2025 年 8 月 29 日正式发布其最新语音模型 GPT-Realtime，这是一款专为语音 AI Agent 设计的多模态端到端（Speech-to-Speech）模型，标志着语音 AI 进入全新的“Voice Agent 时代”

。

核心亮点

端到端语音交互：GPT-Realtime 通过单一模型直接完成从语音输入到语音输出的全过程，避免了传统的“语音识别—文本推理—语音合成”多阶段流程，显著降低了延迟并保留了语音细节

。
自然流畅的语音表现：模型支持丰富的语调、情感和语速调节，能够模仿人类多样化的表达方式。新增“Cedar”和“Marin”两种全新语音，并对原有 8 种语音进行了全面优化

。
多模态理解能力：支持图像理解，可将图像信息与语音或文本对话相结合，适用于更复杂的交互场景

。
智能与推理能力提升：在 Big Bench Audio 基准测试中，推理准确率从旧版的 65.6% 提升至 82.8%；在 MultiChallenge 和 ComplexFuncBench 测试中，指令遵从和函数调用能力也有显著增强

。
多语言无缝切换：支持在对话中实时切换语言，同时保持上下文连贯性和人设一致性

。
捕捉非语言信号：能够识别并响应笑声、停顿等非语言线索，使交互更贴近人类自然对话

。

应用场景与可用性

GPT-Realtime 面向企业和开发者，适用于客户支持、教育辅导、金融咨询、医疗健康等多个领域，帮助构建更自然、可靠的语音 AI Agent

。Realtime API 已正式投入生产环境，价格较前代下调 20%，并支持电话接入（SIP）、远程工具调用（MCP）和异步函数调用等工程化功能

。

更多技术细节可参考 OpenAI 官方博客：Introducing GPT-Realtime

。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。