首页 > 快讯 > OpenAI 新发布“即时API”:使AI语音助手如同真人般交流

OpenAI 新发布“即时API”:使AI语音助手如同真人般交流

发布时间：2025-08-29 09:26:10 | 责任编辑：吴昊 | 浏览量：154 次

OpenAI 正式发布了其面向生产环境的“实时 API”，标志着公司在语音交互技术领域迈出了重要一步。该 API 主要面向为客户支持、教育或个人生产力等实际应用构建语音助手的公司和开发者，其核心组件是全新的 GPT-Realtime 模型。该模型能够直接生成和处理语音，无需传统的文本转换步骤，从而实现更快、更自然的对话。
全新的 GPT-Realtime 模型在技术上实现了多项突破。它现在可以捕捉并理解笑声等非语言线索，在同一句话中流畅地切换不同语言，并根据指令调整语气，例如“以友好的法国口音”或“快速而专业”地说话。此外，该模型新增了两种声音:Cedar 和 Marin，并对现有声音进行了优化，进一步提升了用户体验。
在基准测试中，GPT-Realtime 表现出色，其准确率在 Big Bench Audio 上达到了82.8%（高于65.6%），在 MultiChallenge 上达到了30.5%（高于20.6%），在 ComplexFuncBench 上达到了66.5%（高于49.7%）。这些数据表明，新模型在处理复杂指令和多语言任务方面有显著进步。
新版 API 简化了工具集成，使模型能够更可靠地选择和使用正确的工具及参数。开发者现在可以通过 SIP 和远程 MCP 服务器连接外部服务，并使用可重复使用的提示来保存不同的配置。
此外，图像输入功能也已上线。用户可以在对话中发送屏幕截图或照片，模型可以引用并理解图像中的内容，例如读取文本或回答相关问题。开发者可以灵活控制模型所能看到的内容范围。
对于成本控制，新 API 允许开发者设置令牌限制并精简长会话，同时，GPT-Realtime 的价格也降低了20%。目前，每百万音频输入令牌价格为32美元，每百万输出令牌为64美元，缓存输入令牌价格为每百万0.40美元。
OpenAI 强调，该 API 能够检测并终止违反其政策的对话，但同时也指出，开发者应自行添加额外的安全保障。在数据隐私方面，OpenAI 提供了专门的选项，允许欧盟用户选择在欧盟境内存储数据，并为企业用户制定了特殊的隐私规则，以确保数据安全合规。

OpenAI 于 2024 年 10 月 1 日在旧金山举行的开发者活动上，正式推出了实时 API（Realtime API），旨在让开发者能够构建低延迟、多模态的语音转语音体验

。2024 年 12 月 18 日，OpenAI 进一步升级了实时 API，支持 WebRTC 技术，开发者仅需 12 行代码即可实现实时语音聊天机器人

。

主要功能与特点

实时语音对话：用户可以与 AI 进行自然流畅的语音交流，AI 能够即时响应用户的语音输入，提供低延迟的对话体验

。
简化开发流程：实时 API 利用 WebRTC 技术，与传统的 WebSockets 集成相比，显著简化了开发流程，降低了开发复杂性和时间成本

。
支持多种应用场景：开发者可以利用实时 API 创建各种应用场景，包括在线客服、语音助手、教育培训、旅行应用程序等

。
多模态交互：结合 GPT-4o 模型，支持语音、文本、视频等多种输入输出格式，实现更丰富的交互体验

。

实际应用案例

Genspark 的 Call For Me：利用 OpenAI 实时 API 和语音转语音技术，AI 可以拨打真实电话并进行自然流畅的对话，处理如预订预约、重新安排送货等任务

。
Wanderlust 旅行计划应用：用户可以通过语音与应用对话，以自然说话的方式规划行程，系统允许在说话过程中打断，模仿人类日常的交流场景

。

开发者体验与支持

开发者友好：OpenAI 的实时 API 设计注重开发者体验，提供简单易用的接口和丰富的文档支持，帮助开发者快速构建和部署语音应用

。
成本优化：相比之前的模型，实时 API 的使用成本大幅降低，最低达到每分钟 0.3 美分

。

未来展望

OpenAI 的实时 API 为语音助手的未来发展开辟了新的可能性，AI 语音助手将能够像真人一样与用户进行自然、实时的沟通，广泛应用于客户服务、教育、医疗等多个领域

。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：谷歌 Veo 视频工具发布新版本：引入积分系统，每月允许用户免费制作AI视频

下一篇：全新语言模型GPT-Realtime由OpenAI推出，专为语音AI助手量身打造

OpenAI 新发布“即时API”:使AI语音助手如同真人般交流

主要功能与特点

实际应用案例

开发者体验与支持

未来展望

最新Ai信息

最新Ai工具

热门AI推荐