OpenAI 新发布“即时API”:使AI语音助手如同真人般交流
发布时间:2025-08-29 09:26:10 | 责任编辑:吴昊 | 浏览量:7 次
OpenAI 正式发布了其面向生产环境的“实时 API”,标志着公司在语音交互技术领域迈出了重要一步。该 API 主要面向为客户支持、教育或个人生产力等实际应用构建语音助手的公司和开发者,其核心组件是全新的 GPT-Realtime 模型。该模型能够直接生成和处理语音,无需传统的文本转换步骤,从而实现更快、更自然的对话。
全新的 GPT-Realtime 模型在技术上实现了多项突破。它现在可以捕捉并理解笑声等非语言线索,在同一句话中流畅地切换不同语言,并根据指令调整语气,例如“以友好的法国口音”或“快速而专业”地说话。此外,该模型新增了两种声音:Cedar 和 Marin,并对现有声音进行了优化,进一步提升了用户体验。
在基准测试中,GPT-Realtime 表现出色,其准确率在 Big Bench Audio 上达到了82.8%(高于65.6%),在 MultiChallenge 上达到了30.5%(高于20.6%),在 ComplexFuncBench 上达到了66.5%(高于49.7%)。这些数据表明,新模型在处理复杂指令和多语言任务方面有显著进步。
新版 API 简化了工具集成,使模型能够更可靠地选择和使用正确的工具及参数。开发者现在可以通过 SIP 和远程 MCP 服务器连接外部服务,并使用可重复使用的提示来保存不同的配置。
此外,图像输入功能也已上线。用户可以在对话中发送屏幕截图或照片,模型可以引用并理解图像中的内容,例如读取文本或回答相关问题。开发者可以灵活控制模型所能看到的内容范围。
对于成本控制,新 API 允许开发者设置令牌限制并精简长会话,同时,GPT-Realtime 的价格也降低了20%。目前,每百万音频输入令牌价格为32美元,每百万输出令牌为64美元,缓存输入令牌价格为每百万0.40美元。
OpenAI 强调,该 API 能够检测并终止违反其政策的对话,但同时也指出,开发者应自行添加额外的安全保障。在数据隐私方面,OpenAI 提供了专门的选项,允许欧盟用户选择在欧盟境内存储数据,并为企业用户制定了特殊的隐私规则,以确保数据安全合规。
。2024 年 12 月 18 日,OpenAI 进一步升级了实时 API,支持 WebRTC 技术,开发者仅需 12 行代码即可实现实时语音聊天机器人
。
主要功能与特点
-
实时语音对话:用户可以与 AI 进行自然流畅的语音交流,AI 能够即时响应用户的语音输入,提供低延迟的对话体验
。
-
简化开发流程:实时 API 利用 WebRTC 技术,与传统的 WebSockets 集成相比,显著简化了开发流程,降低了开发复杂性和时间成本
。
-
支持多种应用场景:开发者可以利用实时 API 创建各种应用场景,包括在线客服、语音助手、教育培训、旅行应用程序等
。
-
多模态交互:结合 GPT-4o 模型,支持语音、文本、视频等多种输入输出格式,实现更丰富的交互体验
。
实际应用案例
-
Genspark 的 Call For Me:利用 OpenAI 实时 API 和语音转语音技术,AI 可以拨打真实电话并进行自然流畅的对话,处理如预订预约、重新安排送货等任务
。
-
Wanderlust 旅行计划应用:用户可以通过语音与应用对话,以自然说话的方式规划行程,系统允许在说话过程中打断,模仿人类日常的交流场景
。
开发者体验与支持
-
开发者友好:OpenAI 的实时 API 设计注重开发者体验,提供简单易用的接口和丰富的文档支持,帮助开发者快速构建和部署语音应用
。
-
成本优化:相比之前的模型,实时 API 的使用成本大幅降低,最低达到每分钟 0.3 美分
。
未来展望
。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。