首页 > 快讯 > OpenAI上新:语音转文本、文本转语音2套新模型
OpenAI fm
OpenAI上新:语音转文本、文本转语音2套新模型
发布时间:2025-03-24 09:29:19 | 责任编辑:字母汇 | 浏览量:33 次
《OpenAI上新:语音转文本、文本转语音2套新模型》相关软件

1. OpenAI发布两款新的语音转文本(STT)模型(gpt-4o-transcribe和gpt-4o-mini-transcribe)
两款模型:gpt-4o-transcribe 和 gpt-4o-mini-transcribe,比之前的 Whisper 价格更优,性能更好,尤其在处理口音、噪音和不同语速方面表现更佳。
先是价格对比
- Whisper(OpenAI 部署版): $0.006/min
- gpt-4o-transcribe: ~ $0.006/min
-
gpt-4o-mini-transcribe: ~ $0.003/min
再是错误率对比(越低越好)
这俩 endpoint,一个是 transcriptions,另一个是translations,同样可以用于新模型。前者是纯转文字,后者是转文字+翻译(仅限翻译成英文)。
剩下的,是一些接口参数更新:
- 时间戳 (Timestamps):通过设置 timestamp_granularities 参数,可以获取带有时间戳的 JSON 输出,精确到句子片段或单词级别。
- 流式转录 (Streaming transcriptions):通过设置 stream=True,可以在模型完成音频片段的转录后立即接收到 transcript.text.delta 事件,最终会收到包含完整转录的 transcript.text.done 事件。
-
实时 API (Realtime API):对于正在进行的音频流(例如实时会议或语音输入),可以通过 WebSocket 连接实时发送音频数据并接收转录事件。
详细文档:https://platform.openai.com/docs/guides/speech-to-text
2. 新推出文本转语音(TTS)模型gpt-4o-mini-tts,支持指定内容和风格,最大支持2000 token;
模型名称是 gpt-4o-mini-tts 可控性很强的 TTS:
- 可以指定要说的内容,如:“我是练习时长两年半的个人练习生”
-
可以指定说话的风格,如:“用娇滴滴的语气”
详细文档:https://platform.openai.com/docs/guides/text-to-speech
3. 推出体验网站OpenAI fm作为语音调试PlayGround,具有代码一键导出功能
这是一个调试语音的 PlayGround,挺好玩的
OpenAI fm 是 OpenAI 推出的一个互动演示平台,旨在让开发者体验其最新的文本转语音(TTS)模型。
在 OpenAI fm 上,用户可以选择不同的语音风格和情感表达,输入希望转换为语音的文本内容,预览生成的语音,并下载音频文件。
4.结论
- STT 很实用,Whisper 可以退役了
- TTS 效果一般,不推荐用
-
PlayGround 的设计很不错,代码导出很方便