首页 > 快讯 > OpenAI上新：语音转文本、文本转语音2套新模型

OpenAI上新：语音转文本、文本转语音2套新模型

发布时间：2025-03-24 09:29:19 | 责任编辑：字母汇 | 浏览量：481 次

《OpenAI上新：语音转文本、文本转语音2套新模型》相关软件官网

OpenAI fm

1. OpenAI发布两款新的语音转文本（STT）模型(gpt-4o-transcribe和gpt-4o-mini-transcribe)

两款模型：gpt-4o-transcribe 和 gpt-4o-mini-transcribe，比之前的 Whisper 价格更优，性能更好，尤其在处理口音、噪音和不同语速方面表现更佳。

先是价格对比

Whisper（OpenAI 部署版）: $0.006/min
gpt-4o-transcribe: ~ $0.006/min
gpt-4o-mini-transcribe: ~ $0.003/min

再是错误率对比（越低越好）

这俩 endpoint，一个是 transcriptions，另一个是translations，同样可以用于新模型。前者是纯转文字，后者是转文字+翻译（仅限翻译成英文）。

剩下的，是一些接口参数更新：

时间戳（Timestamps）：通过设置 timestamp_granularities 参数，可以获取带有时间戳的 JSON 输出，精确到句子片段或单词级别。
流式转录（Streaming transcriptions）：通过设置 stream=True，可以在模型完成音频片段的转录后立即接收到 transcript.text.delta 事件，最终会收到包含完整转录的 transcript.text.done 事件。
实时 API （Realtime API）：对于正在进行的音频流（例如实时会议或语音输入），可以通过 WebSocket 连接实时发送音频数据并接收转录事件。

详细文档：https://platform.openai.com/docs/guides/speech-to-text

2. 新推出文本转语音（TTS）模型gpt-4o-mini-tts，支持指定内容和风格，最大支持2000 token；

模型名称是 gpt-4o-mini-tts 可控性很强的 TTS：

可以指定要说的内容，如：“我是练习时长两年半的个人练习生”
可以指定说话的风格，如：“用娇滴滴的语气”

详细文档：https://platform.openai.com/docs/guides/text-to-speech

3. 推出体验网站OpenAI fm作为语音调试PlayGround，具有代码一键导出功能

这是一个调试语音的 PlayGround，挺好玩的

OpenAI fm 是 OpenAI 推出的一个互动演示平台，旨在让开发者体验其最新的文本转语音（TTS）模型。

在 OpenAI fm 上，用户可以选择不同的语音风格和情感表达，输入希望转换为语音的文本内容，预览生成的语音，并下载音频文件。

4.结论

STT 很实用，Whisper 可以退役了
TTS 效果一般，不推荐用
PlayGround 的设计很不错，代码导出很方便

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：人工智能金融工具有哪些？

下一篇： Anthropic解锁Claude上线实时网络搜索，逆袭OpenAI和谷歌？

OpenAI上新：语音转文本、文本转语音2套新模型

1. OpenAI发布两款新的语音转文本（STT）模型(gpt-4o-transcribe和gpt-4o-mini-transcribe)

2. 新推出文本转语音（TTS）模型gpt-4o-mini-tts，支持指定内容和风格，最大支持2000 token；

3. 推出体验网站OpenAI fm作为语音调试PlayGround，具有代码一键导出功能

4.结论

最新Ai信息

最新Ai工具

热门AI推荐