首页 > 快讯 > OpenAI上新:语音转文本、文本转语音2套新模型

OpenAI上新:语音转文本、文本转语音2套新模型

发布时间:2025-03-24 09:29:19 | 责任编辑:字母汇 | 浏览量:33 次

《OpenAI上新:语音转文本、文本转语音2套新模型》相关软件

OpenAI fm

1. OpenAI发布两款新的语音转文本(STT)模型(gpt-4o-transcribe和gpt-4o-mini-transcribe)

两款模型:gpt-4o-transcribe 和 gpt-4o-mini-transcribe,比之前的 Whisper 价格更优,性能更好,尤其在处理口音、噪音和不同语速方面表现更佳。

先是价格对比

  • Whisper(OpenAI 部署版): $0.006/min
  • gpt-4o-transcribe: ~ $0.006/min
  • gpt-4o-mini-transcribe: ~ $0.003/min

再是错误率对比(越低越好)

这俩 endpoint,一个是 transcriptions,另一个是translations,同样可以用于新模型。前者是纯转文字,后者是转文字+翻译(仅限翻译成英文)。

剩下的,是一些接口参数更新:

  • 时间戳 (Timestamps):通过设置 timestamp_granularities 参数,可以获取带有时间戳的 JSON 输出,精确到句子片段或单词级别。
  • 流式转录 (Streaming transcriptions):通过设置 stream=True,可以在模型完成音频片段的转录后立即接收到 transcript.text.delta 事件,最终会收到包含完整转录的 transcript.text.done 事件。
  • 实时 API (Realtime API):对于正在进行的音频流(例如实时会议或语音输入),可以通过 WebSocket 连接实时发送音频数据并接收转录事件。

详细文档:https://platform.openai.com/docs/guides/speech-to-text

2. 新推出文本转语音(TTS)模型gpt-4o-mini-tts,支持指定内容和风格,最大支持2000 token;

模型名称是 gpt-4o-mini-tts 可控性很强的 TTS:

  • 可以指定要说的内容,如:“我是练习时长两年半的个人练习生”
  • 可以指定说话的风格,如:“用娇滴滴的语气”

详细文档:https://platform.openai.com/docs/guides/text-to-speech

3. 推出体验网站OpenAI fm作为语音调试PlayGround,具有代码一键导出功能

这是一个调试语音的 PlayGround,挺好玩的

OpenAI fm 是 OpenAI 推出的一个互动演示平台,旨在让开发者体验其最新的文本转语音(TTS)模型。

在 OpenAI fm 上,用户可以选择不同的语音风格和情感表达,输入希望转换为语音的文本内容,预览生成的语音,并下载音频文件。

4.结论

  • STT 很实用,Whisper 可以退役了
  • TTS 效果一般,不推荐用
  • PlayGround 的设计很不错,代码导出很方便

 

最新Ai信息

最新Ai工具