OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后，OpenAI并未停下在该领域探索的脚步，现在这家ChatGPT的创造者再次发力，推出了三款全新的自主研发语音模型，分别为:gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe。目前，这些新模型已经率先通过应用程序接口（API）向第三方开发者开放，开发者们可以利用它们打造更智能的应用程序。

继此前在语音 AI 领域引发一些关注后，OpenAI并未停下在该领域探索的脚步，现在这家ChatGPT的创造者再次发力，推出了三款全新的自主研发语音模型，分别为:gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe。

目前，这些新模型已经率先通过应用程序接口（API）向第三方开发者开放，开发者们可以利用它们打造更智能的应用程序。同时，OpenAI也提供了一个名为OpenAI.fm的演示网站，供个人用户进行初步体验。

核心功能大揭秘

那么，这款备受期待的 gpt-4o-transcribe 究竟有何独到之处呢?简单来说，它可以看作是OpenAI两年前发布的开源语音转录模型Whisper的升级版，目标是提供更低的文字错误率和更强大的性能。

根据OpenAI官方数据显示，在行业标准的33种语言测试中，gpt-4o-transcribe的错误率相较于Whisper有了显著下降，尤其在英语方面，错误率更是低至2.46%!这对于需要高精度语音转录的场景来说，无疑是一个巨大的进步。

更值得一提的是，这款新模型在各种复杂环境下都能保持出色的性能。无论是身处嘈杂的环境，面对不同的口音，还是处理快慢不一的语速，gpt-4o-transcribe都能提供更准确的转录结果，并且它还支持超过100种语言。

为了进一步提升转录的准确性，gpt-4o-transcribe还加入了噪声消除和语义语音活动检测技术。

OpenAI的技术人员Jeff Harris解释说，后者可以帮助模型判断说话者是否讲完了一个完整的想法，从而避免断句错误，提高整体的转录质量。此外，gpt-4o-transcribe还支持流式语音转文本，开发者可以持续输入音频并实时获得文本结果，使对话感觉更加自然。

需要注意的是，gpt-4o-transcribe模型家族**目前并不具备“说话人分离”（diarization）**的功能，也就是说，它主要专注于将接收到的音频(可能包含多人的声音)统一转录成文本，而不会区分和标记不同的说话人。

虽然这在某些需要区分发言人的场合可能有所限制，但其在提高整体转录准确性方面的优势依然显著。

开发者先行:API接口已开放

目前，gpt-4o-transcribe已经通过OpenAI的API接口提供给开发者使用。这意味着，开发者可以快速将这一强大的语音转录能力集成到自己的应用程序中，为用户带来更便捷的语音交互体验。

据OpenAI在直播中演示，对于已经基于GPT-4o等文本大模型构建的应用，只需要大约九行代码 就能轻松添加语音交互功能。例如，电商应用可以快速实现语音回复用户关于订单信息的咨询。

不过，OpenAI方面也表示，考虑到ChatGPT在成本和性能方面的特殊需求，这些新模型暂时不会直接应用于ChatGPT，但预计未来会逐步整合。对于追求更低延迟、实时语音交互的开发者，OpenAI推荐使用其Realtime API中的语音到语音模型。

凭借其强大的语音转录能力，gpt-4o-transcribe有望在多个领域大显身手。OpenAI认为，例如客户呼叫中心、会议纪要自动生成以及AI驱动的智能助手等场景都非常适合应用这项技术。一些已经体验过新模型的公司也反馈称，OpenAI的音频模型显著提升了语音AI的性能。

当然，OpenAI也面临着来自其他语音AI公司的竞争，例如ElevenLabs推出的Scribe模型也具备较低的错误率和说话人分离功能。此外，Hume AI的Octave TTS模型则在发音和情感控制方面提供了更精细的自定义选项。开源社区也有不断涌现的先进语音模型。

根据您提供的源，以下是 OpenAI 新语音模型的定价信息以及一些相关的竞品价格:

模型API定价:

gpt-4o-transcribe: 每100万个音频输入 tokens 的价格为 $6.00，约合每分钟 $0.006。
gpt-4o-mini-transcribe: 每100万个音频输入 tokens 的价格为 $3.00，约合每分钟 $0.003。
gpt-4o-mini-tts: 每100万个文本输入 tokens 的价格为 $0.60，每100万个音频输出 tokens 的价格为 $12.00，约合每分钟 $0.015。

竞品模型定价:

ElevenLabs Scribe: 每小时音频输入的定价为 $0.40，约合每分钟 $0.006。

Orpheus3B: 基于 Apache2.0许可开源，开发者可以免费使用，但需要自备相应的硬件或云服务器。

需要注意的是，不同模型的计费方式可能存在差异（例如，基于 token 数量、时长等），因此直接比较价格时需要考虑这些因素。

OpenAI此次发布的gpt-4o-transcribe等新语音模型，在语音转录领域展现出了强大的实力和潜力。虽然目前主要面向开发者，但其在提升语音交互体验方面的价值不容忽视。未来，随着技术的不断发展，我们或许能看到更多令人惊喜的语音AI应用涌现。

网站:https://top.aibase.com/tool/openai-fm

官方博客:https://openai.com/index/introducing-our-next-generation-audio-models/

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

核心功能大揭秘

开发者先行:API接口已开放

相关资讯

调查：超72% 的企业选择 AI 工具时最看重易用性

专家圆桌：“国产类 ChatGPT ”所存在的差距与挑战

ChatGPT在iOS美区下载火爆，6天内下载量超过 50 万次