Openai升级其转录和发声的AI模型

2025年03月22日 13:29发布

4925阅读

OpenAI将新的转录和语音生成AI模型带到其API中，该公司声称该模型可以改善其先前的发行版。

对于OpenAI，这些模型适合其更广泛的“代理”愿景：构建可以代表用户独立完成任务的自动化系统。 “代理人”的定义可能存在争议，但是Openai产品负责人Olivier Godement将一种解释描述为可以与企业客户交谈的聊天机器人。

“我们将在接下来的几个月中看到越来越多的代理商弹出”，上帝在简报中告诉TechCrunch。 “因此，一般主题是帮助客户和开发人员利用有用，可用和准确的代理商。”

OpenAi声称其新的文本到语音模型“ GPT-4O-Mini-TTS”不仅提供了更细微和更现实的演讲前一代语音合成模型。开发人员可以指导GPT-4O-Mini-TTS关于如何用自然语言说话，例如，“像疯狂的科学家说话”或“像正念老师一样使用宁静的声音。”

这是“真正的犯罪风格”，风化的声音：

这是女性“专业”声音的样本：

Openai的产品人员杰夫·哈里斯（Jeff Harris）告诉TechCrunch，目标是让开发人员量身定制“体验”和“上下文”。

“在不同的情况下，您不仅想要一个平坦的单调声音，”哈里斯说。 “如果您处于客户支持体验中，并且希望声音是道歉的，因为它是一个错误，那么您实际上可以让声音具有这种情感……我们的最大信念是，开发人员和用户不仅要控制说话的内容，而且还希望控制什么如何说话。”

至于Openai的新语音到文本模型，即“ GPT-4O-Transcribe”和“ GPT-4O-Mini-Transcribe”，他们有效地取代了该公司长期的小声窃窃私语转录模型。经过“多样化，高质量的音频数据集”的培训，新模型可以更好地捕捉强调和多样化的语音，即使在混乱的环境中也可以说明。

哈里斯补充说，

他们也不太可能幻觉。臭名昭著地倾向于在对话中捏造单词，甚至整个段落，从种族评论到想象的医疗治疗的所有内容。

“ [T]模型在那一片方面的模型与耳语相比，这是很大的改进，”哈里斯说。 “确保模型是准确的，对于获得可靠的语音体验至关重要，并且在这种情况下（在这种情况下）准确意味着模型正精确地听到这些单词的声音[和] Aren＆＃8217; t填写他们没有听到的细节。”

但是，您的里程可能会根据所转录的语言而有所不同。

根据OpenAI的内部基准测试，GPT-4O-Transcribe（两种转录模型中更准确）的“单词错误率”接近INDIC和DRAVIDIAN语言，例如Tamil，Telugu，Malayalalam和Kannada。这意味着模型中每10个单词中的三个与这些语言中的人类转录不同。

OpenAI转录基准测试的结果。图像学分：OpenAI

在与传统的休息中，Openai不打算公开提供其新的转录模型。该公司历史上发布了根据麻省理工学院许可证的新版本的供商业用途的窃窃私语。

哈里斯说，GPT-4O-Transcribe和GPT-4O-Mini-Transcribe“比耳语大得多”，因此不是公开发行的好候选人。

“ [嘿，嘿不是您只能在笔记本电脑上本地运行的那种模型，例如耳语。”他继续说道。“ w] e希望确保如果我们在开放源代码中发布东西，我们将进行周到的事情，并且我们有一个真正满足这种特定需求的模型。我们认为最终用户设备是开源模型最有趣的案例之一。”

更新了2025年3月20日，上午11:54 pt以澄清围绕单词错误率的语言，并更新了基准结果图表。

发布了：10532篇内容

查阅文章

2025-03-22

2025-03-22