Elevenlabs正在启动自己的语音到文本模型

2025年03月07日 16:48发布

4701阅读

AI创业公司Elevenlabs刚刚筹集了1.8亿美元的大型资金，主要以其音频发电能力而闻名。该公司通过推出了第一个名为Scribe的独立语音到文本模型，朝着另一个技术方向迈出了一步。这家价值33亿美元的初创公司通过其广阔的声音库提供了许多其他公司提供文本到语音服务的帮助。但是，该公司现在希望与Gladia，Speakmatics，Assemblyai，Deepgram和Openai的Whisper Models等人进行语音检测。 Elevenlabs的Scribe模型在发布时支持99多种语言。该公司将超过25种语言分类为极好的准确性类别，该模型单词错误率小于5％。该列表包括英语（声称准确率为97％），法语，德语，印度人，印尼，日本，卡纳达语，马拉雅拉姆语，波兰，葡萄牙语，西班牙语和越南语。其他语言在DI中排名较高的类别（单词错误率为5％至10％），良好（单个单词错误率10％至20％）和中等（25％至50％）单词错误率。该公司表示，该模型的表现优于Google Gemini 2.0 Flash和Whisper大型V3在Fleurs和常见语音基准测试中的多种语言。图像学分：Elevenlabs Elevenlabs已为其AI对话代理平台开发了语音到文本组件，该平台于去年发布。但是，这是该公司第一次发布独立的语音检测模型。在上个月与TechCrunch的对话中，首席执行官Mati Staniszewski谈到了改善语音检测模型。 “我们想更好地了解您在谈话中所说的话。我们正在努力摆脱仅产生内容，理解和转录语音的方法。”当时Staniszewski说。 “许多人说语音到文本是一个解决问题。但是对于许多语言，这很糟糕。我们认为我们可以建造d更好的语音检测模型，因为我们有内部团队可以注释数据并为我们提供快速的反馈。” 该模型还具有智能的扬声器诊断，可以告诉您谁在讲话，在单词级别上的时间戳以获取准确的字幕，以及自动引人注目的声音事件（例如观众笑声）。该初创公司为客户提供了一种直接转录视频内容以在其工作室中添加字幕或字幕的方式。抄写员当前仅适用于预录的音频格式。该公司表示，它将很快发布该模型的低延迟实时版本。这意味着它尚未有效满足转录或语音笔记。 Elevenlabs的抄写员的价格为0.40美元，一个小时的转录音频。虽然竞争力是有竞争力的，但其某些竞争对手目前提供了较低的音频抄录价格，并且具有某些功能差异。