Podcasting Platform Podcastle启动了具有450多个AI声音的文本到语音模型

2025年03月07日 16:48发布

1605阅读

播客录制和编辑平台播客现在通过发布自己的AI模型，称为asyncflow v1.0，与其他公司一起参加了其他公司。也将提供开发人员的API，使他们可以将文本到语音模型直接集成到其应用中。多亏了新型号，该公司才能够提供450多种可以叙述您的文本的AI声音。该初创公司表示，它以培训和推理成本较低的方式开发了技术和模型，从而对竞争对手有好处。随着这一举动，Podcastle加入了许多初创公司，包括Elevenlabs，Speechify和Wellsaid，它们开发了技术和AI模型，以将任何类型的文本转换为AI讲述的语音剪辑。该技术涵盖了营销，广告，内容创建，教育和公司培训等用例。 Podcastle的创始人Arto Yeritsyan告诉TechCrunch，该公司始终肆意d建立文本到语音模型，但是培训和数据要求的成本很高。 “自我们成立以来，我们想建立一个强大的文本对语音模型。但是，发展成本很高。多亏了最近的大型语言模型的发展，我们能够取得突破性的突破，到达一个可以建立高质量语音模型而无需大量数据的地方。” Yeritsyan说。该公司还在去年的1350万美元A系列筹款方面的努力得到了帮助。 Yeritsyan说，虽然播客每500分钟的文字转换转换约40美元，但Elevenlabs的收费为99美元。 Podcastle的语音克隆功能也正在升级，以创建更快的培训过程。早些时候，培训过程涉及阅读大约70个不同的句子。现在，您只需要几秒钟的记录即可创建声音的克隆。新过程还使用了podca去年发布的Stle的Magic Dust AI，以提高录音质量。图片来源：播客在我们的测试中，尽管它模仿了我们的语气，但通过新过程创造的声音听起来有些机器人。该公司表示，随着时间的流逝，它将改善该功能。另外，您可以训练声音的不同样本以获得不同的结果。 Podcastle说，除了成本外，还拥有一个重新设计的站点下的音频，视频，播客和AI驱动的叙述工具，这将使它比竞争对手优势。 Yeritsyan说，虽然大多数用户使用Podcastle来制作音频内容，但视频也赶上了它。