两个本科生建立了一个AI语音模型,以竞争NotebookLM

一对没有广泛的AI专业知识的本科生说,他们创建了一个公开可用的AI模型,可以生成类似于Google Notebooklm的播客风格的剪辑。

两个本科生建立了一个AI语音模型,以竞争NotebookLM

合成语音工具的市场庞大而不断增长。 Elevenlabs是最大的球员之一,但不乏挑战者(请参阅Playai,芝麻等)。投资者认为,这些工具具有巨大的潜力。根据PitchBook的说法,开发AI Tech的初创公司去年筹集了超过3.98亿美元的风险投资。

托比·金(Toby Kim)是纳里实验室的韩国联合创始人之一,他是新发行的模型背后的小组,他说,他和他的联合创始人三个月前开始学习Speech AI。受Notebooklm的启发,他们想创建一个模型,该模型对生成的声音和“脚本中的自由”提供了更多控制。

kim说他们使用了Google的TPU研究云程序,该计划提供可以自由访问该公司TPU AI芯片的研究人员,以培训Nari的模型DIA。 DIA的重量为16亿个参数,可以从脚本中产生对话,让用户自定义扬声器的音调和插入散布,咳嗽,笑声和其他非语言提示。

参数是用于进行预测的内部变量模型。通常,具有更多参数的模型表现更好。

可从AI Dev平台拥抱面和GitHub提供,DIA可以在大多数现代PC上使用至少10GB的VRAM运行。除非提示有针对预期样式的描述,否则它会产生随机的声音,但也可以克隆一个人的声音。

在TechCrunch通过NARI的Web演示对DIA的简要测试中,DIA效果很好,无聊地产生了有关任何主题的双向聊天。声音的质量似乎与其他工具竞争,语音克隆功能是记者尝试的最简单的一项。。

这是一个示例:

像许多语音生成器一样,DIA几乎没有提供保障的方式。制作虚假信息或骗子录音在很容易中很容易。在DIA的项目页面上,Nari不鼓励滥用该模型来假冒,欺骗或以其他方式进行非法竞选活动,但该组织表示对滥用行为“不负责”。

nari也没有透露其刮擦训练DIA的数据。可能使用受版权保护的内容开发了DIA-关于黑客新闻的评论者指出,一个样本听起来像NPR的“ Planet Money”播客的主持人。关于版权内容的培训模型是一种广泛但法律上可疑的实践。一些AI公司声称,公平使用使他们免受责任,而权利持有人则断言公平使用不适用于培训。

无论如何,金说,纳里的计划是创建综合声音E平台在DIA和更大的未来模型之上具有“社会方面”。 NARI还打算发布DIA的技术报告,并将模型的支持扩展到英语以外的语言。

avatar

知识博士 管理员

发布了:21112篇内容
查阅文章

发布评论

验证码

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信