两个本科生建立了一个AI语音模型，以竞争NotebookLM

知识博士

2025年04月24日 09:32发布

3409阅读

一对没有广泛的AI专业知识的本科生说，他们创建了一个公开可用的AI模型，可以生成类似于Google Notebooklm的播客风格的剪辑。

合成语音工具的市场庞大而不断增长。 Elevenlabs是最大的球员之一，但不乏挑战者（请参阅Playai，芝麻等）。投资者认为，这些工具具有巨大的潜力。根据PitchBook的说法，开发AI Tech的初创公司去年筹集了超过3.98亿美元的风险投资。

托比·金（Toby Kim）是纳里实验室的韩国联合创始人之一，他是新发行的模型背后的小组，他说，他和他的联合创始人三个月前开始学习Speech AI。受Notebooklm的启发，他们想创建一个模型，该模型对生成的声音和“脚本中的自由”提供了更多控制。

kim说他们使用了Google的TPU研究云程序，该计划提供可以自由访问该公司TPU AI芯片的研究人员，以培训Nari的模型DIA。 DIA的重量为16亿个参数，可以从脚本中产生对话，让用户自定义扬声器的音调和插入散布，咳嗽，笑声和其他非语言提示。

参数是用于进行预测的内部变量模型。通常，具有更多参数的模型表现更好。

可从AI Dev平台拥抱面和GitHub提供，DIA可以在大多数现代PC上使用至少10GB的VRAM运行。除非提示有针对预期样式的描述，否则它会产生随机的声音，但也可以克隆一个人的声音。

在TechCrunch通过NARI的Web演示对DIA的简要测试中，DIA效果很好，无聊地产生了有关任何主题的双向聊天。声音的质量似乎与其他工具竞争，语音克隆功能是记者尝试的最简单的一项。。

这是一个示例：

像许多语音生成器一样，DIA几乎没有提供保障的方式。制作虚假信息或骗子录音在很容易中很容易。在DIA的项目页面上，Nari不鼓励滥用该模型来假冒，欺骗或以其他方式进行非法竞选活动，但该组织表示对滥用行为“不负责”。

nari也没有透露其刮擦训练DIA的数据。可能使用受版权保护的内容开发了DIA-关于黑客新闻的评论者指出，一个样本听起来像NPR的“ Planet Money”播客的主持人。关于版权内容的培训模型是一种广泛但法律上可疑的实践。一些AI公司声称，公平使用使他们免受责任，而权利持有人则断言公平使用不适用于培训。

无论如何，金说，纳里的计划是创建综合声音E平台在DIA和更大的未来模型之上具有“社会方面”。 NARI还打算发布DIA的技术报告，并将模型的支持扩展到英语以外的语言。