新研究表明,Openai的模型“记忆”受版权保护内容。

一项新的研究似乎对OpenAI至少培训其AI模型的指控有信誉。

Openai卷入了由作者,程序员和其他权利持有人带来的诉讼中,他们指责公司使用其作品(书籍,代码库等)未经许可就开发其模型。长期以来,Openai声称有合理的使用辩护,但是在这些情况下,原告认为,美国版权法没有雕刻的培训数据。

这项研究是由华盛顿大学,哥本哈根大学和斯坦福大学的研究人员共同撰写的,它提出了一种新方法,以通过API背后的API背后的培训数据来识别培训数据,例如OpenAI'S。

模型是预测引擎。经过许多数据培训,他们学习了模式 - 这就是他们能够生成论文,照片等的方式。大多数输出​​不是TRA的逐字副本ining数据,但由于模型“学习”的方式,有些是不可避免的。已经发现图像模型可以反思他们接受过培训的电影的屏幕截图,而语言模型被观察到有效窃新闻文章。

该研究的方法依赖于合着者称之为“高空”的单词,也就是说,在更大的工作背景下,单词却很罕见。例如,句子中的“雷达”一词“杰克和我完美地坐着雷达嗡嗡声”被认为是高弹性的,因为它在统计上的可能性要比“嗡嗡作响”之前出现在统计学上的可能性要小。

合着者通过删除小说书籍和《纽约时报》片段中的高度暴发性词,并让模型试图“猜测”,探讨了几种OpenAI模型,包括GPT-4和GPT-3.5,以示意记忆的迹象。哪些单词被掩盖了。如果模型设法正确猜测,他们可能会在培训期间记住片段,并总结了共同作者。

一个模型“猜测”高传播单词的示例。图片学分:OpenAi

根据测试的结果,GPT-4显示出记忆中的流行小说书籍的迹象,其中包括包含版权电子书样本的数据集中的书籍,称为Bookmia。结果还表明,该模型记住了《纽约时报》文章的部分,尽管速度相对较低。

Abhilasha Ravichander是华盛顿大学的博士生,该研究的合着者告诉TechCrunch,这些发现可能已经培训了“有争议的数据”模型。

“为了拥有可信赖的大语言模型,我们需要拥有可以进行探究和审核和科学检查的模型,” Ravichander说。 “我们的工作旨在提供一种探索大型语言模型的工具,但是在整个生态系统中确实需要更高的数据透明度。”

OpenAI长期以来一直主张使用受版权保护的数据对开发模型的限制。虽然公司有某些内容许可协议,并提供了退出机制,使版权所有者可以标记他们不希望该公司不用于培训目的的内容的内容,但它使几个政府围绕AI培训方法编纂了“合理使用”规则。

新研究表明,Openai的模型“记忆”受版权保护内容。

avatar

知识菜鸟 管理员

发布了:12099篇内容
查阅文章

下一篇
已到最后
2025-04-05

发布评论

验证码

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信