新研究表明，Openai的模型“记忆”受版权保护内容。

知识菜鸟

2025年04月05日 14:04发布

1286阅读

一项新的研究似乎对OpenAI至少培训其AI模型的指控有信誉。

Openai卷入了由作者，程序员和其他权利持有人带来的诉讼中，他们指责公司使用其作品（书籍，代码库等）未经许可就开发其模型。长期以来，Openai声称有合理的使用辩护，但是在这些情况下，原告认为，美国版权法没有雕刻的培训数据。

这项研究是由华盛顿大学，哥本哈根大学和斯坦福大学的研究人员共同撰写的，它提出了一种新方法，以通过API背后的API背后的培训数据来识别培训数据，例如OpenAI'S。

模型是预测引擎。经过许多数据培训，他们学习了模式 - 这就是他们能够生成论文，照片等的方式。大多数输出不是TRA的逐字副本ining数据，但由于模型“学习”的方式，有些是不可避免的。已经发现图像模型可以反思他们接受过培训的电影的屏幕截图，而语言模型被观察到有效窃新闻文章。

该研究的方法依赖于合着者称之为“高空”的单词，也就是说，在更大的工作背景下，单词却很罕见。例如，句子中的“雷达”一词“杰克和我完美地坐着雷达嗡嗡声”被认为是高弹性的，因为它在统计上的可能性要比“嗡嗡作响”之前出现在统计学上的可能性要小。

合着者通过删除小说书籍和《纽约时报》片段中的高度暴发性词，并让模型试图“猜测”，探讨了几种OpenAI模型，包括GPT-4和GPT-3.5，以示意记忆的迹象。哪些单词被掩盖了。如果模型设法正确猜测，他们可能会在培训期间记住片段，并总结了共同作者。

一个模型“猜测”高传播单词的示例。图片学分：OpenAi

根据测试的结果，GPT-4显示出记忆中的流行小说书籍的迹象，其中包括包含版权电子书样本的数据集中的书籍，称为Bookmia。结果还表明，该模型记住了《纽约时报》文章的部分，尽管速度相对较低。

Abhilasha Ravichander是华盛顿大学的博士生，该研究的合着者告诉TechCrunch，这些发现可能已经培训了“有争议的数据”模型。

。

“为了拥有可信赖的大语言模型，我们需要拥有可以进行探究和审核和科学检查的模型，” Ravichander说。 “我们的工作旨在提供一种探索大型语言模型的工具，但是在整个生态系统中确实需要更高的数据透明度。”

发布了：12099篇内容

查阅文章

2025-04-05

2025-04-05