研究人员建议Openai培训的AI模型

知识菜鸟

2025年04月02日 18:51发布

4372阅读

OpenAI已被许多各方指控培训其AI对受版权保护的内容的批准。现在，AI看门狗组织的一份新论文提出了严重的指控，即该公司越来越依赖非公共书籍，它没有许可培训更复杂的AI模型。

AI模型本质上是复杂的预测引擎。他们接受了许多数据（书籍，电影，电视节目等）的培训，他们学习了从简单提示中推断出的模式和新颖方法。当模型“写”一篇关于希腊悲剧或“绘制”吉卜力风格的图像的文章时，它只是从其广泛的知识中汲取了巨大的知识。它没有到达任何新的东西。

虽然包括OpenAI在内的许多AI实验室已经开始拥抱AI生成的数据来培训AI，因为它们耗尽了真实世界来源（主要是公共网络），但很少有人完全避开了现实世界中的数据。这可能是因为纯合成数据培训c有风险的OME，例如恶化模型的性能。

《新论文》是《 AI披露项目》，这是一家非营利组织，由媒体大亨Tim O’Reilly和经济学家Ilan Strauss于2024年共同创立，得出的结论是，Openai可能在O’Reilly Media的Paywalled Books上培训了其GPT-4O模型。（O’Reilly是O’Reilly Media的首席执行官。）

在chatgpt中，gpt-4O是默认模型。该论文说，O’Reilly与OpenAI没有许可协议。

“ GPT-4O是Openai的最新模型，与OpenAI早期的型号GPT-3.5 Turbo相比，对Paywalled O’Reilly图书内容的认识很高，”该论文的合着者写道。 “相比之下，GPT-3.5 Turbo显示出对公开访问的O’Reilly Book样本的相对认识。”

本文使用了一种称为De-Cop的方法，该方法于2024年首次在一项学术研究中引入，旨在检测受版权保护的内容语言模型的培训数据。该方法也称为“会员推理攻击”，该方法测试了模型是否可以可靠地将人为撰写的文本与同一文本的释义的AI生成版本区分开。如果可以的话，这表明该模型可能会从其培训数据中对文本有所了解。

本文的合着者 - O’Reilly，Strauss和AI研究员Sruly Rosenblat-说他们探究了GPT-4O，GPT-3.5 Turbo以及其他OpenAI模型对培训截止日期之前和之后出版的Oreilly Media Books的了解。他们使用了34本O’Reilly书籍中的13,962段摘录来估算模型培训数据集中包含特定摘录的可能性。

根据本文的结果，GPT-4O“认可”的OREILLY书籍内容比Openai的旧型号（特别是GPT-3.5 Turbo）要多得多。即使在考虑了Potenti之后作者说，艾尔混淆因素，就像新模型的改进能够弄清文本是否是人为作者的能力。

“ GPT-4O（可能）承认，并且对许多非公共O’Reilly Books在培训截止日期之前出版的书籍也有所了解，”合着者写道。

这不是吸烟枪，合着者小心地注意。他们承认，他们的实验方法并不是万无一失的，Openai可能已经从用户复制并将其粘贴到Chatgpt的用户中收集了有费的书摘录。

进一步的水域，合着者没有评估Openai的最新模型集合，其中包括GPT-4.5和“推理”模型，例如O3-Mini和O1。这些模型可能没有接受过付费的O’Reilly图书数据的培训，也没有接受比GPT-4O的培训。

。

话虽如此，这不是一个秘密Openai倡导使用受版权保护的数据围绕开发模型的宽松限制，一段时间以来一直在寻求更高质量的培训数据。该公司甚至雇用了记者来帮助微调其模型的产出。这是整个更广泛行业的一种趋势：AI公司在科学和物理等领域中招募专家，使这些专家将其知识融入了AI系统。

仍然，随着Openai在美国法院的培训数据实践和版权法的培训数据实践和治疗中，O’Reilly Paper并不是最扁平的诉讼环外观

Openai没有回应评论请求。