微软正在探索一种信贷贡献者的AI培训数据的方法

知识博士

2025年03月22日 13:29发布

4576阅读

Microsoft正在启动一个研究项目，以估算特定培训示例对生成AI模型创建的文本，图像和其他类型的媒体的影响。

这是根据LinkedIn最近再循环的12月的工作列表。

根据寻求研究实习生的列表，该项目将试图证明模型可以接受以使特定数据的影响（例如照片和书籍 - 关于其输出的照片和书籍可以“有效估计”。

“当前的神经网络体系结构在为世代提供资源方面是不透明的，并且有[…]更改此问题的充分理由。” “ [一个是]激励措施，认可，并可能为那些为未来想要的不可预见的模型提供某种有价值的数据的人，假设未来会让美国基本原理感到惊讶盟友。”

AI驱动的文本，代码，图像，视频和歌曲发生器是针对AI公司的许多IP诉讼的中心。这些公司通常会根据来自公共网站的大量数据训练自己的模型，其中一些是版权的。许多公司认为，合理使用学说可以掩盖其数据剪贴和培训实践。但是，从艺术家到程序员再到作者的创意者 - 在很大程度上不同意。

Microsoft本身至少面临着版权持有人的两个法律挑战。

《纽约时报》于12月起诉了这家科技巨头及其有时的合作者Openai，指责两家公司侵犯了《泰晤士报》的版权，该版权部署了对其数百万篇文章进行培训的模型。几位软件开发人员还针对微软提起诉讼，声称该公司的Github副副AI编码助手通过其受保护的作品进行了非法培训。

微软的新研究EFF据报道，列表将其描述为“培训时间出处”，据报道，Microsoft Research的技术人员和跨学科科学家Jaron Lanier的参与。在2023年4月的《纽约客》上的一本专栏文章中，拉尼尔（Lanier）撰写了“数据尊严”的概念，这对他来说意味着将“数字化东西”与“想要以成功的人”闻名的人联系。”

。

“当大型模型提供有价值的输出时，一种数据尊重方法将追踪最独特，最有影响力的贡献者，” Lanier写道。 “例如，如果您向'在冒险中说话的猫的动画电影中问一个模型，那么在冒险中说话的猫世界，”那么，某些关键的油画家，猫肖像画家，配音演员和作家或作家 - 或他们的遗产 - 可能被计算出来是对新杰作的创造。他们可能会得到认可和激励。付费。”

，已经有几家公司尝试了这一点。 AI模型开发商Bria最近筹集了4000万美元的风险投资，声称“通过编程方式”根据其“整体影响力”来补偿数据所有者。 Adobe和Shutterstock还向数据集贡献者授予定期支出，尽管确切的支付金额往往不透明。

很少有大型实验室在与出版商，平台和数据经纪人签署许可协议之外建立了个人捐款计划。相反，他们为版权持有人提供了“选择退出”培训的手段。但是，其中一些选择退出过程很繁重，仅适用于未来的模型，而不是以前受过训练的模型。

当然，微软的项目可能只不过是概念证明。有先例。 Openai说，早在5月，它正在开发类似的技术OGY可以让创作者指定他们希望如何将其作品包括在培训数据中或排除在外。但是将近一年后，该工具尚未看到一天的光芒，而且通常没有被视为内部的优先事项。

Microsoft也可能在这里试图“道德规范”，或者罢工对其AI业务的监管和/或法院裁决。

但是，鉴于其他AI实验室最近对合理使用的立场，该公司正在研究追踪培训数据的方法。包括Google和OpenAI在内的几个顶级实验室已经发布了政策文件，建议特朗普政府在与AI开发有关的情况下削弱了版权保护。 OpenAI已明确呼吁美国政府将公平用途编纂为模型培训，它认为这将使开发商摆脱繁重的限制。

Microsoft没有立即响应评论请求。