麻省理工学院的研究发现，实际上AI没有值

知识博士

2025年04月10日 11:05发布

2748阅读

几个月前，一项研究的病毒性暗示，随着AI变得越来越复杂，它发展了“价值系统”，这些系统将其导致其优先考虑其自身对人类的福祉的优先级。麻省理工学院的最新论文将冷水倒在那双曲的概念上，得出结论，即AI实际上没有任何连贯的价值观。

麻省理工学院研究的合着者说，他们的工作表明，“对齐” AI系统（即确保模型以可取的，可靠的方式行事）可能比通常假设的更具挑战性。众所周知，AI今天幻觉和模仿，共同作者强调，这在许多方面都无法预测。

“我们可以确定的一件事是，模特不遵守[很多]稳定性，违背性和可管道性假设，”麻省理工学院的博士生，研究的合着者Stephen Casper告诉TechCrunch。＆＃8220;完全合理地指出，在某些条件下的模型表达偏好与一套原理一致。当我们试图根据狭窄的实验对模型，观点或偏好提出主张时，这些问题主要是出现的。”

Casper和他的合着者探究了Meta，Google，Mistral，Openai和Anthropic的几个最新模型，以了解这些模型在多大程度上表现出强烈的“观点”和价值观（例如，个人主义者与集体主义者）。他们还调查了这些观点是否可以“转向”（即修改）以及模型在各种情况下都持顽固的态度。

根据合着者的说法，这些模型在其偏好方面都不是一致的。根据措辞和构图的提示，他们采用了截然不同的观点。

卡斯珀（Casper）认为，这是令人信服的证据，表明模型高度不一致，不稳定”，甚至从根本上根本无法内化类似人类的偏好。

“对我来说，从所有这些研究中，我最大的收获是对模型的理解，因为它并不是真正具有某种稳定，连贯的信念和偏好集的系统，”卡斯珀说。 “相反，他们是模仿者，他们做各种各样的混乱，说各种琐碎的事情。”

迈克·库克（Mike Cook）是伦敦国王学院（King's College）的研究研究员，专门研究该研究的AI，他同意合着者的调查结果。他指出，AI实验室构建的系统的“科学现实”与人们归因的含义之间经常有很大的区别。

“例如，模型不能“反对”其价值的变化，这就是我们投射到系统上的，”库克说。 “任何拟人化的人工智能系统在这个程度上，要么是为了引起注意，要么严重误解了他们与AI的关系……是AI系统对其目标进行优化，还是“获取自己的价值观”？这是您如何描述它的问题，以及您想使用的语言多花。”