研究人员说,他们发现了一种“扩展” AI的新方法,但是有理由怀疑
研究人员是否发现了新的AI“扩展定律”?这就是社交媒体上的一些嗡嗡声 - 但专家持怀疑态度。
AI缩放定律(有点非正式的概念)描述了AI模型的性能如何随着用于训练它们的数据集和计算资源的大小而提高。直到一年前,扩大“预训练”的扩展(在越来越多的数据集中训练了越来越多的模型)一直是迄今为止的主要定律,至少在大多数Frontier AI实验室都接受它的意义上。
预训练并没有消失,但是出现了两项额外的缩放定律,训练后的缩放和测试时间缩放,已经出现了以补充它。训练后的缩放本质上是对模型的行为进行调整,而测试时间缩放需要将更多的计算应用于推理(即运行模型)来驱动“推理”的形式(请参阅:类似R1的模型)。
Google和UC Berkeley研究人员Rec在论文中提出了一些在线评论员在线描述为第四定律的内容:“推理时间搜索。”
推理时间搜索具有并行的查询的许多可能的答案,然后选择束的“最佳”。研究人员声称,它可以提高像Google的Gemini 1.5 Pro这样的一年历史模型的性能,达到了Openai的O1-preview“推理”科学和数学基准模型的水平。
。我们的论文专注于此搜索轴及其扩展趋势。例如,通过随机抽样200个响应和自我验证,双子座1.5(一种古老的2024年型号!)击败了O1-preview并接近O1。这是没有填充,RL或地面验证者的。 pic.twitter.com/hb5fo7ifnh
- 埃里克Zhao(@ericzhao28)2025年3月17日
“ [b] y只是随机采样200个响应和自我验证,双子座1.5(一种古老的2024年早期模型)击败了O1-Google博士研究员,本文的合着者之一Eric Zhao在X上的一系列帖子中写道。您会期望选择正确的解决方案会变得更难,而您的解决方案池越大,但情况恰恰相反!”
>几位专家说,结果并不奇怪,并且在许多情况下推理时间搜索可能并不有用。
艾伯塔大学AI研究人员兼助理教授Matthew Guzdial告诉TechCrunch,当具有良好的“评估功能”时,该方法最有效 - 换句话说,当可以轻松确定对问题的最佳答案时。但是大多数疑问不是那么干燥。
“ [i] f我们无法编写代码来定义我们想要的东西,我们无法使用[推理时间]搜索。” “对于属l语言互动,我们不能这样做[…]这通常不是解决大多数问题的好方法。”
埃里克·佐(Eric Zhao)是一名Google研究人员,研究的合着者之一,略微反对Guzdial的主张。
“ [o]您的论文实际上专注于您无法访问'评估功能'或'代码来定义我们想要的东西的案例,通常将其称为基础真实验证者。”他说。 “相反,我们正在研究[模型]需要通过尝试验证自己来弄清楚何时进行评估。实际上,我们的论文的要点是,该制度与您确实具有地面验证者[…]的制度之间的差距可以随规模缩小。”
> > >但是,伦敦国王学院的研究员迈克·库克(Mike Cook在AI意义上的“推理”词和人类思维过程中。
“ [推理时间搜索]不会“提升模型的推理过程”,”库克说。 “ [i]只是我们围绕一项技术的局限性而努力的一种方式,如果您的模型犯了5%的时间,则直观地犯下了非常自信的错误,然后在同一问题上检查200次尝试,应该使这些错误更容易发现。”
> > >推理时间搜索可能会有局限性,这对于希望扩大模型“推理”计算的AI行业不受欢迎。正如纸张注释的合着者所述,今天的推理模型可以在一个数学问题上增加数千美元的计算。
似乎搜索新的扩展技术将继续。
更新了3/20 5:12 AM.太平洋:添加了研究合着者埃里克·佐(Eric Zhao)的评论批评这项工作的独立研究人员的评估。
发布评论