Meta的新AI模型的基准有点误导

知识全能王

2025年04月09日 09:39发布

3394阅读

Maverick于周六发布的新旗舰AI模型之一在LM Arena上排名第二，该测试的测试使人类评估者比较了模型的产量并选择他们喜欢的产品。但似乎Meta部署到LM Arena的Maverick版本与开发人员广泛使用的版本不同。

正如几位AI研究人员在X上指出的那样，Meta在宣布LM Arena上的小牛是“实验性聊天版本”。与此同时，在官方美洲驼网站上的一张图表揭示了Meta的LM竞技场测试是使用“ Llama 4 Maverick进行对话性优化的”进行的。

。

正如我们以前写的那样，由于各种原因，LM Arena从来都不是AI模型性能的最可靠度量。但是AI公司通常没有定制或以其他方式对其模型进行微调以在LM竞技场上得分更好，或者没有承认这样做，在L东方。

将模型量身定制为基准，扣留它，然后发布同一模型的“香草”变体的问题是，它使开发人员确切地预测该模型在特定环境中的表现如何。这也是误导的。理想情况下，基准测试 - 不足以不足 - 提供了一个模型的优点和劣势的快照。

的确，与在LM竞技场上托管的模型相比，X上的研究人员观察到了可公开下载的小牛行为的明显差异。 LM竞技场版本似乎使用了很多表情符号，并给出了令人难以置信的漫长答案。

好的，美洲驼4是一个煮熟的大声笑，这个Yap City pic.twitter.com/y3gvhbvz65

- 内森·兰伯特（@natolambert）2025年4月6日

由于某种原因，竞技场中的Llama 4模型使用了更多的表情符号

一起。 AI，似乎更好：pic.twitter.com/f74odx4ztt

- Tech Dev Notes（@TechDevNotes）2025年4月6日

我们已经与维持LM Arena的组织Meta和Chatbot Arena接触。

发布了：16919篇内容

查阅文章

2025-04-09

2025-04-09