人们现在使用超级马里奥来基准AI

2025年03月07日 16:52发布

1786阅读

以为神奇宝贝对人工智能是一个艰难的基准？一群研究人员认为，超级马里奥兄弟会更加艰难。加利福尼亚大学圣地亚哥分校的研究组织Hao Ai Lab周五将AI投入了现场超级马里奥兄弟游戏。 Anthropic的Claude 3.7表现最好，其次是Claude 3.5。 Google的Gemini 1.5 Pro和OpenAI的GPT-4O挣扎。明确的是，它与1985年的最初版本不是相同的Super Mario Bros.。该游戏在模拟器中运行，并与gamingagent框架集成在一起，以对Mario进行AIS的控制。图片来源：Hao Lab HAO内部开发的Gamingagent为AI基本说明提供了供您使用的基本说明，例如“如果障碍物或敌人在附近，请向左移动/跳动到道奇”和游戏中的屏幕截图。然后，AI以Python代码的形式生成输入以控制Mario。 Hao说，游戏迫使每个模型都“学习”来计划复杂的演习并开发GAMeplay策略。有趣的是，该实验室发现，诸如Openai的O1之类的推理模型逐步通过问题“思考”以达到解决方案，尽管在大多数基准测试方面通常都更强大，但表现比“非调理”模型差。研究人员说，推理模型很难玩这样的实时游戏的主要原因之一是，他们通常需要一段时间（通常几秒钟）来决定行动。在超级马里奥兄弟中，时机就是一切。第二个可能意味着安全清除的跳跃与死亡的局面之间的区别。游戏已被用来基准AI数十年。但是一些专家质疑AI的游戏技能和技术进步之间建立联系的智慧。与现实世界不同，游戏倾向于抽象且相对简单，并且它们提供了用于培训AI的理论上无限的数据。最近的浮华游戏基准指出了Andrej Karpathy，在OpenAI的研究科学家和创始成员称为“评估危机”。他在X上的一篇文章中写道：“我真的不知道[AI]现在要看什么。我的反应是我真的不知道这些模型现在有多好。” 至少我们可以观看AI Play Mario。