人们现在使用超级马里奥来基准AI
以为神奇宝贝对人工智能是一个艰难的基准?一群研究人员认为,超级马里奥兄弟会更加艰难。
加利福尼亚大学圣地亚哥分校的研究组织Hao Ai Lab周五将AI投入了现场超级马里奥兄弟游戏。 Anthropic的Claude 3.7表现最好,其次是Claude 3.5。 Google的Gemini 1.5 Pro和OpenAI的GPT-4O挣扎。
明确的是,它与1985年的最初版本不是相同的Super Mario Bros.。该游戏在模拟器中运行,并与gamingagent框架集成在一起,以对Mario进行AIS的控制。
图片来源:Hao Lab
HAO内部开发的Gamingagent为AI基本说明提供了供您使用的基本说明,例如“如果障碍物或敌人在附近,请向左移动/跳动到道奇”和游戏中的屏幕截图。然后,AI以Python代码的形式生成输入以控制Mario。
Hao说,游戏迫使每个模型都“学习”来计划复杂的演习并开发GAMeplay策略。有趣的是,该实验室发现,诸如Openai的O1之类的推理模型逐步通过问题“思考”以达到解决方案,尽管在大多数基准测试方面通常都更强大,但表现比“非调理”模型差。
研究人员说,推理模型很难玩这样的实时游戏的主要原因之一是,他们通常需要一段时间(通常几秒钟)来决定行动。在超级马里奥兄弟中,时机就是一切。第二个可能意味着安全清除的跳跃与死亡的局面之间的区别。
游戏已被用来基准AI数十年。但是一些专家质疑AI的游戏技能和技术进步之间建立联系的智慧。与现实世界不同,游戏倾向于抽象且相对简单,并且它们提供了用于培训AI的理论上无限的数据。
最近的浮华游戏基准指出了Andrej Karpathy,在OpenAI的研究科学家和创始成员称为“评估危机”。
他在X上的一篇文章中写道:“我真的不知道[AI]现在要看什么。我的反应是我真的不知道这些模型现在有多好。”
至少我们可以观看AI Play Mario。
上一篇
印度为银行推出新的域名以打击数字欺诈
2025-03-07
下一篇
发布评论