人类使用神奇宝贝来基准其最新的AI型号

2025年03月07日 16:51发布

1200阅读

人类使用Pokémon对其最新的AI模型进行基准测试。是的，真的。 Anthropic在周一发表的博客文章中说，它在Game Boy ClassicPokémonRed上测试了其最新模型Claude 3.7十四行诗。该公司为模型配备了基本内存，屏幕像素输入和函数调用以按按钮并在屏幕周围导航，从而使其可以连续播放Pokémon。 Claude 3.7十四行诗的独特特征是它具有“扩展思维”的能力。像Openai的O3-Mini和DeepSeek的R1一样，Claude 3.7十四行诗可以通过应用更多的计算机来“推理”，并花费更多时间。显然，这在神奇宝贝红色中派上用场。与以前版本的克劳德（Claude）3.0十四行诗（Claude 3.0 Sonnet）相比，它未能离开故事开始的托盘镇的房子，克劳德3.7十四行诗成功地与三位神奇宝贝体育馆的领导者作战并赢得了徽章。图片来源：拟人化现在，它＆＃8217; s尚不清楚克劳德3.7十四行诗需要多少计算才能达到这些里程碑，以及每种里程碑需要多少计算。拟人化只说该模型执行了35,000次动作，以达到最后的健身房领导者Surge。上周，一名研究人员尝试了Claude 3.7十四行诗的早期预览。结果令人震惊。几个小时之内，克劳德击败了布罗克。几天后，它击败了Misty。较旧的模型几乎没有希望实现的进展。扩展思维超级有效。 pic.twitter.com/rspslgj2uf-拟人化（@anthropicai）2025年2月25日当然，不久之后，一些进取的开发人员就发现了。 PokémonRed比任何东西都更像是玩具基准。但是，将游戏用于AI基准测试目的的悠久历史。仅在过去的几个月中，许多新的应用程序和平台就出现了，以测试模型的游戏能力，从街头战斗机到图像。