人类使用神奇宝贝来基准其最新的AI型号
人类使用Pokémon对其最新的AI模型进行基准测试。是的,真的。
Anthropic在周一发表的博客文章中说,它在Game Boy ClassicPokémonRed上测试了其最新模型Claude 3.7十四行诗。该公司为模型配备了基本内存,屏幕像素输入和函数调用以按按钮并在屏幕周围导航,从而使其可以连续播放Pokémon。
Claude 3.7十四行诗的独特特征是它具有“扩展思维”的能力。像Openai的O3-Mini和DeepSeek的R1一样,Claude 3.7十四行诗可以通过应用更多的计算机来“推理”,并花费更多时间。
显然,这在神奇宝贝红色中派上用场。
与以前版本的克劳德(Claude)3.0十四行诗(Claude 3.0 Sonnet)相比,它未能离开故事开始的托盘镇的房子,克劳德3.7十四行诗成功地与三位神奇宝贝体育馆的领导者作战并赢得了徽章。
图片来源:拟人化
现在,它’ s尚不清楚克劳德3.7十四行诗需要多少计算才能达到这些里程碑,以及每种里程碑需要多少计算。拟人化只说该模型执行了35,000次动作,以达到最后的健身房领导者Surge。
上周,一名研究人员尝试了Claude 3.7十四行诗的早期预览。结果令人震惊。几个小时之内,克劳德击败了布罗克。几天后,它击败了Misty。较旧的模型几乎没有希望实现的进展。扩展思维超级有效。 pic.twitter.com/rspslgj2uf-拟人化(@anthropicai)2025年2月25日
当然,不久之后,一些进取的开发人员就发现了。
PokémonRed比任何东西都更像是玩具基准。但是,将游戏用于AI基准测试目的的悠久历史。仅在过去的几个月中,许多新的应用程序和平台就出现了,以测试模型的游戏能力,从街头战斗机到图像。
上一篇
在Alexa+的情况下,亚马逊在消费者代理空间中发挥了有趣的作用
2025-03-07
下一篇
发布评论