一位高中生建立了一个网站，可让您挑战AI模型

知识菜鸟

2025年03月22日 13:30发布

2429阅读

作为常规的AI基准测试技术证明不足，AI构建者正在转向更具创造性的方法来评估生成AI模型的功能。对于一组开发人员，Minecraft是Microsoft拥有的沙盒建造游戏。

网站Minecraft Benchmark（或MC-Bench）是在与Minecraft Creations的提示中响应提示的，与PIT AI模型进行了协作。用户可以对哪种模型做得更好，只有在投票后，他们才能看到AI使每个Minecraft构建哪个。

图片来源：Minecraft Benchmark（在新窗口中打开）

对于创办MC Bench的12年级学生Adi Singh来说，Minecraft的价值不是游戏本身，而是人们对此的熟悉程度 - 毕竟，这是有史以来最畅销的视频游戏。即使对于那些没有玩过游戏的人，仍然有可能评估菠萝的哪种块状表示S更好地实现了。

“ Minecraft允许人们更轻松地看到[AI开发]的进步，”辛格告诉TechCrunch。 “人们习惯了我的世界，习惯了外观和氛围。”

MC Bench目前将八个人列为志愿者贡献者。人类，Google，OpenAI和Alibaba已根据MC Bench的网站补贴该项目使用其产品来运行基准提示，但这些公司尚未隶属。

“目前，我们只是在做简单的构建，以反思我们距离GPT-3时代的距离，但是[我们]可以看到自己扩展到这些更长的计划和面向目标的任务，”辛格说。 “游戏可能只是测试代理推理的一种媒介，比现实生活更安全，并且在测试目的中更可控制，这使它在我眼中更加理想。”

其他游戏，例如《神奇宝贝红》，《街头霸王》和《图型蜜蜂》n用作AI的实验基准，部分原因是基准AI的艺术众所周知。

研究人员经常在标准化评估上测试AI模型，但是其中许多测试为AI带来了家庭优势。由于他们的训练方式，模型自然是在某些狭窄的问题解决方案中天生才有天赋的，尤其是解决问题的问题，需要死记硬背或基本的外推。

简单地说，很难理解Openai的GPT-4可以在LSAT的第88个百分位数中得分，但不能辨别“草莓”一词中有多少rs。 Anthropic的Claude 3.7十四行诗在标准化的软件工程基准上的准确性为62.3％，但在玩神奇宝贝时，这比大多数五岁的孩子都要糟。

图片来源：Minecraft Benchmark 从技术上讲，

mc-bench是一种编程基准，因为要求模型编写代码以创建提示构建，例如“ Frosty the the Frosty雪人”或“原始沙滩上的迷人的热带海滩小屋。”

但是，对于大多数MC板凳用户来说，评估雪人是否看起来比挖掘代码更好，这使项目更广泛地吸引人，因此有可能收集更多有关哪些模型一致得分更好的数据。

。

当然，这些分数是否在AI实用性方面相当于辩论。辛格断言它们是一个强烈的信号。

“当前的排行榜反映了我自己使用这些模型的经验，这与许多纯文本基准不同，”辛格说。 “也许[MC BENCH]对公司知道他们是否朝着正确的方向前进可能很有用。”

发布了：10708篇内容

查阅文章

2025-03-22

2025-03-22