一位高中生建立了一个网站,可让您挑战AI模型

作为常规的AI基准测试技术证明不足,AI构建者正在转向更具创造性的方法来评估生成AI模型的功能。对于一组开发人员,Minecraft是Microsoft拥有的沙盒建造游戏。

一位高中生建立了一个网站,可让您挑战AI模型

网站Minecraft Benchmark(或MC-Bench)是在与Minecraft Creations的提示中响应提示的,与PIT AI模型进行了协作。用户可以对哪种模型做得更好,只有在投票后,他们才能看到AI使每个Minecraft构建哪个。

图片来源:Minecraft Benchmark(在新窗口中打开)

对于创办MC Bench的12年级学生Adi Singh来说,Minecraft的价值不是游戏本身,而是人们对此的熟悉程度 - 毕竟,这是有史以来最畅销的视频游戏。即使对于那些没有玩过游戏的人,仍然有可能评估菠萝的哪种块状表示S更好地实现了。

“ Minecraft允许人们更轻松地看到[AI开发]的进步,”辛格告诉TechCrunch。 “人们习惯了我的世界,习惯了外观和氛围。”

MC Bench目前将八个人列为志愿者贡献者。人类,Google,OpenAI和Alibaba已根据MC Bench的网站补贴该项目使用其产品来运行基准提示,但这些公司尚未隶属。

“目前,我们只是在做简单的构建,以反思我们距离GPT-3时代的距离,但是[我们]可以看到自己扩展到这些更长的计划和面向目标的任务,”辛格说。 “游戏可能只是测试代理推理的一种媒介,比现实生活更安全,并且在测试目的中更可控制,这使它在我眼中更加理想。”

其他游戏,例如《神奇宝贝红》,《街头霸王》和《图型蜜蜂》n用作AI的实验基准,部分原因是基准AI的艺术众所周知。

研究人员经常在标准化评估上测试AI模型,但是其中许多测试为AI带来了家庭优势。由于他们的训练方式,模型自然是在某些狭窄的问题解决方案中天生才有天赋的,尤其是解决问题的问题,需要死记硬背或基本的外推。

简单地说,很难理解Openai的GPT-4可以在LSAT的第88个百分位数中得分,但不能辨别“草莓”一词中有多少rs。 Anthropic的Claude 3.7十四行诗在标准化的软件工程基准上的准确性为62.3%,但在玩神奇宝贝时,这比大多数五岁的孩子都要糟。

图片来源:Minecraft Benchmark 从技术上讲,

mc-bench是一种编程基准,因为要求模型编写代码以创建提示构建,例如“ Frosty the the Frosty雪人”或“原始沙滩上的迷人的热带海滩小屋。”

但是,对于大多数MC板凳用户来说,评估雪人是否看起来比挖掘代码更好,这使项目更广泛地吸引人,因此有可能收集更多有关哪些模型一致得分更好的数据。

当然,这些分数是否在AI实用性方面相当于辩论。辛格断言它们是一个强烈的信号。

“当前的排行榜反映了我自己使用这些模型的经验,这与许多纯文本基准不同,”辛格说。 “也许[MC BENCH]对公司知道他们是否朝着正确的方向前进可能很有用。”

avatar

知识菜鸟 管理员

发布了:10708篇内容
查阅文章

发布评论

验证码

QQ交谈

在线咨询:QQ交谈

工作时间:每天9:00 - 18:00
若无特殊,节假日休息

我的微信