一个新的,具有挑战性的AGI测试树桩大多数AI模型
ARC奖基金会是由著名的AI研究人员FrançoisChollet共同创立的非营利组织,他在周一的博客文章中宣布,它创建了一项新的,具有挑战性的测试,以衡量领先的AI模型的一般智能。
到目前为止,新测试称为Arc-Agi-2,已经使大多数模型陷入困境。
诸如OpenAI的O1-Pro和DeepSeek的R1得分(ARC-AGI-2)在1%至1.3%之间。功能强大的非循环模型,包括GPT-4.5,Claude 3.7十四行诗和Gemini 2.0 Flash评分约1%。
ARC-AGI测试由类似难题的问题组成,其中AI必须从不同颜色的正方形集合中识别视觉模式,并生成正确的“答案”网格。这些问题的目的是迫使AI适应以前从未见过的新问题。
ARC奖基金会已有400多人以Arc-Agi-2的形式建立人类基线。在大街上愤怒,这些人的“面板”获得了60%的测试问题 - 比任何模型的分数要好得多。
ARC-AGI-2的样本问题(荣誉:ARC奖)。在X上的帖子中,Chollet声称ARC-AGI-2比测试的第一次迭代Arc-Agi-1更好地衡量了AI模型的实际智能。 ARC奖基金会的测试旨在评估AI系统是否可以在培训的数据之外有效地获得新技能。
Chollet说,与Arc-Agi-1不同,新测试可防止AI模型依靠“蛮力”(广泛的计算能力)来找到解决方案。 Chollet先前承认这是Arc-Agi-1的主要缺陷。
要解决第一个测试的缺陷,ARC-AGI-2引入了一个新的指标:效率。它还需要模型即时解释模式而不是依靠记忆。
“智力不仅由AB定义ARC奖基金会联合创始人格雷格·卡姆拉特(Greg Kamradt)在博客文章中写道:“获得问题或实现高分的能力。“获得和部署这些功能的效率是至关重要的,是一个至关重要的组成部分。被问到的核心问题不仅是“ AI可以获得解决任务的技能?”,而且,“以什么效率或成本?”
arc-agi-1在2024年12月发行了其先进的推理模型O3之前一直保持不败大约五年,该模型的表现优于所有其他AI模型,并在评估中匹配了人类的表现。但是,正如我们当时指出的那样,O3在Arc-Agi-1上的表现取得了巨大的价格。
OpenAI的O3型号-O3(Low)的版本首次达到ARC-AGI-1上的新高度,测试中得分为75.7%,使用每任务的计算功率200美元,在Arc-Agi-2上获得了4%的速度。
边境AI模型性能的比较RC-AGI-1和ARC-AGI-2(信用:ARC奖)。ARC-AGI-2的到来是许多在科技行业中呼吁建立新的,不饱和的基准测量人工智能进度的。 Hugging Face的联合创始人Thomas Wolf最近告诉TechCrunch,AI行业缺乏足够的测试来衡量所谓的人工通用情报的关键特征,包括创造力。
与新的基准测试基金会一起,ARC奖基金会宣布了一项新的ARC奖2025竞赛,挑战开发人员在ARC-AGI-2测试中达到85%的准确性,而每任务仅花费0.42美元。
。
发布评论