AI“推理”模型的兴起正在使基准测试更昂贵

知识菜鸟

2025年04月11日 09:03发布

3930阅读

AI像OpenAi这样的实验室声称，他们所谓的“推理” AI模型可以逐步通过问题“思考”，比其在特定领域（例如物理学）中的非调理对应物更有能力。但是，尽管通常情况似乎是这种情况，但推理模型的基准也更加昂贵，因此很难独立验证这些主张。

根据人工分析的数据，第三方AI测试服装，在七个流行的AI基准的套件中评估OpenAi的O1推理模型的成本为2,767.05美元：MMLU-PRO，GPQA DIAMOND，GPQA DIAMOND，Humanity的最后一次考试，Livecodebench，Scicodebench，Scicode，Aile 2024和Math-p>

基准通过人工分析测试Openai的O3-Mini-High，基于同一测试的“混合”推理模型（一种“混合”推理模型），同时测试Openai的O3-Mini-High成本为344.59美元，根据人工分析。

某些推理模型比Ben便宜CHMARK比其他人。例如，人工分析花费了$ 141.22评估OpenAI的O1-Mini。但是平均而言，它们往往很昂贵。总而言之，人工分析花费了大约5,200美元，评估了十几个推理模型，近的两倍是公司分析80多种非调理模型的两倍（2,400美元）。

OpenAI于2024年5月发行的OpenAI的非审判GPT-4O型号的费用仅为108.85美元，而Claude 3.6 SONNET - Claude 3.7十四行诗的非季节性非季节性的前身 - 价格为81.41美元。

。

人工分析联合创始人乔治·卡梅伦（George Cameron）告诉TechCrunch，该组织计划随着更多的AI实验室发展推理模型，该组织计划增加其基准支出。

“在人工分析中，我们每月进行数百次评估，并为这些评估投入大量预算，”卡梅伦说。 “我们正在计划增加这笔支出，因为模型更频繁地发布。”

人工分析是不＆＃8217; t此类服装涉及AI基准成本的上升。

AI创业公司一般推理的首席执行官罗斯·泰勒（Ross Taylor）表示，他最近花了580美元在约3,700个独特的提示上评估克劳德3.7十四行诗。泰勒（Taylor）估计，MMLU Pro的单一跑步是一个旨在基准模型的语言理解技能的问题集，其成本超过1,800美元。

“我们正在进入一个实验室在基准上报告x％的世界，在他们花费大量计算的基准上，但是学者资源的<< y。”

为什么推理模型如此昂贵？主要是因为它们产生了很多令牌。令牌代表原始文本的一些部分，例如“奇妙”一词分为“ fan”，“ tas”和“ tic”。根据人造分析是，OpenAI的O1在公司的基准测试期间产生了超过4400万个令牌，大约是GPT-4O产生的八倍。

绝大多数AI公司对代币的模型使用费用，因此您可以看到这种成本如何加起来。

Epoch AI高级研究员Jean-Stanislas Denain表示，

现代基准也倾向于从模型中引起许多代币，因为它们包含涉及复杂的多步任务的问题，该公司是Epoch AI的高级研究员Jean-Stanislas Denain，该研究人员开发了自己的模型基准。

。

“ [今天的]基准更为复杂（即使]每个基准的问题总体上减少，” Denain告诉TechCrunch。 “他们经常尝试评估模型执行实际任务的能力，例如编写和执行代码，浏览互联网并使用计算机。”

Denain补充说，随着时间的推移，最昂贵的型号的每个令牌变得更加昂贵。例如，拟人的克劳德3（Claude 3）是PR最初的模型在2024年5月发布时，售价为每百万美元的产出代币75美元。 OpenAI的GPT-4.5和O1-Pro（今年早些时候推出）分别为每百万产量令牌150美元和每百万美元产量代币600美元。

“随着时间的流逝，模型变得更好，随着时间的推移，达到给定性能水平的成本仍然大大降低。” Denain说。 “但是，如果您想在任何时候评估最大的最大型号，那么您仍在支付更多。”

包括OpenAI在内的许多AI实验室，为基准组织提供了免费或补贴对其模型的访问，以进行测试。但是，一些专家说，这种结果使结果造成了颜色，即使没有操纵的证据，AI实验室的参与的建议也有可能损害评估评分的完整性。

“从[A]科学的角度来看，如果您发布了没有人可以复制的结果有了相同的模型，它甚至是科学了吗？”泰勒在X上的后续文章中写道。