AI“推理”模型的兴起正在使基准测试更昂贵
AI像OpenAi这样的实验室声称,他们所谓的“推理” AI模型可以逐步通过问题“思考”,比其在特定领域(例如物理学)中的非调理对应物更有能力。但是,尽管通常情况似乎是这种情况,但推理模型的基准也更加昂贵,因此很难独立验证这些主张。
根据人工分析的数据,第三方AI测试服装,在七个流行的AI基准的套件中评估OpenAi的O1推理模型的成本为2,767.05美元:MMLU-PRO,GPQA DIAMOND,GPQA DIAMOND,Humanity的最后一次考试,Livecodebench,Scicodebench,Scicode,Aile 2024和Math-p>
基准通过人工分析测试Openai的O3-Mini-High,基于同一测试的“混合”推理模型(一种“混合”推理模型),同时测试Openai的O3-Mini-High成本为344.59美元,根据人工分析。
某些推理模型比Ben便宜CHMARK比其他人。例如,人工分析花费了$ 141.22评估OpenAI的O1-Mini。但是平均而言,它们往往很昂贵。总而言之,人工分析花费了大约5,200美元,评估了十几个推理模型,近的两倍是公司分析80多种非调理模型的两倍(2,400美元)。
OpenAI于2024年5月发行的OpenAI的非审判GPT-4O型号的费用仅为108.85美元,而Claude 3.6 SONNET - Claude 3.7十四行诗的非季节性非季节性的前身 - 价格为81.41美元。
。。人工分析联合创始人乔治·卡梅伦(George Cameron)告诉TechCrunch,该组织计划随着更多的AI实验室发展推理模型,该组织计划增加其基准支出。
“在人工分析中,我们每月进行数百次评估,并为这些评估投入大量预算,”卡梅伦说。 “我们正在计划增加这笔支出,因为模型更频繁地发布。”
人工分析是不’ t此类服装涉及AI基准成本的上升。
AI创业公司一般推理的首席执行官罗斯·泰勒(Ross Taylor)表示,他最近花了580美元在约3,700个独特的提示上评估克劳德3.7十四行诗。泰勒(Taylor)估计,MMLU Pro的单一跑步是一个旨在基准模型的语言理解技能的问题集,其成本超过1,800美元。“我们正在进入一个实验室在基准上报告x%的世界,在他们花费大量计算的基准上,但是学者资源的<< y。”
为什么推理模型如此昂贵?主要是因为它们产生了很多令牌。令牌代表原始文本的一些部分,例如“奇妙”一词分为“ fan”,“ tas”和“ tic”。根据人造分析是,OpenAI的O1在公司的基准测试期间产生了超过4400万个令牌,大约是GPT-4O产生的八倍。
绝大多数AI公司对代币的模型使用费用,因此您可以看到这种成本如何加起来。
Epoch AI高级研究员Jean-Stanislas Denain表示,现代基准也倾向于从模型中引起许多代币,因为它们包含涉及复杂的多步任务的问题,该公司是Epoch AI的高级研究员Jean-Stanislas Denain,该研究人员开发了自己的模型基准。
。。“ [今天的]基准更为复杂(即使]每个基准的问题总体上减少,” Denain告诉TechCrunch。 “他们经常尝试评估模型执行实际任务的能力,例如编写和执行代码,浏览互联网并使用计算机。”
Denain补充说,随着时间的推移,最昂贵的型号的每个令牌变得更加昂贵。例如,拟人的克劳德3(Claude 3)是PR最初的模型在2024年5月发布时,售价为每百万美元的产出代币75美元。 OpenAI的GPT-4.5和O1-Pro(今年早些时候推出)分别为每百万产量令牌150美元和每百万美元产量代币600美元。
“随着时间的流逝,模型变得更好,随着时间的推移,达到给定性能水平的成本仍然大大降低。” Denain说。 “但是,如果您想在任何时候评估最大的最大型号,那么您仍在支付更多。”
包括OpenAI在内的许多AI实验室,为基准组织提供了免费或补贴对其模型的访问,以进行测试。但是,一些专家说,这种结果使结果造成了颜色,即使没有操纵的证据,AI实验室的参与的建议也有可能损害评估评分的完整性。
“从[A]科学的角度来看,如果您发布了没有人可以复制的结果有了相同的模型,它甚至是科学了吗?”泰勒在X上的后续文章中写道。
发布评论