Openai揭开了其最大的AI模型GPT-4.5'Orion'

2025年03月07日 16:53发布

4503阅读

PT 2:40 PM更新：GPT-4.5发行后的几小时，OpenAI删除了AI型号的白皮书中的一条线条，上面说“ GPT-4.5不是边境AI型号。” GPT-4.5的新白皮书不包括该行。您可以在这里找到指向旧白皮书的链接。原始文章如下。 Openai周四宣布，它将推出GPT-4.5，这是备受期待的AI模型代码为Orion。 GPT-4.5是迄今为止OpenAI最大的模型，它使用比以前的任何版本中的任何一个使用计算能力和数据进行培训。尽管有大小，但Openai在白皮书中指出，它并不认为GPT-4.5是边境模型。 OpenAI的每月200美元计划Chatgpt Pro的订阅者将从周四开始，作为研究预览的一部分。 OpenAI API的付费层的开发人员也将从今天开始使用GPT-4.5。至于其他chatgpt用户，客户签署了chatgpt和OpenAI发言人告诉TechCrunch，ND Chatgpt团队应下周某个时候获得模型。该行业已经为猎户座提供了集体呼吸，有些人认为这是传统AI培训方法可行性的领先地位。 GPT-4.5是使用相同的关键技术开发的 - 在“预训练前”阶段（称为无监督学习）期间，OpenAI用来开发GPT-4，GPT-3，GPT-3，GPT-2，GPT-2和GPT-1。在GPT-4.5之前的每一个GPT生成中，扩大规模都会使跨领域的性能大大增加，包括数学，写作和编码。确实，Openai说，GPT-4.5的规模增加使它“更深层的世界知识”和“更高的情绪智力”。但是，有一些迹象表明，从扩展数据和计算开始得出的收益开始升级。在几个AI基准测试中，GPT-4.5属于Chi的较新的AI“推理”模型NESE AI初创公司DeepSeek，Anthropic和Openai本身。 Openai承认，GPT-4.5也非常昂贵 - 如此昂贵，以至于该公司表示正在评估是否长期继续使用GPT-4.5。为了访问GPT-4.5的API，OpenAI每百万个输入令牌（大约750,000个单词）向开发人员收取75美元的费用，每百万个产出令牌为150美元。将其与GPT-4O相比，GPT-4O的价格仅为每百万个输入令牌255美元，而每百万美元的产出代币的价格仅为1050美元。 Openai在与TechCrunch分享的博客文章中说：“我们将分享GPT -4.5作为研究预览，以更好地了解其优势和局限性。” “我们仍在探索它的能力，并渴望以我们可能没有预期的方式看到人们如何使用它。” 混合性能 Openai强调，GPT-4.5并不是要替换GPT-4O，GPT-4O是该公司的大部分API和CHATGPT的主力模型。而GPT-4.5支持TS功能诸如文件和图像上传和Chatgpt的Canvas工具之类的功能，目前缺乏支持Chatgpt现实的双向语音模式的功能。在加号列中，GPT-4.5比GPT-4O更具性能 - 除了其他许多型号。在OpenAI的SimpleQA基准上，该基准测试了直接，事实问题的AI模型，GPT-4.5优于GPT-4O和OpenAI的推理模型O1和O3-Mini，就准确性而言。根据Openai的说法，GPT-4.5的幻觉量低于大多数型号，这在理论上意味着它应该较小的组成东西。 Openai没有在SimpleQA上列出其表现最佳的AI推理模型之一。一位OpenAI发言人告诉TechCrunch，它尚未公开报道深入研究在此基准中的表现，并声称这不是相关的比较。值得注意的是，AI初创公司的困惑的深度研究模型，该模型在其他基准测试方面的性能类似NAI的深入研究，在此事实准确性测试方面优于GPT-4.5。 SimpleQA基准标记：图像学分：OpenAi 在编码问题的子集中，SWE-Bench验证的基准GPT-4.5粗略地与GPT-4O和O3-Mini的性能相匹配，但却没有Openai的深入研究以及Anthropic的Claude 3.7十四行诗。在另一项编码测试中，OpenAI的SWE-Lancer基准测量了AI模型开发完整软件功能的能力，GPT-4.5的表现都胜过GPT-4O和O3 Mini，但并没有最好的深入研究。 OpenAI的SWE Bench验证的基准。图片信用：OpenAI Openai的Swe-Lancer钻石基准。图像学分：OpenAI GPT-4.5并没有达到领先的AI推理模型，例如O3-Mini，DeepSeek的R1和Claude 3.7十四行诗（从技术上讲是混合模型），例如AIME和GPQA等困难的学术基准。但是GPT-4.5在相同的测试上匹配或最佳领先的非争议模型，表明该模型在与数学和科学有关的问题上表现良好。 Openai还声称，GPT-4.5在质量上比其他模型在基准不佳的领域优于其他模型，例如理解人类意图的能力。 Openai说，GPT-4.5以更温暖，更自然的语气做出反应，并且在诸如写作和设计之类的创意任务上表现良好。在一个非正式测试中，OpenAI促使GPT-4.5和其他两个模型GPT-4O和O3-Mini在SVG中创建独角兽，这是一种用于显示基于数学公式和代码的图形的格式。 GPT-4.5是唯一创建类似于独角兽的任何AI模型。左：GPT-4.5，中间：GPT-4O，右：O3-Mini。图像学分：OpenAi 在另一项测试中，OpenAI要求GPT-4.5和其他两个模型对提示做出回应：“在未能通过测试后，我经历了艰难的时期。” GPT-4O和O3-Mini提供了有用的信息，但GPT-4.5的回应在社会上是最合适的。 “ [w] eOpenai在博客文章中写道：“因为我们认识到学术基准并不总是反映现实世界的有用性，因此可以通过此版本获得更完整的GPT-4.5功能图片。” GPT-4.5的情绪智力在行动中。图像学分：Openai 扩展法律挑战 Openai声称GPT -4.5是“在无监督学习中可能的边界”。这可能是正确的，但是该模型的局限性似乎也证实了专家的猜测，即预先培训的“扩展法”不会继续存在。 Openai联合创始人和前首席科学家Ilya Sutskever在12月表示，“我们已经达到了峰值数据”，并且“据我们所知，这将毫无疑问会结束。”他的评论回应了AI投资者，创始人和研究人员与TechCrunch在11月的一项功能中与TechCrunch分享的担忧。响应预训练hurdlES，包括OpenAI在内的行业已经采用了推理模型，这些模型比非争议模型需要更长的时间来执行任务，但往往更加一致。通过增加AI推理模型通过问题“思考”的时间和计算能力，AI实验室确信它们可以显着提高模型的功能。 Openai计划最终将其GPT系列模型与其“ O”推理系列相结合，从今年晚些时候GPT-5开始。据报道，GPT-4.5的训练，延误了几次并且未能满足内部期望的速度非常昂贵，可能不会自行获得AI基准冠冕。但是Openai可能将其视为跨越更大功能的垫脚石。