AGI 到底来了吗?新一代 AI 基准测试显示,距离还远着呢

Decrypt

简要概述

  • ARC-AGI-3暴露了人工通用智能(AGI)声称与现实之间的巨大差距,顶级AI模型的得分都低于1%,而人类则能完美表现。
  • 该基准测试验证真正的泛化能力——要求代理在未知环境中探索、规划和自主学习,而非仅仅回忆训练过的模式。
  • 尽管行业炒作不断,当前的AI系统仍远未达到AGI水平,缺乏即使是年轻人也能自然展现的推理和适应能力。

英伟达CEO黄仁勋上周在Lex Fridman的播客中直言:“我认为我们已经实现了AGI。”两天后,AI研究中最严格的测试发布了最新的人工通用智能基准——每个前沿模型的得分都低于1%。 ARC奖基金会本周发布了ARC-AGI-3,结果令人震惊。谷歌的Gemini 3.1 Pro以0.37%领先。OpenAI的GPT-5.4得分为0.26%。Anthropic的Claude Opus 4.6达到了0.25%,而xAI的Grok-4.20则得分为零。人类则在所有环境中都达到了100%的解决率。 这不是一个琐事测试或编码考试,甚至不是极难的博士级别问题。ARC-AGI-3是AI行业前所未有的全新挑战。

该基准由François Chollet和Mike Knoop的基金会创建,他们建立了一个内部游戏工作室,从零开发了135个原创交互环境。其核心思想是让AI代理进入一个陌生的类似游戏的世界,没有任何指令、目标或规则描述。代理必须探索、理解任务、制定计划并执行。 如果你觉得这像五岁孩子都能做到的事情,那你开始理解问题的本质了。如果你想知道自己是否比AI更强,可以点击这个链接,试玩测试中包含的相同游戏。我们试了一次,起初感觉怪怪的,但几秒钟后就能很快上手。

这也是“G”在AGI中的最直观体现。当你具备泛化能力时,就能在没有提前训练的情况下,创造出新知识(理解一个奇怪游戏的玩法)。

之前的ARC版本测试的是静态视觉谜题——展示一个模式,预测下一个。刚开始很难。后来实验室投入大量计算资源和训练,基准几乎被攻破。2019年推出的ARC-AGI-1主要测试时间训练和推理模型。ARC-AGI-2持续了一年左右,直到Gemini 3.1 Pro达到77.1%。实验室非常擅长在它们可以训练的基准上达到饱和。 第3版特别设计了防止这种情况发生。135个环境中有55个半私有用于API测试,55个完全封闭用于竞赛,没有可供记忆的数据集。你无法通过暴力破解未见过的游戏逻辑。 评分也不是简单的通过或不通过。ARC-AGI-3采用基金会称之为RHAE(相对人类行动效率)的方法。基准是第二好的、首次表现的人类水平。一个行动次数比人类多十倍的AI,其得分为1%,而不是10%。公式对低效行为的惩罚是平方。徘徊、回溯和猜测都将受到严厉惩罚。  在为期一个月的开发者预览中,表现最好的AI代理得分为12.58%。通过官方API测试的前沿大型语言模型(LLMs),没有定制工具,连1%都达不到。普通人无需训练或指令,就能解决全部135个环境。如果这就是标准,那么目前的模型还远未达到。 这里存在一个真正的方法论争议。ARC的报告指出,杜克大学定制的测试工具曾将Claude Opus 4.6在一个名为TR87的单一环境变体中从0.25%提升到97.1%。这并不意味着Claude在ARC-AGI-3整体得分达到了97.1%;其官方基准分仍是0.25%,但这个变化值得关注。 官方基准输入的是代理的JSON代码,而非视觉内容。这要么是方法上的缺陷,要么说明当今模型在处理人类友好信息方面比处理原始结构化数据更擅长。Chollet的基金会已承认这一争议,但并未改变格式。 “框架内容感知和API格式不是影响前沿模型在ARC-AGI-3上表现的限制因素,”论文中写道。换句话说,他们似乎否认模型失败是因为“看不清任务”,而是认为感知能力已足够——真正的差距在于推理和泛化能力。

在一周的炒作高潮中,AGI的现实检验到来。除了黄仁勋的评论,Arm宣布其新数据中心芯片为“AGI CPU”。OpenAI的Sam Altman表示他们“基本上构建了AGI”,微软也在推广一个专注于构建ASI(超人工智能)的实验室:这是在实现AGI之后的演变。这个术语被不断扩展,直到变成任何商业上方便的定义。 Chollet的立场更为简单:如果一个普通人无需指令就能完成的任务,而你的系统做不到,那你还没有实现AGI——你只是一个需要大量帮助的昂贵自动补全工具。 ARC奖2026年将提供200万美元奖金,分为三个竞赛赛道,全部在Kaggle平台举办。每个获胜方案都必须开源。目前来看,机器还远未达到这个标准。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论