Anthropic报告回应自我进化:已跑通局部闭环,但离完全自主训练仍有距离

火星财经快讯

06月05日 09:00
据动察 Beating 监测,AI 自主迭代的能力,正在超出所有人的预期。Anthropic 研究院(The Anthropic Institute)于 6 月 5 日发布报告《当 AI 建造自身》,详细披露了其在「递归自我提升」方面的研发进展。数据表明,截至 2026 年 5 月,Anthropic 主代码库合并的代码中,超过 80% 是 Claude 自己写的。而在 2025 年 2 月 Claude Code 发布前,Claude 写的代码只占个位数。智谱 AI 创始人唐杰在 5 月 13 日曾预测,大模型的终局就是自我进化,且 Claude 可能已经跑通了「写代码、洗数据、自己训练自己」的自我训练基线。但 Anthropic 在报告中明确澄清,完全自主设计和开发后继者的递归自我提升尚未实现。 AI 在开发链条中扮演的角色,正处于从局部提效向自主决策过渡的阶段。2026 年第二季度,Anthropic 工程师人均每天合并的代码量达到了 2024 年的 8 倍。现在的开发流程很简单:工程师只负责规划目标和审查,Claude 负责具体的编写与运行。Anthropic 还部署了 Claude 担任自动代码评审员,负责拦截 Bug 和安全漏洞。这表明唐杰指出的「自我评判」支柱已在工程端落地,但人类审查依旧是最后的安全阀门。 模型独立执行长周期任务的可靠度也在翻倍。模型能持续自主工作的时长大约每 4 个月就翻一倍。2024 年 3 月的 Claude 3 Opus 只能处理 4 分钟的简单任务。一年后的 Claude 3.7 Sonnet 就能顶住 1.5 小时。到了 2026 年 3 月,Claude 4.6 Opus 已经能应对 12 小时的复杂任务。评测机构 METR 的数据显示,最新的 Claude Mythos 预览版能持续自主工作 16 小时以上,逼近了当前评测工具的上限。按当前速度,到 2027 年,AI 将能自主搞定需要人类工作数周的科研任务,帮助企业实现从「一人公司」向「无人公司」的跨越。 至于唐杰猜测的「自我训练基线」,报告揭示的其实是一个局部的「微缩版实验闭环」。在小模型训练代码提速实验中,2025 年 5 月的 Claude 4 Opus 只能将代码速度提升 3 倍,而 2026 年 4 月的 Claude Mythos 预览版则实现了 52 倍的加速。相比之下,人类顶尖研究员通常能在 4 到 8 小时内实现 4 倍提升。然而,实验的优化目标和成功指标均由人类事先设定。在面对更复杂的端到端「清洗数据、生成合成数据并自我训练」这一完整链条时,AI 的决策能力依旧缺失。 然而,研发链路的自主闭环,正将人类推向失去系统终极控制权的边缘。唐杰预测的「LLM OS 取代传统架构、应用按需即时生成」,意味着未来计算机运行的都将是无法提前审查的动态代码;而 Anthropic 警告的「人类审查跟不上 AI 自我进化」,则意味着我们连生成代码的源头也无法把关。当 AI 开始自主设计并训练后继者,软件的演进将彻底沦为黑箱。一旦在黑箱系统中放任 AI 进行未经人类审计的自我迭代,后续对自我提升系统的安全隔离、监控和行为对齐,将变得极其棘手。

查看原文 >
本内容旨在传递行业动态,不构成投资建议或承诺。
看更多快讯,下载火星财经 APP