当 AI 开始构建自己 · 递归自我改进解读

在 AI 发展史的大部分时间里，开发循环的每一步都由人类驱动。但在 Anthropic，越来越多的 AI 研发工作正被交给 AI 系统自己完成——这正在加速我们的工作。

如果这一趋势走到极致、并拥有足够的算力，它指向的终点是：一个能完全自主地设计与开发出自身后继者的 AI 系统。这就是「递归自我改进」（recursive self-improvement）。我们还没到那一步，它也并非不可避免——但它可能比大多数机构所准备的来得更早。

8×

如今 Anthropic 工程师人均每季度提交的代码量，是 2021–2024 年的 8 倍

>80%

截至 2026 年 5 月，合入主代码库的代码由 Claude 编写

12h

Claude Opus 4.6 已能完成耗时约 12 小时的软件任务

一句话概括

AI 已经在加速 AI 本身的研发。「做」（写代码、跑实验、出结果）几乎不再消耗人类时间；人类的价值正集中到判断力与品味——决定哪些问题值得做、哪些结果可信、何时该止损。

这既可能在科学、医疗等领域带来巨大福祉，也可能放大人类失去对 AI 控制权的风险。系统越能自我构建，我们如何保障、监控、塑造它的行为就越关键。

01AI 研发的五个阶段

人类在 AI 开发循环中的角色，正一步步收窄：

2021–2023

构建第一个 Claude

和任何科技公司一样：人们在笔记本上手写代码和文档。

2023–2025

聊天机器人

用早期 chatbot 生成短代码片段，再手动复制粘贴进编辑器。

2025–2026

编程智能体

智能体能力提升，可以自主编写和修改代码，有时是整个文件。

今天

自主智能体

智能体能自己运行代码，并把数小时的工作委派给其他智能体。

20XX?

闭环

未来智能体或许能力强到可以自己构建并训练模型——Claude 由 Claude 持续改进。

02来自外部世界的证据

AI 模型进步的速度本身在加速。它们能可靠独立完成的任务时长，过去每约 7 个月翻一倍，如今缩短到约每 4 个月翻一倍。

2024 年 3 月：Claude Opus 3 能完成人类约 4 分钟的软件任务；
一年后：Claude Sonnet 3.7 能搞定约 1.5 小时的任务；
再一年：Claude Opus 4.6 能完成 12 小时的任务。

若趋势延续，耗时数天的任务今年内有望进入射程；2027 年，AI 或能胜任耗时数周的任务。

基准测试同样在快速饱和

SWE-bench（真实软件工程）：给模型一个真实开源代码库和一份真实 bug 报告，要求写出能修复并通过项目测试的改动。两年内，模型从个位数得分一路逼近满分。

CORE-Bench（复现研究）：给模型一篇论文的代码与数据，让它复跑并确认能复现结果。从 2024 年约 20% 成功率，到 15 个月后基本饱和。

METR 长任务测评：Claude Mythos Preview 能连续工作「至少」16 小时，已处于 METR 现有测试所能测量的上限。

但公开基准无法揭示 AI 对「加速 AI 研发本身」的影响。要看清这点，需要来自 AI 公司内部的直接证据。

03来自 Anthropic 内部的证据

构建前沿模型分两大类工作：工程（写代码、搭基础设施、监督训练）与研究（决定做什么实验、解读结果、判断下一步）。两条线索一致：

工程上，Claude 能接下「描述不清」的问题并自己找出解法——人类只需给目标，不必再给方法；
研究上，在执行「已明确定义」的实验时，Claude 已能匹敌甚至超越熟练的人类；
但在「选择目标、行使判断」这件事上，人与 AI 之间仍有巨大差距——这正是今天的 AI 与「能自主设计后继者」之间的鸿沟。

Claude 写了大量代码

截至 2026 年 5 月，合入代码库的代码中逾 80% 由 Claude 编写（2025 年 2 月 Claude Code 预览发布前还是个位数）。人均每日合入代码量在头四年（2021–2024）持平，2025 年 Claude 开始「自己跑代码」后上扬，2026 年模型能长时程自主工作后再次陡增——2026 年二季度，典型工程师人均日合入代码是 2024 年的 8 倍。

注：代码行数只衡量数量、不衡量质量，8× 几乎肯定高估了真实生产力增幅；但它确实指向一种加速。

「大约一年前我开始全力『Claude 化』。这是一场疯狂的冒险——我已经差不多 5 个月没有亲手写过一行代码了。」
—— 一位 Anthropic 员工

做了原本根本不会做的事

2026 年 4 月，Claude 提交了 800 多个修复，把某类 API 错误降低了 1000 倍。负责监督的工程师估计，纯靠人力要花 4 年——因为替别人调 bug 缓慢痛苦，人脑也难以同时装下那么多陌生上下文。

代码质量「好」且在变好

「好代码」有两层含义：能跑，且别人读得懂、改得动。第一层证据明确——人类纠正/接管 Claude 的比例已连续一年稳步下降，即使在最开放的任务上也是如此。2026 年 5 月，最开放任务上的成功率达到 76%，半年内提升 50 个百分点。

第二层（可读、可维护）仍有差距但在快速收窄。许多员工认为：2025 年底 Claude 代码质量略逊于人类，今天大致持平，预计一年内会更好。

「Claude 写的代码在 2025 年底略逊于人类，今天大致持平，我们预计一年内会严格地更优。」

这也改变了代码审查方式：每个改动现在都先由自动化 Claude 审查器检查 bug 与安全缺陷。回溯分析发现，它本可在上线前抓住 claude.ai 过往事故中约三分之一的 bug——而写下这些代码的，是世界上最擅长构建此类系统的工程师。

擅长「为既定目标跑实验」

每次发布模型，Anthropic 都做同一个测试：给 Claude 一段训练小模型的代码，让它在通过同样正确性检查的前提下把代码跑得尽可能快。这是研究循环的微缩版。

~3×

2025 年 5 月 Claude Opus 4 的平均加速

~52×

2026 年 4 月 Mythos Preview 的加速

~4×

熟练人类研究员需 4–8 小时才能达到

在「明确实验内的优化」这一环，Claude 不到一年就从「非常有用」走到了「超人」。

开始能自己提出实验

2026 年 4 月，Anthropic 首次展示 Claude 端到端运行一个开放式研究项目：给智能体一个 AI 安全难题（弱模型能否可靠监督强模型？），让其自行求解。两位人类研究员一周内挽回了约 23% 的差距；智能体在累计 800 小时、约 1.8 万美元算力下挽回了 97%。虽有保留（结果未能干净地迁移到生产规模、问题与评分标准仍由人定），但每一个实验都由智能体自己设计——人类只负责定方向。

开始能把研究会话引向发现

研究者们在开放式调查（如查清训练为何崩溃）中，常会走一段「弯路」。研究人员把走偏前的工作喂给不同 Claude 模型，问「下一步你会怎么做」，再由另一个能看到最终结果的 Claude 评判谁的下一步更好。

在这些「人类本可做得更好」的节点（n=129）上：2025 年 11 月最佳模型（Opus 4.5）胜过人类选择 51%；2026 年 4 月（Mythos Preview）升至 64%。这是 AI 越来越能做出「研究所依赖的判断」的早期信号。

「目前人类的比较优势，仍在于看见更大的图景、跳出眼前任务去思考。」

04未来工作会变成什么样？

人类角色正在每一步收窄。一旦人写与 AI 写的代码质量持平，人类将不再写代码，只做审查；但若审查速度跟不上生成速度，人类审查就会成为新瓶颈。同理，当 Claude 能跑实验，问题就从「怎么跑」变成「哪个实验值得跑」。

当下人类的比较优势在于研究品味与判断：选择哪些问题重要、哪些结果可信、何时一条路已是死胡同。

「工作（和生活）曾运行在人与人之间小恩小惠的『人情经济』上……每一次都积累一点亏欠、一点彼此的关注。Claude 更快、零亏欠——但每一次也都是一次失去的、向人类协作发出的邀约。」

05如果我们错了？

一个自然的反驳是：留在人类手里的那部分——选择做什么问题——才是最重要的。没有这份判断，Claude 只是得力助手，而非能独立驱动 AI 进步的系统。

但 AI 进步很少靠「灵光一现」。除了 Transformer、专家混合（MoE）这类范式级突破（数年才出一次），大部分进步是渐进的：放大规模 → 看哪里崩 → 修好 → 再来一遍。而这恰恰是 Claude 如今最擅长的工作流。爱迪生说天才是 1% 灵感加 99% 汗水——如今「汗水」正越来越被自动化。

因此即便保守地假设 Claude 永远练不出研究品味，结论仍是复利式的加速：人类把时间集中在那一小撮「定方向」的工作上，其余交给 Claude，每个人都在「掌舵」远超以往的工作量。

06三种可能的未来

接下来会怎样，取决于两件事：趋势是否延续，以及若延续我们如何应对。至少有三种情景：

情景一 · 趋势停滞

趋势停滞，但今日能力被广泛扩散

那些指数曲线可能其实是 S 形曲线，我们正接近拐点。区分「合格」与「卓越」研究者的判断力，或许无法靠堆算力和数据获得；约束也可能在供应链（能源、算力、芯片产能）而非模型本身。

但即便能力冻结在今天，世界仍会巨变：Project Glasswing 头几周就在全球关键系统中发现逾一万个高危漏洞——网络防御的瓶颈已从「找漏洞」转向「修得够快」。作者认为此情景可能性最低。

情景二 · 复利增效

AI 实验室持续获得复利式效率提升

AI 研发高度自动化，但人类仍负责定方向、判结果。百人公司能干一万乃至十万人的活。这会革新知识工作与政府服务，也可能被用于威权监控、规模化操纵等恶途。

这是作者认为最可能的走向。但提速一环往往只是把瓶颈推到别处（阿姆达尔定律）——Anthropic 已尝到：代码一多，人类审查就成了新瓶颈；发现并修复瓶颈的能力，可能成为组织最重要的技能。

情景三 · 完全递归自我改进

AI 开始构建自己的后继者

若能力趋势延续，AI 具备了人类那种变革性的创造力，它便可能自我设计与精炼。进步节奏将几乎完全由算力（及算法效率发现）决定，人类大多转向监督、验证与校验一个由 AI 运行的「虚拟实验室」。

此情景中作者最不确定的是对齐问题：模型或足够对齐且有智慧，发现我们未及的新方案、甚至明智地主动叫停；也可能今日罕见的错位在「模型造模型」中不断复利放大，直到我们失去控制。一个由快速递归自我改进主导的世界，可能被自我改进的模型本身所支配。

阿姆达尔定律在此同样适用：再强的智能也无法跳过临床试验的时间、宪法规定的选举周期，或把陌生人在一个周末变成老友。对多数人而言，未来的「体感速度」仍由这些瓶颈决定——哪怕上游实验室已以算力的速度运转。

07我们应该怎么做？

如果能有效放慢这项技术、为应对其深远影响争取时间，作者认为这大概率是好事。但若放慢只是让最不谨慎的玩家追上来，反而让所有人更不安全。在缺乏全球协调机制时，企业与政府不得不在竞争与地缘压力下做安全权衡。

Anthropic 希望世界保留「放慢或临时暂停」前沿研发的选项。Anthropic Institute 将与各方合作，研究并搭建可信暂停所需的核验系统——让前沿开发者能确认他人确实停了、且无人借暂停之名暗中抢跑。若此类系统存在、且其他前沿玩家以可核验方式同步，Anthropic 预期自己也会放慢或暂停。

难点在于：训练远比导弹发射井容易隐藏，其投入又是通用的，暗中违约的诱惑巨大。世界曾为复杂技术建立过核查机制（如《中导条约》），但那耗时数十年——我们没有那么久。单方面暂停可以立刻做到，却只会换个领跑者，无法创造当前缺失的更广泛的协商进程。

未来数月，Anthropic 将组织政策制定者、研究者、公民社会与其他 AI 公司展开对话，并公开成果。共同探讨这些问题的窗口，就在当下。

读完记住这几点

AI 已经在实打实地加速 AI 研发：80%+ 代码由 Claude 写，工程师产出 8×。
「执行」几乎免费，人类价值收敛到判断与品味——但这道护城河也在被慢慢填平。
最可能的近期未来：复利增效，瓶颈不断转移（阿姆达尔定律）。
真正的风险与机遇都在「完全递归自我改进」——对齐与可核验的暂停机制，是当下最该投入的事。