在 AI 发展史的大部分时间里,开发循环的每一步都由人类驱动。但在 Anthropic,越来越多的 AI 研发工作正被交给 AI 系统自己完成——这正在加速我们的工作。
如果这一趋势走到极致、并拥有足够的算力,它指向的终点是:一个能完全自主地设计与开发出自身后继者的 AI 系统。这就是「递归自我改进」(recursive self-improvement)。我们还没到那一步,它也并非不可避免——但它可能比大多数机构所准备的来得更早。
AI 已经在加速 AI 本身的研发。「做」(写代码、跑实验、出结果)几乎不再消耗人类时间;人类的价值正集中到判断力与品味——决定哪些问题值得做、哪些结果可信、何时该止损。
这既可能在科学、医疗等领域带来巨大福祉,也可能放大人类失去对 AI 控制权的风险。系统越能自我构建,我们如何保障、监控、塑造它的行为就越关键。
01AI 研发的五个阶段
人类在 AI 开发循环中的角色,正一步步收窄:
02来自外部世界的证据
AI 模型进步的速度本身在加速。它们能可靠独立完成的任务时长,过去每约 7 个月翻一倍,如今缩短到约每 4 个月翻一倍。
- 2024 年 3 月:Claude Opus 3 能完成人类约 4 分钟的软件任务;
- 一年后:Claude Sonnet 3.7 能搞定约 1.5 小时的任务;
- 再一年:Claude Opus 4.6 能完成 12 小时的任务。
若趋势延续,耗时数天的任务今年内有望进入射程;2027 年,AI 或能胜任耗时数周的任务。
基准测试同样在快速饱和
SWE-bench(真实软件工程):给模型一个真实开源代码库和一份真实 bug 报告,要求写出能修复并通过项目测试的改动。两年内,模型从个位数得分一路逼近满分。
CORE-Bench(复现研究):给模型一篇论文的代码与数据,让它复跑并确认能复现结果。从 2024 年约 20% 成功率,到 15 个月后基本饱和。
METR 长任务测评:Claude Mythos Preview 能连续工作「至少」16 小时,已处于 METR 现有测试所能测量的上限。
但公开基准无法揭示 AI 对「加速 AI 研发本身」的影响。要看清这点,需要来自 AI 公司内部的直接证据。
03来自 Anthropic 内部的证据
构建前沿模型分两大类工作:工程(写代码、搭基础设施、监督训练)与研究(决定做什么实验、解读结果、判断下一步)。两条线索一致:
- 工程上,Claude 能接下「描述不清」的问题并自己找出解法——人类只需给目标,不必再给方法;
- 研究上,在执行「已明确定义」的实验时,Claude 已能匹敌甚至超越熟练的人类;
- 但在「选择目标、行使判断」这件事上,人与 AI 之间仍有巨大差距——这正是今天的 AI 与「能自主设计后继者」之间的鸿沟。
Claude 写了大量代码
截至 2026 年 5 月,合入代码库的代码中逾 80% 由 Claude 编写(2025 年 2 月 Claude Code 预览发布前还是个位数)。人均每日合入代码量在头四年(2021–2024)持平,2025 年 Claude 开始「自己跑代码」后上扬,2026 年模型能长时程自主工作后再次陡增——2026 年二季度,典型工程师人均日合入代码是 2024 年的 8 倍。
注:代码行数只衡量数量、不衡量质量,8× 几乎肯定高估了真实生产力增幅;但它确实指向一种加速。
「大约一年前我开始全力『Claude 化』。这是一场疯狂的冒险——我已经差不多 5 个月没有亲手写过一行代码了。」
—— 一位 Anthropic 员工
做了原本根本不会做的事
2026 年 4 月,Claude 提交了 800 多个修复,把某类 API 错误降低了 1000 倍。负责监督的工程师估计,纯靠人力要花 4 年——因为替别人调 bug 缓慢痛苦,人脑也难以同时装下那么多陌生上下文。
代码质量「好」且在变好
「好代码」有两层含义:能跑,且别人读得懂、改得动。第一层证据明确——人类纠正/接管 Claude 的比例已连续一年稳步下降,即使在最开放的任务上也是如此。2026 年 5 月,最开放任务上的成功率达到 76%,半年内提升 50 个百分点。
第二层(可读、可维护)仍有差距但在快速收窄。许多员工认为:2025 年底 Claude 代码质量略逊于人类,今天大致持平,预计一年内会更好。
「Claude 写的代码在 2025 年底略逊于人类,今天大致持平,我们预计一年内会严格地更优。」
这也改变了代码审查方式:每个改动现在都先由自动化 Claude 审查器检查 bug 与安全缺陷。回溯分析发现,它本可在上线前抓住 claude.ai 过往事故中约三分之一的 bug——而写下这些代码的,是世界上最擅长构建此类系统的工程师。
擅长「为既定目标跑实验」
每次发布模型,Anthropic 都做同一个测试:给 Claude 一段训练小模型的代码,让它在通过同样正确性检查的前提下把代码跑得尽可能快。这是研究循环的微缩版。
在「明确实验内的优化」这一环,Claude 不到一年就从「非常有用」走到了「超人」。
开始能自己提出实验
2026 年 4 月,Anthropic 首次展示 Claude 端到端运行一个开放式研究项目:给智能体一个 AI 安全难题(弱模型能否可靠监督强模型?),让其自行求解。两位人类研究员一周内挽回了约 23% 的差距;智能体在累计 800 小时、约 1.8 万美元算力下挽回了 97%。虽有保留(结果未能干净地迁移到生产规模、问题与评分标准仍由人定),但每一个实验都由智能体自己设计——人类只负责定方向。
开始能把研究会话引向发现
研究者们在开放式调查(如查清训练为何崩溃)中,常会走一段「弯路」。研究人员把走偏前的工作喂给不同 Claude 模型,问「下一步你会怎么做」,再由另一个能看到最终结果的 Claude 评判谁的下一步更好。
在这些「人类本可做得更好」的节点(n=129)上:2025 年 11 月最佳模型(Opus 4.5)胜过人类选择 51%;2026 年 4 月(Mythos Preview)升至 64%。这是 AI 越来越能做出「研究所依赖的判断」的早期信号。
「目前人类的比较优势,仍在于看见更大的图景、跳出眼前任务去思考。」
04未来工作会变成什么样?
人类角色正在每一步收窄。一旦人写与 AI 写的代码质量持平,人类将不再写代码,只做审查;但若审查速度跟不上生成速度,人类审查就会成为新瓶颈。同理,当 Claude 能跑实验,问题就从「怎么跑」变成「哪个实验值得跑」。
当下人类的比较优势在于研究品味与判断:选择哪些问题重要、哪些结果可信、何时一条路已是死胡同。
「工作(和生活)曾运行在人与人之间小恩小惠的『人情经济』上……每一次都积累一点亏欠、一点彼此的关注。Claude 更快、零亏欠——但每一次也都是一次失去的、向人类协作发出的邀约。」
05如果我们错了?
一个自然的反驳是:留在人类手里的那部分——选择做什么问题——才是最重要的。没有这份判断,Claude 只是得力助手,而非能独立驱动 AI 进步的系统。
但 AI 进步很少靠「灵光一现」。除了 Transformer、专家混合(MoE)这类范式级突破(数年才出一次),大部分进步是渐进的:放大规模 → 看哪里崩 → 修好 → 再来一遍。而这恰恰是 Claude 如今最擅长的工作流。爱迪生说天才是 1% 灵感加 99% 汗水——如今「汗水」正越来越被自动化。
因此即便保守地假设 Claude 永远练不出研究品味,结论仍是复利式的加速:人类把时间集中在那一小撮「定方向」的工作上,其余交给 Claude,每个人都在「掌舵」远超以往的工作量。
06三种可能的未来
接下来会怎样,取决于两件事:趋势是否延续,以及若延续我们如何应对。至少有三种情景:
趋势停滞,但今日能力被广泛扩散
那些指数曲线可能其实是 S 形曲线,我们正接近拐点。区分「合格」与「卓越」研究者的判断力,或许无法靠堆算力和数据获得;约束也可能在供应链(能源、算力、芯片产能)而非模型本身。
但即便能力冻结在今天,世界仍会巨变:Project Glasswing 头几周就在全球关键系统中发现逾一万个高危漏洞——网络防御的瓶颈已从「找漏洞」转向「修得够快」。作者认为此情景可能性最低。
AI 实验室持续获得复利式效率提升
AI 研发高度自动化,但人类仍负责定方向、判结果。百人公司能干一万乃至十万人的活。这会革新知识工作与政府服务,也可能被用于威权监控、规模化操纵等恶途。
这是作者认为最可能的走向。但提速一环往往只是把瓶颈推到别处(阿姆达尔定律)——Anthropic 已尝到:代码一多,人类审查就成了新瓶颈;发现并修复瓶颈的能力,可能成为组织最重要的技能。
AI 开始构建自己的后继者
若能力趋势延续,AI 具备了人类那种变革性的创造力,它便可能自我设计与精炼。进步节奏将几乎完全由算力(及算法效率发现)决定,人类大多转向监督、验证与校验一个由 AI 运行的「虚拟实验室」。
此情景中作者最不确定的是对齐问题:模型或足够对齐且有智慧,发现我们未及的新方案、甚至明智地主动叫停;也可能今日罕见的错位在「模型造模型」中不断复利放大,直到我们失去控制。一个由快速递归自我改进主导的世界,可能被自我改进的模型本身所支配。
阿姆达尔定律在此同样适用:再强的智能也无法跳过临床试验的时间、宪法规定的选举周期,或把陌生人在一个周末变成老友。对多数人而言,未来的「体感速度」仍由这些瓶颈决定——哪怕上游实验室已以算力的速度运转。
07我们应该怎么做?
如果能有效放慢这项技术、为应对其深远影响争取时间,作者认为这大概率是好事。但若放慢只是让最不谨慎的玩家追上来,反而让所有人更不安全。在缺乏全球协调机制时,企业与政府不得不在竞争与地缘压力下做安全权衡。
Anthropic 希望世界保留「放慢或临时暂停」前沿研发的选项。Anthropic Institute 将与各方合作,研究并搭建可信暂停所需的核验系统——让前沿开发者能确认他人确实停了、且无人借暂停之名暗中抢跑。若此类系统存在、且其他前沿玩家以可核验方式同步,Anthropic 预期自己也会放慢或暂停。
难点在于:训练远比导弹发射井容易隐藏,其投入又是通用的,暗中违约的诱惑巨大。世界曾为复杂技术建立过核查机制(如《中导条约》),但那耗时数十年——我们没有那么久。单方面暂停可以立刻做到,却只会换个领跑者,无法创造当前缺失的更广泛的协商进程。
未来数月,Anthropic 将组织政策制定者、研究者、公民社会与其他 AI 公司展开对话,并公开成果。共同探讨这些问题的窗口,就在当下。
- AI 已经在实打实地加速 AI 研发:80%+ 代码由 Claude 写,工程师产出 8×。
- 「执行」几乎免费,人类价值收敛到判断与品味——但这道护城河也在被慢慢填平。
- 最可能的近期未来:复利增效,瓶颈不断转移(阿姆达尔定律)。
- 真正的风险与机遇都在「完全递归自我改进」——对齐与可核验的暂停机制,是当下最该投入的事。