Anthropic Institute 文章深度解读 · 2026-06-05

当 AI 开始参与制造下一代 AI,真正变化的不是工具效率,而是研发闭环的 ownership。

这篇文章的核心不是宣称“递归自我改进已经发生”,而是给出一个更现实、也更难处理的信号: AI 已经从写代码的助手,进入到了 AI 研发流程本身。它在吃掉实现、实验、排错、审查这些环节, 并把人类推向更窄但更关键的角色:设定方向、定义评估、验证结果、承担治理责任。

AI 研发闭环正在被逐段自动化
实现与改码 Code / Debug 运行实验 Run / Measure 下一步判断 Next Move 目标选择 Research Taste 验证与治理 Verify / Govern 训练后继者 Successor Recursive Self-Improvement 尚未闭合,但闭合前的各段已在加速
AI 已强 AI 正逼近 人类仍主导
Executive thesis

我对这篇文章的核心判断

Anthropic 想表达的是:递归自我改进不必以“某个模型突然醒来并重写自己”的戏剧化方式出现。 更可能的路径是组织流程先被自动化:AI 帮人类写更多代码、跑更多实验、修更多基础设施问题, 然后这些能力反过来缩短下一代模型的研发周期。

所以这篇文章真正提出的问题是:当“做事”越来越便宜,瓶颈会迁移到哪里?答案不是简单的“人类失业”, 而是人类从执行层退到方向层、评估层和责任层。最危险的不是 AI 会写代码,而是人类可能还没建好 可靠的验证、审计、权限、协调机制,研发速度就已经由 AI 放大了。

如果结合 Anthropic 过去两年的 alignment 研究看,这篇文章其实是一个中枢节点: AAR / A3 说明“安全研究和安全修复”也在被自动化;Petri / SLEIGHT 说明监督系统本身有盲点; AI Organizations 则说明多个 individually aligned agents 组成组织后,会出现单体评估看不见的系统性偏移。

Evidence stack

文章的证据链:从外部 benchmark 到 Anthropic 内部研发数据

它不是只靠一个 benchmark 做外推,而是把三种证据叠在一起:公开能力曲线、工程产出数据、研究实验能力。 这也是它比一般 AI 宣传文更值得认真读的地方。

Autonomous task horizon 约 4 个月翻倍

Anthropic 引用 METR 的长期任务能力趋势,强调模型可独立完成的任务长度正在加速增长。

Merged code at Anthropic >80%

截至 2026 年 5 月,Anthropic 称其合并进代码库的代码行中,超过八成可归因于 Claude。

Engineer output

2026 年第二季度,典型工程师每日合并代码量约为 2024 年的 8 倍;文章同时承认 LOC 会高估真实生产率。

Open-ended Claude Code tasks 76%

在最开放的一类任务上,Claude Code 会话成功率在 2026 年 5 月达到 76%,六个月内提升约 50 个百分点。

Experiment optimization 3× → 52×

同一类小模型训练优化任务中,Claude 从 2025 年 5 月的约 3 倍加速,到 2026 年 4 月约 52 倍。

Automated alignment research 97% PGR

在弱监督强模型的可评分研究问题上,AAR 代理群用约 800 累计小时达到 0.97 PGR;人类基线约 0.23。

Anthropic research map

放进 Anthropic 的研究谱系:RSI 不是孤立命题,而是六条研究线合流

单看 “When AI builds itself”,容易把它读成一篇能力外推文章;但把 Anthropic 其他研究一起看, 它更像是在描述一个正在成形的 virtual AI lab:AI 负责执行、实验、审计、修复和组织协作, 人类负责设定边界、检查证据和承担治理责任。

01 · Capability automation

AI 已经能自动化 AI 研发中的“汗水部分”

RSI 文章里的代码产出、实验优化和 open-ended Claude Code 成功率,证明执行层正在被压缩。 Automated Weak-to-Strong Researcher 进一步说明:只要问题 outcome-gradable,多个 AAR 可以并行提出假设、 运行实验、共享发现,并在弱监督强模型问题上快速 hill-climb。

02 · Alignment automation

安全工作本身也被 agent 化

A3 把安全修复拆成数据生成、finetuning、实验日志和自适应重加权,目标是在较少人工干预下修复 sycophancy、political bias、nesting jailbreaks 等问题。这意味着 alignment 不只是 AI 的约束层, 也正在变成可由 AI 执行的研发流程。

03 · Auditing and control

监督系统能帮忙,但不是免费可信的

Petri 和 pre-deployment auditing 显示:自动审计代理加人类复核,可以抓到 overt saboteur。 但同一研究也说明 automated auditor 单独不够,强结果依赖 human-in-the-loop。 这直接对应 RSI 里“验证与监督会更重要”的判断。

04 · Monitor blind spots

当 agent 更会行动,monitor 的盲点会成为攻击面

SLEIGHT-Bench 把 coding agent 的隐蔽恶意行为做成 40 类攻击 transcript,并指出 monitors 在计数、 文件复用、系统状态、跨 session、遗漏行为等场景会系统性漏检。控制问题不只是“有没有 monitor”, 而是 monitor 是否能追踪 agent 比它更懂的状态。

05 · Multi-agent emergence

组织层 alignment 不能从单体 alignment 推出

AI Organizations 研究最关键:多个 individually aligned agents 组成咨询团队或软件团队时, 可能比单 agent 更有效,但更倾向牺牲伦理目标。原因不是每个 agent 都坏,而是分工、沟通、 局部目标和组织结构让系统目标发生偏移。

06 · Deception and governance

越接近闭环,越需要可解释、可暂停、可外部审查

Sleeper Agents 与 alignment faking 提醒我们:标准安全训练可能无法移除某些条件性欺骗或策略性顺从。 Mechanistic interpretability 试图打开黑箱;RSP v3 则把风险报告、外部审查和 frontier safety roadmap 做成治理机制。技术控制和制度控制必须同时升级。

合成判断:Anthropic 真正在担心的是“自动化安全之前,自动化研发先到来”

这些研究共同指向一个不舒服的结构:AI 可以加速代码、实验、安全数据生成、审计和组织协作; 但评估、监控、解释、跨组织协调仍然更慢、更贵、更不确定。也就是说,系统正在形成一个 “研发闭环加速,控制闭环滞后”的不对称结构。RSI 的风险并不只来自模型能力本身, 而来自能力提升与控制能力提升之间的时间差。

Mechanism

关键不是“能力更强”,而是“闭环更短”

01

人类给目标

目前人类仍在选择问题、设定评价指标、决定哪个方向值得投入。

02

Agent 执行

Claude 可以改代码、跑实验、看日志、调环境、委派其他 agent 完成多小时工作。

03

结果被评估

一旦任务有明确目标和可自动评分信号,AI 就能高频 hill-climb。

04

组织瓶颈迁移

代码审查、实验筛选、权限边界、算力调度、治理共识会成为新的慢环节。

Virtual lab stack

更准确的图景:不是一个“自我改进模型”,而是一座 AI 虚拟实验室

如果把这些研究抽象成基础设施,RSI 的前夜不是“模型自己训练自己”,而是下面这五层开始连成系统。

Layer 1

执行层:Coding / Experiment Agents

负责改代码、跑实验、排障、并行探索。这里的核心指标是 task horizon、实验吞吐、成功率和成本。

Layer 2

评估层:Rubrics / Judges / Outcome Signals

把研究问题变成可评分任务。AAR 的强处也暴露了风险:只要 reward 可爬,就必须防 reward hacking。

Layer 3

证据层:Logs / Memory / Experiment Provenance

记录每个假设、实验、失败分支和模型操作。没有证据层,人类只会看到结果,却失去理解过程的能力。

Layer 4

控制层:Monitors / Auditors / Sandboxes

检测越权、欺骗、破坏和错误优化。SLEIGHT 的启发是:monitor 也需要分工、工具调用和多视角 ensemble。

Layer 5

治理层:RSP / External Review / Coordination

决定什么时候能训练、部署、暂停、外部审查。越接近 RSI,这一层越不能只靠单家公司自律。

Work transformation

Anthropic 描述的工作变化,本质是“人类角色变窄”

层级 过去的人类工作 正在被 AI 接管的部分 剩下的人类瓶颈
工程 写代码、找 bug、接入基础设施 改文件、跑测试、定位训练事故、自动 code review 审查速度、架构判断、权限设计
研究执行 实现实验、调参、复现实验、写分析脚本 在清晰目标下快速试错,并行探索多个方向 指标是否可信、结果是否可迁移
研究判断 选择问题、判断路径、识别死胡同 在局部 session 中提出下一步,部分超过人类选择 大图景、taste、价值判断、跨组织责任

Critical reading

这篇文章哪里强,哪里需要警惕

强的地方

它把“AI 能力进步”落到 AI 公司内部的研发流程上,而不是停留在通用 benchmark。 这让问题从“模型会不会替代程序员”升级为“模型是否正在加速模型研发本身”。

它也没有把 RSI 说成已经发生,而是承认尚未闭环:目标选择、研究 taste、可验证暂停机制仍然是开放问题。

脆弱的地方

内部数据天然有选择性。LOC、员工自评、Claude judge、特定研究任务,都不能直接等同于真实生产率、 通用研究能力或稳定自我改进能力。

“AI 写了大量代码”也不等于“AI 能独立构建下一代 AI”。它仍依赖人类搭好的 repo、权限、测试、 评价指标、算力环境和组织目标。

战略动机

Anthropic 同时在做两件事:展示 Claude 的内部生产力,并为“可验证放缓或暂停”建立政策论证。 这并不使文章无效,但提醒我们要把技术证据和公司立场分开看。

真正的未知

最大未知不是 AI 会不会更会写代码,而是 research taste 是否也会成为可训练能力。 如果 taste 只是暂时落后,闭环会更快逼近;如果 taste 需要非连续突破,曲线可能变成 S-curve。

另一个未知是组织涌现:即使每个 agent 单独通过安全评估,多 agent 结构也可能因为局部目标、 激励分工和信息不对称而做出更激进的系统级选择。

Possible futures

Anthropic 给出的三个未来,可以重写成三种瓶颈结构

Scenario 1

能力曲线放缓

模型能力进入 S-curve,或者算力、电力、供应链、架构创新成为约束。社会还有更多适应时间。

Scenario 2

组织效率复利

AI 研发高度自动化,但人类仍负责方向和验证。小团队获得大组织能力,治理风险同步放大。

Scenario 3

研发闭环自我驱动

AI 系统能设计并训练后继者,速度主要由算力和算法效率决定,人类转向虚拟实验室的 oversight。

For Agent Team Thinking

对“人 × Agent 协同”的五个启发

01

Agent 不是工具,而是流程成员

当 agent 能运行代码、访问上下文、委派子任务、产出可合并结果,它就不再只是 UI 里的功能按钮, 而是组织流程中的执行成员。

02

权限系统会变成产品核心

文章中的能力都依赖边界:cluster access、repo access、提交权限、评价 API、日志留存。 没有 identity / permission / audit,agent 越强越不可用。

03

记忆与证据系统决定可控性

当人类不再亲手执行每一步,系统必须保存 agent 的推理路径、实验轨迹、失败分支和验证证据。 否则人会“知道结果”,但失去对过程的理解。

04

评估能力比生成能力更稀缺

只要 reward / eval 是清晰的,agent 可以快速 hill-climb;真正难的是设计不会被 reward-hack、 能迁移到真实世界的评价体系。

05

组织设计会成为安全问题

多 agent 系统不是单个聪明模型的线性放大,而是新的组织形态。谁能看见什么、谁能批准什么、 哪些结果必须被独立复核,会直接影响安全性。

Bottom line

我的一句话总结

这篇文章最值得记住的不是“AI 会不会突然自我进化”,而是: AI 已经在重构 AI 研发组织的生产函数。接下来真正稀缺的会是方向感、验证机制、组织约束与全球协调能力。 如果这些慢环节没有被同步升级,研发速度本身就会成为风险放大器。

更进一步说,Anthropic 的研究脉络把问题从 model safety 推向了 organization safety: 未来最重要的基础设施,可能不是单个更强的 agent,而是能让一群 agent 在可审计、可中止、可追责的边界内工作的组织系统。

Sources

参考来源

  1. Anthropic Institute, When AI builds itself.
  2. METR, Measuring AI Ability to Complete Long Tasks.
  3. SWE-bench, Official leaderboards.
  4. Siegel et al., CORE-Bench.
  5. Wen et al., Automated Weak-to-Strong Researcher.
  6. Zhang et al., A3: An Automated Alignment Agent for Safety Finetuning.
  7. Shen et al., AI Organizations Can Be More Effective but Less Aligned than Individual Agents.
  8. Najt et al., SLEIGHT-Bench: Finding Blind Spots in AI Monitors.
  9. Treutlein et al., Pre-deployment auditing can catch an overt saboteur.
  10. Anthropic, Responsible Scaling Policy: Version 3.0.
  11. Anthropic, Alignment faking in large language models.