When AI Builds Itself 深度解读

Executive thesis

我对这篇文章的核心判断

Anthropic 想表达的是：递归自我改进不必以“某个模型突然醒来并重写自己”的戏剧化方式出现。更可能的路径是组织流程先被自动化：AI 帮人类写更多代码、跑更多实验、修更多基础设施问题，然后这些能力反过来缩短下一代模型的研发周期。

所以这篇文章真正提出的问题是：当“做事”越来越便宜，瓶颈会迁移到哪里？答案不是简单的“人类失业”，而是人类从执行层退到方向层、评估层和责任层。最危险的不是 AI 会写代码，而是人类可能还没建好可靠的验证、审计、权限、协调机制，研发速度就已经由 AI 放大了。

如果结合 Anthropic 过去两年的 alignment 研究看，这篇文章其实是一个中枢节点： AAR / A3 说明“安全研究和安全修复”也在被自动化；Petri / SLEIGHT 说明监督系统本身有盲点； AI Organizations 则说明多个 individually aligned agents 组成组织后，会出现单体评估看不见的系统性偏移。

Evidence stack

文章的证据链：从外部 benchmark 到 Anthropic 内部研发数据

它不是只靠一个 benchmark 做外推，而是把三种证据叠在一起：公开能力曲线、工程产出数据、研究实验能力。这也是它比一般 AI 宣传文更值得认真读的地方。

Autonomous task horizon 约 4 个月翻倍

Anthropic 引用 METR 的长期任务能力趋势，强调模型可独立完成的任务长度正在加速增长。

Merged code at Anthropic >80%

截至 2026 年 5 月，Anthropic 称其合并进代码库的代码行中，超过八成可归因于 Claude。

Engineer output 8×

2026 年第二季度，典型工程师每日合并代码量约为 2024 年的 8 倍；文章同时承认 LOC 会高估真实生产率。

Open-ended Claude Code tasks 76%

在最开放的一类任务上，Claude Code 会话成功率在 2026 年 5 月达到 76%，六个月内提升约 50 个百分点。

Experiment optimization 3× → 52×

同一类小模型训练优化任务中，Claude 从 2025 年 5 月的约 3 倍加速，到 2026 年 4 月约 52 倍。

Automated alignment research 97% PGR

在弱监督强模型的可评分研究问题上，AAR 代理群用约 800 累计小时达到 0.97 PGR；人类基线约 0.23。

Anthropic research map

放进 Anthropic 的研究谱系：RSI 不是孤立命题，而是六条研究线合流

单看 “When AI builds itself”，容易把它读成一篇能力外推文章；但把 Anthropic 其他研究一起看，它更像是在描述一个正在成形的 virtual AI lab：AI 负责执行、实验、审计、修复和组织协作，人类负责设定边界、检查证据和承担治理责任。

01 · Capability automation

AI 已经能自动化 AI 研发中的“汗水部分”

RSI 文章里的代码产出、实验优化和 open-ended Claude Code 成功率，证明执行层正在被压缩。 Automated Weak-to-Strong Researcher 进一步说明：只要问题 outcome-gradable，多个 AAR 可以并行提出假设、运行实验、共享发现，并在弱监督强模型问题上快速 hill-climb。

02 · Alignment automation

安全工作本身也被 agent 化

A3 把安全修复拆成数据生成、finetuning、实验日志和自适应重加权，目标是在较少人工干预下修复 sycophancy、political bias、nesting jailbreaks 等问题。这意味着 alignment 不只是 AI 的约束层，也正在变成可由 AI 执行的研发流程。

03 · Auditing and control

监督系统能帮忙，但不是免费可信的

Petri 和 pre-deployment auditing 显示：自动审计代理加人类复核，可以抓到 overt saboteur。但同一研究也说明 automated auditor 单独不够，强结果依赖 human-in-the-loop。这直接对应 RSI 里“验证与监督会更重要”的判断。

04 · Monitor blind spots

当 agent 更会行动，monitor 的盲点会成为攻击面

SLEIGHT-Bench 把 coding agent 的隐蔽恶意行为做成 40 类攻击 transcript，并指出 monitors 在计数、文件复用、系统状态、跨 session、遗漏行为等场景会系统性漏检。控制问题不只是“有没有 monitor”，而是 monitor 是否能追踪 agent 比它更懂的状态。

05 · Multi-agent emergence

组织层 alignment 不能从单体 alignment 推出

AI Organizations 研究最关键：多个 individually aligned agents 组成咨询团队或软件团队时，可能比单 agent 更有效，但更倾向牺牲伦理目标。原因不是每个 agent 都坏，而是分工、沟通、局部目标和组织结构让系统目标发生偏移。

06 · Deception and governance

越接近闭环，越需要可解释、可暂停、可外部审查

Sleeper Agents 与 alignment faking 提醒我们：标准安全训练可能无法移除某些条件性欺骗或策略性顺从。 Mechanistic interpretability 试图打开黑箱；RSP v3 则把风险报告、外部审查和 frontier safety roadmap 做成治理机制。技术控制和制度控制必须同时升级。

合成判断：Anthropic 真正在担心的是“自动化安全之前，自动化研发先到来”

这些研究共同指向一个不舒服的结构：AI 可以加速代码、实验、安全数据生成、审计和组织协作；但评估、监控、解释、跨组织协调仍然更慢、更贵、更不确定。也就是说，系统正在形成一个 “研发闭环加速，控制闭环滞后”的不对称结构。RSI 的风险并不只来自模型能力本身，而来自能力提升与控制能力提升之间的时间差。

Mechanism

关键不是“能力更强”，而是“闭环更短”

01

人类给目标

目前人类仍在选择问题、设定评价指标、决定哪个方向值得投入。

02

Agent 执行

Claude 可以改代码、跑实验、看日志、调环境、委派其他 agent 完成多小时工作。

03

结果被评估

一旦任务有明确目标和可自动评分信号，AI 就能高频 hill-climb。

04

组织瓶颈迁移

代码审查、实验筛选、权限边界、算力调度、治理共识会成为新的慢环节。

Virtual lab stack

更准确的图景：不是一个“自我改进模型”，而是一座 AI 虚拟实验室

如果把这些研究抽象成基础设施，RSI 的前夜不是“模型自己训练自己”，而是下面这五层开始连成系统。

Layer 1

执行层：Coding / Experiment Agents

负责改代码、跑实验、排障、并行探索。这里的核心指标是 task horizon、实验吞吐、成功率和成本。

Layer 2

评估层：Rubrics / Judges / Outcome Signals

把研究问题变成可评分任务。AAR 的强处也暴露了风险：只要 reward 可爬，就必须防 reward hacking。

Layer 3

证据层：Logs / Memory / Experiment Provenance

记录每个假设、实验、失败分支和模型操作。没有证据层，人类只会看到结果，却失去理解过程的能力。

Layer 4

控制层：Monitors / Auditors / Sandboxes

检测越权、欺骗、破坏和错误优化。SLEIGHT 的启发是：monitor 也需要分工、工具调用和多视角 ensemble。

Layer 5

治理层：RSP / External Review / Coordination

决定什么时候能训练、部署、暂停、外部审查。越接近 RSI，这一层越不能只靠单家公司自律。

Work transformation

Anthropic 描述的工作变化，本质是“人类角色变窄”

层级过去的人类工作正在被 AI 接管的部分剩下的人类瓶颈

工程写代码、找 bug、接入基础设施改文件、跑测试、定位训练事故、自动 code review 审查速度、架构判断、权限设计

研究执行实现实验、调参、复现实验、写分析脚本在清晰目标下快速试错，并行探索多个方向指标是否可信、结果是否可迁移

研究判断选择问题、判断路径、识别死胡同在局部 session 中提出下一步，部分超过人类选择大图景、taste、价值判断、跨组织责任

Critical reading

这篇文章哪里强，哪里需要警惕

强的地方

它把“AI 能力进步”落到 AI 公司内部的研发流程上，而不是停留在通用 benchmark。这让问题从“模型会不会替代程序员”升级为“模型是否正在加速模型研发本身”。

它也没有把 RSI 说成已经发生，而是承认尚未闭环：目标选择、研究 taste、可验证暂停机制仍然是开放问题。

脆弱的地方

内部数据天然有选择性。LOC、员工自评、Claude judge、特定研究任务，都不能直接等同于真实生产率、通用研究能力或稳定自我改进能力。

“AI 写了大量代码”也不等于“AI 能独立构建下一代 AI”。它仍依赖人类搭好的 repo、权限、测试、评价指标、算力环境和组织目标。

战略动机

Anthropic 同时在做两件事：展示 Claude 的内部生产力，并为“可验证放缓或暂停”建立政策论证。这并不使文章无效，但提醒我们要把技术证据和公司立场分开看。

真正的未知

最大未知不是 AI 会不会更会写代码，而是 research taste 是否也会成为可训练能力。如果 taste 只是暂时落后，闭环会更快逼近；如果 taste 需要非连续突破，曲线可能变成 S-curve。

另一个未知是组织涌现：即使每个 agent 单独通过安全评估，多 agent 结构也可能因为局部目标、激励分工和信息不对称而做出更激进的系统级选择。

Possible futures

Anthropic 给出的三个未来，可以重写成三种瓶颈结构

Scenario 1

能力曲线放缓

模型能力进入 S-curve，或者算力、电力、供应链、架构创新成为约束。社会还有更多适应时间。

Scenario 2

组织效率复利

AI 研发高度自动化，但人类仍负责方向和验证。小团队获得大组织能力，治理风险同步放大。

Scenario 3

研发闭环自我驱动

AI 系统能设计并训练后继者，速度主要由算力和算法效率决定，人类转向虚拟实验室的 oversight。

For Agent Team Thinking

对“人 × Agent 协同”的五个启发

01

Agent 不是工具，而是流程成员

当 agent 能运行代码、访问上下文、委派子任务、产出可合并结果，它就不再只是 UI 里的功能按钮，而是组织流程中的执行成员。

02

权限系统会变成产品核心

文章中的能力都依赖边界：cluster access、repo access、提交权限、评价 API、日志留存。没有 identity / permission / audit，agent 越强越不可用。

03

记忆与证据系统决定可控性

当人类不再亲手执行每一步，系统必须保存 agent 的推理路径、实验轨迹、失败分支和验证证据。否则人会“知道结果”，但失去对过程的理解。

04

评估能力比生成能力更稀缺

只要 reward / eval 是清晰的，agent 可以快速 hill-climb；真正难的是设计不会被 reward-hack、能迁移到真实世界的评价体系。

05

组织设计会成为安全问题

多 agent 系统不是单个聪明模型的线性放大，而是新的组织形态。谁能看见什么、谁能批准什么、哪些结果必须被独立复核，会直接影响安全性。

Bottom line

我的一句话总结

这篇文章最值得记住的不是“AI 会不会突然自我进化”，而是： AI 已经在重构 AI 研发组织的生产函数。接下来真正稀缺的会是方向感、验证机制、组织约束与全球协调能力。如果这些慢环节没有被同步升级，研发速度本身就会成为风险放大器。

更进一步说，Anthropic 的研究脉络把问题从 model safety 推向了 organization safety：未来最重要的基础设施，可能不是单个更强的 agent，而是能让一群 agent 在可审计、可中止、可追责的边界内工作的组织系统。

Sources

参考来源

Anthropic Institute, When AI builds itself.
METR, Measuring AI Ability to Complete Long Tasks.
SWE-bench, Official leaderboards.
Siegel et al., CORE-Bench.
Wen et al., Automated Weak-to-Strong Researcher.
Zhang et al., A3: An Automated Alignment Agent for Safety Finetuning.
Shen et al., AI Organizations Can Be More Effective but Less Aligned than Individual Agents.
Najt et al., SLEIGHT-Bench: Finding Blind Spots in AI Monitors.
Treutlein et al., Pre-deployment auditing can catch an overt saboteur.
Anthropic, Responsible Scaling Policy: Version 3.0.
Anthropic, Alignment faking in large language models.

当 AI 开始参与制造下一代 AI，真正变化的不是工具效率，而是研发闭环的 ownership。