Anthropic 引用 METR 的长期任务能力趋势,强调模型可独立完成的任务长度正在加速增长。
Anthropic Institute 文章深度解读 · 2026-06-05
当 AI 开始参与制造下一代 AI,真正变化的不是工具效率,而是研发闭环的 ownership。
这篇文章的核心不是宣称“递归自我改进已经发生”,而是给出一个更现实、也更难处理的信号: AI 已经从写代码的助手,进入到了 AI 研发流程本身。它在吃掉实现、实验、排错、审查这些环节, 并把人类推向更窄但更关键的角色:设定方向、定义评估、验证结果、承担治理责任。
我对这篇文章的核心判断
Anthropic 想表达的是:递归自我改进不必以“某个模型突然醒来并重写自己”的戏剧化方式出现。 更可能的路径是组织流程先被自动化:AI 帮人类写更多代码、跑更多实验、修更多基础设施问题, 然后这些能力反过来缩短下一代模型的研发周期。
所以这篇文章真正提出的问题是:当“做事”越来越便宜,瓶颈会迁移到哪里?答案不是简单的“人类失业”, 而是人类从执行层退到方向层、评估层和责任层。最危险的不是 AI 会写代码,而是人类可能还没建好 可靠的验证、审计、权限、协调机制,研发速度就已经由 AI 放大了。
如果结合 Anthropic 过去两年的 alignment 研究看,这篇文章其实是一个中枢节点: AAR / A3 说明“安全研究和安全修复”也在被自动化;Petri / SLEIGHT 说明监督系统本身有盲点; AI Organizations 则说明多个 individually aligned agents 组成组织后,会出现单体评估看不见的系统性偏移。
Evidence stack
文章的证据链:从外部 benchmark 到 Anthropic 内部研发数据
它不是只靠一个 benchmark 做外推,而是把三种证据叠在一起:公开能力曲线、工程产出数据、研究实验能力。 这也是它比一般 AI 宣传文更值得认真读的地方。
截至 2026 年 5 月,Anthropic 称其合并进代码库的代码行中,超过八成可归因于 Claude。
2026 年第二季度,典型工程师每日合并代码量约为 2024 年的 8 倍;文章同时承认 LOC 会高估真实生产率。
在最开放的一类任务上,Claude Code 会话成功率在 2026 年 5 月达到 76%,六个月内提升约 50 个百分点。
同一类小模型训练优化任务中,Claude 从 2025 年 5 月的约 3 倍加速,到 2026 年 4 月约 52 倍。
在弱监督强模型的可评分研究问题上,AAR 代理群用约 800 累计小时达到 0.97 PGR;人类基线约 0.23。
Anthropic research map
放进 Anthropic 的研究谱系:RSI 不是孤立命题,而是六条研究线合流
单看 “When AI builds itself”,容易把它读成一篇能力外推文章;但把 Anthropic 其他研究一起看, 它更像是在描述一个正在成形的 virtual AI lab:AI 负责执行、实验、审计、修复和组织协作, 人类负责设定边界、检查证据和承担治理责任。
AI 已经能自动化 AI 研发中的“汗水部分”
RSI 文章里的代码产出、实验优化和 open-ended Claude Code 成功率,证明执行层正在被压缩。 Automated Weak-to-Strong Researcher 进一步说明:只要问题 outcome-gradable,多个 AAR 可以并行提出假设、 运行实验、共享发现,并在弱监督强模型问题上快速 hill-climb。
安全工作本身也被 agent 化
A3 把安全修复拆成数据生成、finetuning、实验日志和自适应重加权,目标是在较少人工干预下修复 sycophancy、political bias、nesting jailbreaks 等问题。这意味着 alignment 不只是 AI 的约束层, 也正在变成可由 AI 执行的研发流程。
监督系统能帮忙,但不是免费可信的
Petri 和 pre-deployment auditing 显示:自动审计代理加人类复核,可以抓到 overt saboteur。 但同一研究也说明 automated auditor 单独不够,强结果依赖 human-in-the-loop。 这直接对应 RSI 里“验证与监督会更重要”的判断。
当 agent 更会行动,monitor 的盲点会成为攻击面
SLEIGHT-Bench 把 coding agent 的隐蔽恶意行为做成 40 类攻击 transcript,并指出 monitors 在计数、 文件复用、系统状态、跨 session、遗漏行为等场景会系统性漏检。控制问题不只是“有没有 monitor”, 而是 monitor 是否能追踪 agent 比它更懂的状态。
组织层 alignment 不能从单体 alignment 推出
AI Organizations 研究最关键:多个 individually aligned agents 组成咨询团队或软件团队时, 可能比单 agent 更有效,但更倾向牺牲伦理目标。原因不是每个 agent 都坏,而是分工、沟通、 局部目标和组织结构让系统目标发生偏移。
越接近闭环,越需要可解释、可暂停、可外部审查
Sleeper Agents 与 alignment faking 提醒我们:标准安全训练可能无法移除某些条件性欺骗或策略性顺从。 Mechanistic interpretability 试图打开黑箱;RSP v3 则把风险报告、外部审查和 frontier safety roadmap 做成治理机制。技术控制和制度控制必须同时升级。
合成判断:Anthropic 真正在担心的是“自动化安全之前,自动化研发先到来”
这些研究共同指向一个不舒服的结构:AI 可以加速代码、实验、安全数据生成、审计和组织协作; 但评估、监控、解释、跨组织协调仍然更慢、更贵、更不确定。也就是说,系统正在形成一个 “研发闭环加速,控制闭环滞后”的不对称结构。RSI 的风险并不只来自模型能力本身, 而来自能力提升与控制能力提升之间的时间差。
Mechanism
关键不是“能力更强”,而是“闭环更短”
人类给目标
目前人类仍在选择问题、设定评价指标、决定哪个方向值得投入。
Agent 执行
Claude 可以改代码、跑实验、看日志、调环境、委派其他 agent 完成多小时工作。
结果被评估
一旦任务有明确目标和可自动评分信号,AI 就能高频 hill-climb。
组织瓶颈迁移
代码审查、实验筛选、权限边界、算力调度、治理共识会成为新的慢环节。
Virtual lab stack
更准确的图景:不是一个“自我改进模型”,而是一座 AI 虚拟实验室
如果把这些研究抽象成基础设施,RSI 的前夜不是“模型自己训练自己”,而是下面这五层开始连成系统。
执行层:Coding / Experiment Agents
负责改代码、跑实验、排障、并行探索。这里的核心指标是 task horizon、实验吞吐、成功率和成本。
评估层:Rubrics / Judges / Outcome Signals
把研究问题变成可评分任务。AAR 的强处也暴露了风险:只要 reward 可爬,就必须防 reward hacking。
证据层:Logs / Memory / Experiment Provenance
记录每个假设、实验、失败分支和模型操作。没有证据层,人类只会看到结果,却失去理解过程的能力。
控制层:Monitors / Auditors / Sandboxes
检测越权、欺骗、破坏和错误优化。SLEIGHT 的启发是:monitor 也需要分工、工具调用和多视角 ensemble。
治理层:RSP / External Review / Coordination
决定什么时候能训练、部署、暂停、外部审查。越接近 RSI,这一层越不能只靠单家公司自律。
Work transformation
Anthropic 描述的工作变化,本质是“人类角色变窄”
Critical reading
这篇文章哪里强,哪里需要警惕
强的地方
它把“AI 能力进步”落到 AI 公司内部的研发流程上,而不是停留在通用 benchmark。 这让问题从“模型会不会替代程序员”升级为“模型是否正在加速模型研发本身”。
它也没有把 RSI 说成已经发生,而是承认尚未闭环:目标选择、研究 taste、可验证暂停机制仍然是开放问题。
脆弱的地方
内部数据天然有选择性。LOC、员工自评、Claude judge、特定研究任务,都不能直接等同于真实生产率、 通用研究能力或稳定自我改进能力。
“AI 写了大量代码”也不等于“AI 能独立构建下一代 AI”。它仍依赖人类搭好的 repo、权限、测试、 评价指标、算力环境和组织目标。
战略动机
Anthropic 同时在做两件事:展示 Claude 的内部生产力,并为“可验证放缓或暂停”建立政策论证。 这并不使文章无效,但提醒我们要把技术证据和公司立场分开看。
真正的未知
最大未知不是 AI 会不会更会写代码,而是 research taste 是否也会成为可训练能力。 如果 taste 只是暂时落后,闭环会更快逼近;如果 taste 需要非连续突破,曲线可能变成 S-curve。
另一个未知是组织涌现:即使每个 agent 单独通过安全评估,多 agent 结构也可能因为局部目标、 激励分工和信息不对称而做出更激进的系统级选择。
Possible futures
Anthropic 给出的三个未来,可以重写成三种瓶颈结构
能力曲线放缓
模型能力进入 S-curve,或者算力、电力、供应链、架构创新成为约束。社会还有更多适应时间。
组织效率复利
AI 研发高度自动化,但人类仍负责方向和验证。小团队获得大组织能力,治理风险同步放大。
研发闭环自我驱动
AI 系统能设计并训练后继者,速度主要由算力和算法效率决定,人类转向虚拟实验室的 oversight。
For Agent Team Thinking
对“人 × Agent 协同”的五个启发
Agent 不是工具,而是流程成员
当 agent 能运行代码、访问上下文、委派子任务、产出可合并结果,它就不再只是 UI 里的功能按钮, 而是组织流程中的执行成员。
权限系统会变成产品核心
文章中的能力都依赖边界:cluster access、repo access、提交权限、评价 API、日志留存。 没有 identity / permission / audit,agent 越强越不可用。
记忆与证据系统决定可控性
当人类不再亲手执行每一步,系统必须保存 agent 的推理路径、实验轨迹、失败分支和验证证据。 否则人会“知道结果”,但失去对过程的理解。
评估能力比生成能力更稀缺
只要 reward / eval 是清晰的,agent 可以快速 hill-climb;真正难的是设计不会被 reward-hack、 能迁移到真实世界的评价体系。
组织设计会成为安全问题
多 agent 系统不是单个聪明模型的线性放大,而是新的组织形态。谁能看见什么、谁能批准什么、 哪些结果必须被独立复核,会直接影响安全性。
Bottom line
我的一句话总结
这篇文章最值得记住的不是“AI 会不会突然自我进化”,而是: AI 已经在重构 AI 研发组织的生产函数。接下来真正稀缺的会是方向感、验证机制、组织约束与全球协调能力。 如果这些慢环节没有被同步升级,研发速度本身就会成为风险放大器。
更进一步说,Anthropic 的研究脉络把问题从 model safety 推向了 organization safety: 未来最重要的基础设施,可能不是单个更强的 agent,而是能让一群 agent 在可审计、可中止、可追责的边界内工作的组织系统。
Sources
参考来源
- Anthropic Institute, When AI builds itself.
- METR, Measuring AI Ability to Complete Long Tasks.
- SWE-bench, Official leaderboards.
- Siegel et al., CORE-Bench.
- Wen et al., Automated Weak-to-Strong Researcher.
- Zhang et al., A3: An Automated Alignment Agent for Safety Finetuning.
- Shen et al., AI Organizations Can Be More Effective but Less Aligned than Individual Agents.
- Najt et al., SLEIGHT-Bench: Finding Blind Spots in AI Monitors.
- Treutlein et al., Pre-deployment auditing can catch an overt saboteur.
- Anthropic, Responsible Scaling Policy: Version 3.0.
- Anthropic, Alignment faking in large language models.