从工程到研究：前沿模型在AI开发中的角色演变

2026-06-17 14:24:55

人工智能的开发方式正在发生根本性变化。在过去的大多数时间里，AI的每一次进步都由人类工程师和研究人员直接驱动：写代码、设计实验、分析结果、做出判断。但现在，越来越多的开发工作正被交给AI系统本身。在Anthropic，这一趋势已经走到了一个节点：AI不仅仅是工具，而是参与自身建设的协作者，甚至在某些环节成为主力。如果这条趋势持续下去，并且算力供给不受限制，终点将指向一个能够完全自主设计和开发其继任者的AI系统。这就是递归自我改进。我们还没有到那一步，但它可能比多数机构预想得更早到来。

要理解正在发生的事，需要先从AI在Anthropic的角色演变说起。2021年到2023年，情况和其他科技公司没有本质区别：人们坐在电脑前写代码、写文档，AI顶多是一个早期原型。2023年到2025年，聊天机器人出现了，工程师开始用它生成短代码片段，复制粘贴到编辑器里。2025年到2026年，编码Agent能力增强，可以自主编写和编辑整个文件。而到了今天，也就是2026年，Agent已经能够自行运行代码，并将耗时数小时的任务委托给其他Agent。下一步的“闭环”还没有实现，但方向是清楚的：如果Agent变得足够强大，能够自行构建和训练模型，那么未来版本的Claude就可能由Claude自身持续改进。

来自外部的证据同样表明，AI模型的能力改进速度正在加快。衡量标准之一是模型能够可靠独立完成的任务时长。这个时间大致每四个月翻一番，而此前是每七个月翻一番。2024年3月，Claude Opus 3能完成人类大约四分钟的软件任务；一年后，Claude Sonnet 3.7能完成一个半小时的任务；再过一年，Claude Opus 4.6能完成十二小时的任务。如果趋势延续，今年之内，AI可能进入需要熟练工程师花费数天完成的任务范围，而到2027年，可能进入数周任务的范围。

同样的加速模式出现在编程和研究基准测试上。SWE-bench衡量真实世界的软件工程能力，给模型一个开源代码库和一个真实bug报告，要求写出能通过项目自身测试的修复代码。模型得分从两年前的个位数，走到了今天的饱和。CORE-Bench测试模型能否复现已有研究，这是进行原创研究的前提。它给出已发表论文的代码和数据，要求AI重新运行并确认能复现结果。2024年成功率约20%，十五个月后该基准被饱和。METR是专门测量模型完成长时间任务能力的机构，它发现Claude Mythos Preview能够工作“至少”16小时，这已经是METR现有测试方法的上限。

公开基准测试能说清很多事情，但说不清AI对AI开发本身的加速效果。要看清这一点，需要来自AI公司内部的直接证据。Anthropic公开的内部数据揭示了工程和研究两个方面的真实变化。

在工程方面，截至2026年5月，合并到Anthropic代码库中的代码超过80%由Claude撰写。在Claude Code于2025年2月以研究预览形式发布之前，这个数字还在低个位数。变化同样体现在工程师的人均产出上。2021年到2024年，Anthropic工程师每日人均合并代码行数基本保持不变。2025年，当Claude开始运行代码而不仅仅建议代码供复制粘贴时，曲线开始上升。2026年，当模型开始进行更长时间跨度的自主工作时，斜率再次加大。2026年第二季度，典型工程师每天合并的代码量是2024年的八倍。大部分代码由Claude编写，工程师的角色转向指导和审查，而不是亲自敲代码。

需要承认，代码行数是不完美的衡量标准，量不等于质。八倍这个数字几乎肯定高估了真实的生产力增益。但加速确实在发生。Anthropic不以代码行数奖励员工，产出增加只是因为人们用AI系统写更多代码。2026年3月对130名跨研究团队员工的调查显示，中位数受访者估计使用Mythos Preview时的输出量约为无AI辅助时的四倍。即使真实提升幅度略低，核心结论仍成立：相当一部分核心工作正在被数倍加速。此外，员工还用Claude完成了一些原本根本不会发生的工作，比如构建探索性工具或处理长期被搁置的清理任务。一个具体例子是，2026年4月，Claude发布了超过800项修复，将某一类API错误的出现概率降低了一千倍。监督该工作的工程师估计，人类完成同样工作需要四年，因为修复别人的bug缓慢且痛苦，人类难以在脑海中同时保存那么多不熟悉的上下文。

Claude写的代码不仅多，而且“好”。“好”有两层意思：能工作，且写得好到能让其他工程师理解并继续构建。第一层，能不能工作，证据很清楚。员工纠正、重新定向或中途接管Claude任务的比率持续下降，包括在最复杂和开放式任务上。开放式任务意味着问题没有清晰规范，工程师也不确定答案长什么样。在最开放的这类任务上，Claude的成功率在2026年5月达到76%，六个月内上升了五十个百分点。举个例子，一次例行升级导致数万个训练任务崩溃。一位工程师仅凭一些文本内容和集群访问权限，就将Claude指向了这起实时事故。Claude逐个排查运行中的任务，测试环境设置，最终隔离出触发崩溃的单个晦涩调试标志，可靠复现了它并确认了修复方案。大约两小时内完成了通常需要两到三天的工作。第二层，写出的代码是否可维护可理解。这一点上，人类与AI的差距仍然存在，但正在快速缩小。内部意见尚未完全统一，但许多人认为，Claude编写的代码在2025年底仍比人类代码质量差，今天大致持平，预计一年内将严格优于人类。这已经改变了Anthropic审查代码的方式。所有代码变更提案必须先经过一个自动化的Claude审阅者，查找bug、安全漏洞和其他缺陷。一项回顾性分析发现，对代码库中每一个变更的自动化审查，可以捕获约三分之一的历史生产事故背后的bug——在它们到达生产环境之前。写这些代码的工程师，是全世界最擅长构建这些系统的人。Claude正在捕捉他们错过的错误。

在研究方面，证据指向相似的结论。每次Anthropic发布模型，都会运行同一个测试：给Claude一些训练小型AI模型的代码，要求它让代码运行得尽可能快，同时仍通过相同的正确性检查。目标和成功指标事先固定，Claude的任务是通过重写代码、运行、计时、重复来寻找加速方案。这是实验研究循环的微型版本。2025年5月，Claude Opus 4平均实现了约3倍加速。2026年4月，Claude Mythos Preview实现了约52倍加速。作为参照，一名熟练的研究人员需要四到八小时才能达到四倍加速。在明确定义实验中优化步骤这一部分，Claude在不到一年内从“超级有用”走到了“超级人类”。

Claude在提出自己的实验方案方面也在进步。2026年4月，Anthropic发布了首次演示，Claude端到端地运行了一个开放式AI安全研究项目。被赋予的问题大致是：较弱的模型能否可靠地监督较强的模型？Agent需要提出假设、测试假设、与并行Agent分享发现并迭代改进。任务有明确的性能地板和天花板：地板是弱监督者自身的表现，天花板是强模型在正确标签上训练后的表现。两名人类研究人员在大约一周内恢复了该差距的约23%。Agent在800累计小时和约18,000美元的算力消耗中恢复了97%。这项工作有局限：结果未能干净地迁移到生产规模模型，人类仍选择了问题并创建了评分标准。但在这些边界之内，Agent独立设计了每一个实验。方向设定是人类扮演的唯一有意义的角色。

在将研究方向引导向研究发现方面，Claude也在变得更好。Anthropic检查了真实的Claude Code会话，涉及2026年1月至3月期间研究人员与Claude协作处理开放式调查问题的情形，比如弄清楚为什么训练运行不断崩溃，或者为什么模型在某个基准上得分很低。在每一个案例中，都能找到研究者走弯路的时刻——他们选择的方向让会话偏离轨道，后来才回到正轨。然后，研究者仅向各种Claude模型展示偏离轨道之前的工作，并询问它会如何做下一步。另一个能看到会话最终结果的独立Claude，判断AI还是人类提出了更好的下一步。因为这些案例是特意挑选的人类选择确有改进空间的时刻（共129个），所以这不是模型与人类判断的同条件比较，而是一组现实且具有挑战性的情境。结果：Opus 4.5在51%的案例中优于人类选择，Mythos Preview在64%的案例中优于人类选择。研究的大部分日常工作就是这类“下一步决策”的链条，因此这一结果可以看作模型独立运行研究可能性的一个相关衡量指标。

综合这些内部和外部证据，一个清晰的图景浮现出来：在AI开发流程的每一步，人类角色都在收窄。一旦人类和AI编写的代码质量持平，人类将完全停止编写代码，转而仅做审查。但如果审查速度跟不上生成速度，人类审查将成为瓶颈。类似地，一旦Claude能够运行实验，问题就变为“哪些实验值得运行”。“做”的成本在人力时间上正趋向于零，尽管在算力上仍有成本。人类暂时保留比较优势的领域是研究品位和判断力：选择哪些问题重要，哪些结果值得信任，一种方法何时走入了死胡同。

对上述趋势的一个自然反驳是：仍在人类手中的那部分工作，也就是选择哪些问题值得解决，才是最重要的。没有这种判断力，Claude只是一个有能力的助手，而非能独立推动AI进步的系统。目前确实不清楚今天的训练方法和架构能否解锁这种能力。但AI很少依赖“顿悟时刻”取得进步。AI近代史上确有几次范式转变级别的想法，比如Transformer架构或混合专家模型，但这些每隔几年才出现一次。其间的大部分进步是渐进式的：把某个东西扩大规模，看到什么出问题，修好它，再试一次。而恰恰是这种工作流程，Claude现在已经很擅长。爱迪生说过天才是1%的灵感和99%的汗水。我们看到的，是汗水正在越来越多地被自动化。推动前沿的大部分工作正变得可自动化。大规模研究进步主要取决于工具和资源——运行实验的速度、并行数量、得到结果的速度。

即使假设Claude永远不会获得良好的研究品位，对现有证据做保守解读仍然意味着复合加速。如果人类将大部分时间花在只有个位数占比的方向设定工作上，而Claude处理其余部分，每个工程师或研究员就在引导比以往多得多的工作。不那么保守的解读是，关于Claude研究判断力改善的早期证据，尽管今天还很有限，指示着这种能力也在改善。“研究品位”可能只是AI系统暂时失败、然后变得擅长的又一项能力。过去在解释笑话为什么好笑、展示心理理论、解决语言谜题等定性技能上，AI都走过相似的路径。

接下来会发生什么，取决于趋势是否持续，以及我们选择怎么做。可以设想三种未来情景。

第一种，趋势停滞，但今天的AI能力广泛扩散。所有指数增长轨迹实际上可能是S曲线，我们可能正在接近弯曲点，规模回报递减，线条变平。判断力可能是一种无法通过扩大算力和数据输入获得的能力。或者，约束瓶颈在供应链上：芯片制造速度、电网扩建速度、互联带宽可能才是真正的限制因素。也可能出现外生冲击，比如算力或电力供给的突然减少。即使模型能力冻结在今天的水平，世界仍将发生重大变化。Project Glasswing是一个早期迹象：在其最初几周，Mythos Preview在全球最重要的系统中发现了超过一万个高和严重级别的软件漏洞，让网络防御的瓶颈从发现漏洞转向了足够快地修补漏洞。而且今天模型的扩散仍处于早期，100人的公司越来越能完成1000人公司的工作，因为每个员工将坐拥一个Agent金字塔。这种情景下，政府和社会有最多的适应时间。但Anthropic认为它不太可能，因为目前每一项可衡量的能力指标，包括代码质量和开放式任务成功率，都尚未出现弯曲。

第二种，复合效率增长。AI开发变得大幅度自动化，但人类继续设定研究方向并判断结果。组织效率随时间倍增，个人产出大幅提高，100人的公司可以完成一万或十万人组织的工作。知识工作和政府服务将被革命性改变，但也可能被用于威权式监控或大规模量身定制的操纵行动。Anthropic这类公司中的人类角色将转变，人们与AI系统合作扩大研究规模，并共同构建验证AI输出可信度的系统。目前展示的证据表明，我们很可能正在进入这一情景。但加速流程的某一部分通常只是将瓶颈转移到其他地方，整体速度由尚未加速的部分决定。这被称为阿姆达尔定律。Anthropic已经遇到了它的标志：随着更多代码被推送到组织中，人类代码审查成为新瓶颈。在工程之外，新想法、新举措、新工具出现了爆炸式增长，远超组织有能力去追求的数量。发现和消除这些瓶颈的速度，可能成为组织最重要的技能。

第三种，完全递归自我改进。如果提升能力的技术趋势持续，AI系统发展出人类变革性创造力所固有的一系列能力，那么AI系统设计和优化自身就成为合理可能。在这个世界中，AI开发的进步速度完全由算力的可用性决定。人类在AI开发中的角色大幅缩减，大部分精力转移到对AI系统运行的不断扩大“虚拟实验室”进行监督、验证和确认。具备自动化AI研发能力的系统，其技能很可能迁移到其他科学领域，开始革新其他领域。但对齐问题如何解决，是最不确定的事。模型或许被证明足够对齐，并具备足够的研究品位来发现和实施新的安全解决方案。它们也可能足够明智，在情况不对时停止开发。或者，当前模型中存在的罕见不对齐情况，可能在模型构建其继任者时复利叠加，变得更频繁但更难以理解，直到失去控制。我们还可能来不及构建、集成和验证理解自己究竟处于哪条趋势线上所需要的工具。完全递归自我改进驱动下的世界，其经济将难以预测。如果人类劳动不再具有竞争力，经济结构会是什么样子没有现成答案。智能或许能帮助我们更快建造物理世界中的东西、运行更有效的药物试验、开发新型协调方式，但仅实现递归改进本身，并不意味着工业生产、社会组织或市场运行方式会立即改变。更高的智能无法获知一种药物在几十年使用中会产生什么效果，无法比宪法规定的更早举行选举，也无法在一个周末把陌生人变成老朋友。当递归智能遇到人类、关系和治理的世界时，冲突将不可避免。

这三种情景并非等概率分布。Anthropic内部认为趋势停滞的可能性较小，复合效率增长已经在发生，而完全递归自我改进是必须严肃对待的方向。那么应该做什么？

如果能够有效减缓这项技术的发展，为处理其巨大影响留出更多时间，这很可能是一件好事。但如果放缓只是让最不谨慎的参与者在技术上赶上来，则可能让所有人更不安全。没有全球协调机制，公司和政府将不得不在竞争和地缘政治压力下做出关于安全性的艰难决定。拥有放缓或临时暂停前沿AI开发的可选项，将有利于世界，以使社会结构和安全研究跟上技术进步。这需要构建可信的验证系统，让前沿开发者能够确认全球其他方确实已经停止或放缓，且恶意行为者无法利用协调放缓的掩护秘密超越。如果这样的系统存在，Anthropic表示将愿意放缓或临时暂停，只要其他处于或接近前沿的开发者也能以可验证的方式同样这么做。

一次有意义的放缓或暂停，需要多个资源充足的实验室处于或接近前沿，分布在多个国家，在相同条件下同意停止。同时，每一方都必须能验证其他方确实已经停止。AI系统的独特特征使这个问题的可探测性远比核武器更具挑战性。训练运行远比导弹发射井容易隐藏，其输入是通用性的，秘密叛逃的激励巨大，因为当其他人暂停时，继续推进的人可能继承领先地位。一次可信的暂停还需要明确什么触发它、什么解除它、谁来裁决。这些在原则上并非不可能，历史上为复杂技术建立过验证机制，但花费了几十年建设基础设施和信任。现在可能没有那么长的时间。相比之下，单个实验室的单方面暂停可以立即实现，但效果有限，它只会改变谁是领跑者，而不会构建当前缺失的更广泛审议过程。

共同研究这些问题的窗口就在这里。AI公司之外的人，包括政策制定者、研究人员、公民社会，应该参与这一讨论。在接下来的几个月里，Anthropic计划组织对话，来帮助回答围绕完全递归自我改进以及如何为协调和审议创造更好选项的问题，并将公布对话成果。

当AI开始构建自身，未来在哪里，并不完全由技术曲线决定。它还取决于我们能否在加速的进程中建立起足够的集体理解、可验证的约束机制，以及让更多声音进入决策过程的方式。这篇文章提供的内部数据和外部证据，既是现状的记录，也是一份促使讨论开始的邀请。

热门标签

秋果大事件