姚旭 辛艳艳等:Anthropic为什么大力呼吁暂停前沿模型研发?

作者:中心研究室 发布时间:2026-06-16 14:03:38 来源:全球人工智能创新治理中心+收藏本文

2026年6月4日,美国人工智能巨头Anthropic发布研究报告《当人工智能开始自我构建》(When AI Builds Itself)。报告警告,AI系统可能在两年内实现递归自我改进(Recursive Self-Improvement, RSI),即自主设计、训练和改进后继模型,人类对模型训练的介入将逐步减少。因此,报告呼吁全球主要AI实验室放缓,甚至暂停前沿模型研发然而,在这一“暂停倡议”发布数日前,Anthropic已秘密递交IPO申请,估值接近万亿美元。一边呼吁全行业减速,一边却加速上市脚步,二者在时间上高度接近,使外界更容易将其安全倡议与上市叙事、估值维护联系起来。在此背景下,本文尝试回答以下问题:Anthropic究竟营造了怎样的安全叙事?叙事背后包含何种技术忧虑和商业考量?其提出的暂停开发方案前景如何? 


图片

Anthropic报告原网页

图片来源:Anthropic官网

01

Anthropic暂停倡议与缘起



Anthropic此次的暂停倡议绝非孤立涌现。从划定军方合作红线,到持续发布威胁情报,再到组建研究院造势发声,Anthropic为此铺垫已久。但外界回应却未及其预期。


临界刹车:Anthropic公开呼吁暂停全球人工智能研究


Anthropic的暂停倡议将AI自主研发后继模型视为关键技术拐点。他们认为,如果AI系统具备这一能力,人类将逐步退出模型训练的实质性环节。一旦达到这一技术拐点,模型迭代将不再依赖人类主导的研发周期,而是进入由AI自身驱动的加速循环。AI能力提升的速度就可能超出现有治理体系的响应能力。政府和国际机构也可能因此失去有效干预的时间窗口。


为支撑这一判断,报告披露了两组研发数据。在代码生产层面,截至2026年5月,Anthropic代码库中超过80%的合并代码由Claude撰写。2025年初Claude Code上线前,这一比例仅为个位数。工程师每季度合并的代码量也达到2024年同期的约8倍。固然,码行数并不等同于真实生产率,报告仍据此认为,Claude生成的代码已经能够通过审查并进入生产环境,AI在软件开发中的角色正从辅助工具转向生产力主体。


在能力基准层面,他们援引AI风险评估机构“模型评估与威胁研究中心”(METR)的数据声称,前沿AI模型以50%可靠性完成任务的时间跨度,正以约每四个月翻倍的速度增长。2024年3月,模型只能处理约4分钟的任务。到后续版本时,可靠完成任务的时间跨度延长至12小时级别。Anthropic还引用了彼时尚未公开发布的Mythos Preview的基准表现,称其实现了52倍代码优化加速,而熟练人类研究者通常需要4至8小时才能达到相应量级的提升效果。


基于这一风险判断,Anthropic提出了暂停前沿AI研发的倡议,但这一倡议从一开始就带有严格的限定条件报告主张,全球主要AI实验室应建立协调机制,必要时放缓甚至暂停前沿模型研发,为社会制度调整和对齐研究争取缓冲期。Anthropic研究院也宣布将在未来数月召集政府官员、科学家、民间组织和竞争企业,讨论暂停机制的可行方案。


但报告明确表示,Anthropic不会独自暂停研发。其理由很直接:如果只有一家实验室停下,而竞争对手继续推进,暂停方将在技术和市场上全面落后,安全目标也难以实现。因此,暂停必须成为有条件的集体行动。多家前沿实验室须在多个国家同步停止研发,且遵守情况必须能够被有效核查。报告还强调,美国和中国必须同时加入,否则任何暂停安排都将形同虚设。


由来已久:Anthropic早早布局AI安全叙事


从时间线看,Anthropic的倡议并非即兴表态,而是一场多线并进的系统行动Anthropic在军事、网络和政治等领域同步发力,试图构建一套服务于自身市场定位的AI安全叙事。


第一,Anthropic深度介入美国国家安全和防务场景,借“安全红线”经营自身负责任形象在主要的模型提供商中,Anthropic是较早、较深进入美国国家安全场景的前沿模型企业之一。2025年6月,Anthropic推出专供国家安全客户的Claude Gov系列模型,服务于战略规划和情报分析等任务。7月,公司与美国国防部签约,Claude成为首个获准接入美军机密网络的前沿AI模型。


在深度绑定军方的同时,公司也为这种合作精心配置了“安全外壳”,强调对安全边界和军事场景的使用限制。在这一背景下,“安全红线”正是这套外壳的核心设计。Anthropic坚持的红线主要有两条,即Claude不得用于美国境内大规模监控,不得用于全自主武器系统。两条红线精准对应美国国内舆论较为敏感的争议场景,划定之后便被Anthropic在各类声明中反复援引,成为其安全形象的代表性符号,逐渐成为其品牌识别的一部分。


2026年初,双方围绕红线的冲突公开化,却也为Anthropic的安全叙事提供了有力素材。续约谈判中,国防部要求取消限制条款,遭Anthropic拒绝。2月27日,特朗普指令联邦机构停用其技术,国防部长皮特·赫格塞斯(Pete Hegseth)将公司列入供应链国家安全风险名单,此类标签以往仅适用于美国的战略竞争对手。Anthropic随即高调起诉,宣称黑名单将使2026年收入减少数十亿美元,试图呈现“为原则对抗白宫,不惜承受巨额损失”的负责任形象。


图片

Anthropic深度参与了美国国家安全事务。此次与国防部的合约争议,更像是其为了凸显自身“宪法AI”(Constitutional AI)形象的一场叙事展出

图片来源:Klawe Rzeczy / Time


第二,持续强调AI滥用风险,争取AI与网络安全治理话语权。通过定期发布威胁情报,Anthropic已塑造了AI安全风险的权威信源。2025年8月,公司威胁情报团队发布首份有关的Claude大模型的系统性滥用报告。这份报告为公司带来了显著的行业影响。咨询机构弗雷斯特(Forrester)将其列为首席信息安全官的必读材料,多家安全厂商围绕报告内容发布解读和产品方案。此后,Anthropic宣布将定期发布此类报告,将威胁披露固定为一项常态化的话语工具。


进入2026年,Anthropic的威胁叙事的重心从批评他人滥用转向展示自身维护安全的决心4月,公司推出Mythos Preview,宣称该模型发现了每种主流操作系统和浏览器中的高危零日漏洞,总数达数千个,并以风险过高为由拒绝公开发布。模型转而通过“玻璃之翼”计划(Project Glasswing)向约40家审核机构开放,成员包括微软、谷歌、英伟达和苹果等科技巨头。6月2日,合作范围扩至约150家机构,北约和欧盟网络安全局也位列其中,覆盖15个以上国家的关键基础设施。


此外,Anthropic在本次暂停倡议上线当天,又同步发布年度AI网络威胁图谱,与倡议配合形成传播矩阵。从滥用报告到漏洞披露,形式几经变化,传递的判断却始终聚焦于一点:风险正在逼近,而Anthropic掌握着应对风险的关键能力。层层铺陈的威胁叙事,最终都服务于营造其品牌和政策传播效应。


第三,系统搭建倡议渠道,试图将企业立场转化为公共议程。Claude CEO阿莫戴代多年保持发表长文的习惯,持续阐述AI风险与治理主张,维持Anthropic在AI安全治理讨论中的曝光度。2026年,他们的布局更趋系统化。3月,Anthropic研究院成立,由联合创始人杰克·克拉克(Jack Clark)领导,对外定位为公共利益研究机构。研究院整合安全测试、社会影响和经济研究团队,专司政策研究与输出。该机构虽冠以公共利益之名,经费与议程均出自公司,研究立场与Anthropic利益高度一致。公司同期还扩充公共政策团队,筹建华盛顿办公室,试图争取政策监管支持。


舆论运作同步展开。5月初,克拉克在社交平台X上发帖,估计AI在2028年底前实现递归自我改进的概率约为60%。这一数字并无公开数据支撑,却吸引了多位AI安全专家的讨论,在网络平台引起一定热度。克拉克还在BBC等媒体的节目中反复使用同一表述,称AI行业像一辆“只有油门而没有刹车的车”,需要尽快建立制动能力。6月4日,研究院发布暂停倡议报告。成立不足三个月即推出全球性倡议,研究院的政策输出目的十分明显。机构搭台,舆论造势,倡议压轴形成系统性政策布局。

02

反响冷淡:Anthropic暂停倡议共识有限



虽然Anthropic积极呼吁,但是并没有获得广泛支持,随之而来的是政府、行业和智库的争论和批评。


政府层面,特朗普政府并未公开支持Anthropic的暂停倡议,白宫周边政治圈层则强烈反对暂停AI研发在暂停倡议发布前两天,白宫发布《促进先进人工智能创新与安全》行政令。行政令承认前沿模型带来国家安全风险,但政策重点是在激励创新的同时防范风险,主张建立自愿合作框架,而非强制审查机制。从这一趋势可以看出,特朗普政府更倾向为人工智能发展“松绑”,以维持美国在这一领域的领先优势,但反对过度限制其研发。


白宫周边政治圈层的反应更为尖锐。现任总统科技顾问委员会联席主席、前白宫“AI沙皇”大卫·萨克斯(David Sacks),早在2025年就曾与克拉克公开交锋,指责Anthropic的安全宣传正在损害美国的AI创业生态。针对Anthropic的暂停倡议,他认为该公司一方面把前沿AI比作核武器,一方面又继续推进自身研发,实质是在要求政府介入保护自己。他还认为,该公司以恐惧叙事推动严格监管,实际目的是压制低成本的开源模型,巩固自身在闭源市场的竞争优势。


行业层面,面临主要竞争对手OpenAI的持续挤压,全球AI研发竞赛仍在加速。6月2日,OpenAI发布《前沿AI的民主化治理:联邦治理蓝图框架》(Democratic Governance of Frontier AI: A Blueprint for A Federal Framework),该文件承认递归自我改进会带来治理压力,但认为目前仅出现早期迹象。文件还主张,AI发展的节奏和规则应当由民选政府制定,任何单一公司或利益集团都不应主导这一进程。同一周,OpenAI又推出公共政策议程,主张国会、联邦机构和行业共同参与监管设计。此前,OpenAI的CEO山姆·奥尔特曼(Sam Altman)曾尖锐批评了Anthropic将安全叙事商业化运用的行为,他将Anthropic的做法概括为先渲染风险、再兜售自家方案的“恐惧营销”。


图片

图为OpenAI CEO奥尔特曼与Anthropic CEO阿莫戴。两位AI巨擘近年来关系不佳,在印度人工智能影响峰会上也未按主办方示意牵手互动。图源:Ludovic Marin / AFP


在暂停倡议发布前后,前沿模型的研发并未减速。谷歌在6月3日发布Gemma 4 12B。Meta同日推出商业智能体,并将其扩展至旗下WhatsApp、Messenger和Instagram等多个应用。值得注意的是,踩刹车的倡议者自身却推出了能力更强的模型。6月9日,Anthropic正式发布Fable 5和Mythos 5两款大模型,其中Fable 5在复杂任务中表现突出,在行业竞争中具备领先优势。这与其呼吁暂停前沿AI研发的主张存在显著割裂。由此看出,在激烈的行业竞赛面前,主要公司并不愿因安全担忧和道德理由而主动减速,暂停倡议几乎没有获得实质性呼应。


此外,各界评论对暂停倡议的可靠性和动机评价也并不积极。AI领域资深专家加里·马库斯(Gary Marcus)认为,Anthropic报告的本质是“挂羊头卖狗肉”(bait and switch)。他质疑Anthropic的技术证据,认为其核心论据只是更快速的编程工具。这些工具仍在人类控制之下运行,与真正意义上的递归自我改进存在本质差距。马库斯直言,一个更快的编程助手大概率不会终结世界。前Meta首席AI科学家杨立昆(Yann LeCun)则认为,物理限制和不可简化的现实世界时间常数制约了AI递归自我改进的实现。当前大语言模型的架构缺乏实现通用智能所必需的物理理解和空间推理能力,距离递归自我改进仍有显著差距。两位学者都认为Anthropic可能夸大了递归自我改进的迫近程度。


新兴技术咨询公司恩德勒集团(Enderle Group)总裁罗伯·恩德勒(Rob Enderle)认为,全球暂停在实践中近乎不可能,经济利益和国家安全压力使主要行为体难以主动减速。硅谷科技咨询机构“星座研究”(Constellation Research)首席分析师霍尔格·穆勒(Holger Mueller)则追问:Anthropic究竟是想冻结竞争现状以巩固领先优势,还是想拖慢对手步伐为自身争取空间?若暂停机制成真,最直接效果将是提高新进入者门槛,并延长Anthropic的领先优势。这也表明,智库和评论界对暂停倡议能否成为可信、可行且公平的治理方案存在质疑。

03

倡议之下:安全叙事背后的多重暗流


Anthropic以安全为名的暂停倡议,看似聚焦风险治理,实则牵涉技术、商业和地缘政治等多重矛盾。倡议的真实动机与落地前景,都需要放在这些矛盾中加以审视。


技术困局:全球AI研发核查面临天然壁垒


第一,AI研发形态隐蔽,核查缺乏可靠抓手。暂停倡议若要成立,前提是每家机构都能确信其他机构真正停止了研发,这涉及人工智能核查(AI Verification)问题。核武器的发展依赖导弹发射井和大型设施建设,为国际核查提供了物理抓手。AI训练则可以在私有数据中心隐匿完成,算法研究更难以被外部观测。Anthropic在报告中也承认,AI核查比核军控更具挑战。


美国乔治城大学安全与新兴技术中心(CSET)、人工智能核查基金会(AI Verify Foundation)等机构正在尝试提出核查框架,但距离形成共识仍然遥远。现阶段,全球既缺乏统一可落地的核查标准,也缺少独立的第三方验证机构。企业完全可以在公开层面宣布放缓,私下持续推进迭代。国家层面的研发则更难监督。2026年5月1日,美国国防部宣布与SpaceX、OpenAI、谷歌、英伟达、Reflection、微软和亚马逊云(AWS)以及甲骨文等8家公司达成协议,将这些企业整合进美军最高机密网络环境,为美国军方在敏感领域的工作提供更多产品支持。类似事件表明,先进AI研发已进入高度保密的“黑箱”状态,难以推行有效的治理行动。


图片

2026年5月1日,美国国防部(官网已更名为战争部,但目前尚未完成法定更名程序)宣布与八家领先的人工智能公司达成协议,允许它们在机密网络上部署先进的人工智能技术,以促进美军的人工智能转型

图片来源:美国国防部官网


第二,AI迭代速度过快,规则制定难以跟上Anthropic在倡议中以《中导条约》为例,论证AI核查的可行性。但传统军控对象的技术形态相对稳定,前沿AI模型的更新周期已缩短至数月乃至数周,监管规则的制定速度远远落后。行业的现实路径也与暂停主张相悖。从Mythos发布到“玻璃之翼计划”启动的先后顺序可以看出,先研发突破、后补安全机制已是行业常态。在这种节奏下,任何暂停协议从谈判到生效的周期内,技术本身可能已经更新数代,约束对象早已变化。


第三,AI研发主体分散,暂停难以覆盖全局。不同于核技术这种资源门槛极高而只集中于少数国家手中的关键技术,AI的研发主体则高度分散,除头部企业外,数以千计的初创公司、高校实验室和开源社区都在同步推进探索。任何全球性暂停安排都无法覆盖所有主体。即便部分企业公开响应,也难以阻止地下研发和秘密研发的继续,倡议所设想的同步停止,在主体结构上就缺乏实现条件。


商业疑云:IPO关键期的暗藏利益考量


本次倡议提出的时间节点,与Anthropic推进IPO的关键阶段高度重合,时间的重合难免引起外界对其背后商业考量的疑虑。


第一,倡议时机与上市进程高度重合6月1日,Anthropic以保密形式向美国证券交易委员会(SEC)提交S-1注册声明草案,正式启动IPO筹备。此前一周,公司刚完成650亿美元H轮融资,估值达9650亿美元,超越OpenAI成为全球估值最高的AI创业企业。三天之后,暂停倡议发布。一家即将上市的企业呼吁全行业暂停研发,时间安排本身就足以引发疑虑。IPO窗口期对企业叙事能力的要求极高,安全标签长期是Anthropic区别于竞争对手的核心卖点,也是其估值溢价的重要来源。在上市前夕强化这一标签,在商业上顺理成章,有助于Anthropic在OpenAI、Google DeepMind等巨头的激烈竞争中,赢得资本市场的格外青睐。


图片

OpenAI与Anthropic的竞争也延续到了资本市场,Anthropic已率先秘密提交IPO申请,OpenAI随后跟进,双方围绕上市时间的先后次序展开了激烈竞争

图片来源:AI Supremacy


第二,风险论证与能力展示一体两面。倡议报告以公司自身研发数据论证风险临近,但这些数据同样可以读作对自身技术实力的展示。论证风险的过程,客观上完成了一次面向资本市场的能力宣传。在无形中,Anthropic营造了“自身能力优异”的成功叙事,吸引了更多目光。与此同时,Anthropic呼吁全球同行暂停前沿模型训练,自身承诺却始终停留在愿意参与的模糊表述上,未明确表示将同等程度放缓技术迭代。风险叙事对外,能力叙事对内,一份报告同时服务于“秀肌肉”和“劝退同行”两个目标,让人不由得思考Anthropic的出发点是否确为“安全”。


第三,三年前的全球暂停联动中阿莫戴并未参与呼吁暂停AI研发并非新事。2023年,“未来生命研究所”(Future of Life Institute)就曾联合约书亚·本吉奥(Yoshua Bengio)、埃隆·马斯克(Elon Musk)等发表公开信《暂停大型人工智能实验》(Pause Giant AI Experiments: An Open Letter),呼吁所有人工智能实验室暂停训练先进AI至少六个月。该信至今已获超过三万个签名,阿莫戴的名字却不在其中。彼时并未联署,如今主动发起,立场转变恰好发生在公司估值登顶和上市启动的节点上,有评论认为很难说是一个简单的巧合。


政治约束:深度嵌入国家安全体系的Anthropic


人工智能已成为重塑国家综合实力、军事能力与产业格局的核心战略技术,在这种背景下,单方面暂停研发的呼吁脱离当今国际关系现实。在这样的背景下,单纯依靠企业发起的暂停倡议,不仅无助于全球AI安全问题,反而可能成为大国博弈的工具,进一步加剧全球AI治理的分裂与失衡。


一方面,战略技术属性决定各方无意减速。人工智能已成为重塑国家综合实力、军事能力与产业格局的核心战略技术。在地缘竞争持续加剧的背景下,各主要国家均将技术自主与快速迭代作为核心目标,研发节奏在相当程度上已非企业可以自主决定。没有国家愿意主动自缚手脚,头部企业同样如此。单纯依靠企业发起的暂停倡议,脱离当前国际竞争的现实逻辑。倡议非但难以推动全球协调,反而可能被各方各取所需,成为大国博弈中的话语工具。


另一方面,Anthropic自身深度嵌入美国国家安全体系。《卫报》援引伦敦大学学院教授史蒂文·默多克(Steven Murdoch)的观点指出,Anthropic对安全的界定带有两面性,其安全概念限于狭义范畴,对AI服务国家安全行动的态度则相当暧昧。公司引以为标志的两条安全红线即是例证。红线限制的对象是美国境内大规模监控和全自主武器,保护范围仅及美国本土公众。若安全果真是普适原则,限制理应覆盖所有高风险军事场景。但面向他国的军事与情报应用,却未被纳入红线约束。


尽管国防部已将公司列入黑名单,据Axios报道,隶属国防部的国家安全局仍在继续使用Mythos系统。6月5日,《金融时报》进一步披露,Anthropic已向国家安全局派驻六名部署工程师,协助该机构使用模型并设计进攻性网络行动。一家协助情报机构开展网络攻击的公司,同时呼吁全球以安全为由暂停研发,倡议的说服力大打折扣。Anthropic在追求技术领先与主张及时刹车之间的摇摆,恰是这份倡议内在困境的缩影,倡议者自身尚无法摆脱地缘政治逻辑的牵引,也难以牵头推动各方对安全共识的达成、乃至多边安全倡议的真正实现。

04

前沿模型的研发悖论与自我预言的实现



这一议题的戏剧性随着美国商务部部长卢特尼克(Howard William Lutnick)在6月12日针对Anthropic的Fable 5和Mythos 5模型发布出口管制指令达到高潮。该指令援引国家安全权力,要求中止所有非美国国民(无论是在美国境内还是境外,包括Anthropic的外籍员工)对上述两款模型的一切访问权限。


Anthropic随即全方位下架两款模型,并以对抗性姿态发文回应,称两款模型的安全性前所未有的高,并点名认为OpenAI 的 GPT-5.5也不会比自己的模型更安全。Anthropic的逻辑本身没有问题,追求安全、足够安全不代表完美的安全。但前沿模型研发悖论其实已经被他们自己在暂停声明里阐释过了:


“AI能力提升的速度就可能超出现有治理体系的响应能力。政府和国际机构也可能因此失去有效干预的时间窗口。”


特朗普和卢特尼克或许是仔细看过了他们的暂停倡议,并决定在失去窗口前便开始行动。



中心研究室:姚旭、辛艳艳、张傲、黄凯越、王奕博


原文链接:https://mp.weixin.qq.com/s/BYaL-REsn1k0DmLBtiAIjg