作者:于玥 发布时间:2026-04-02 来源:全球人工智能创新治理中心+收藏本文
编者按
当前,生成式人工智能技术正以前所未有的速度实现全行业渗透,其对全球劳动力市场的潜在冲击已成为国际治理与产业政策的核心议题。既有研究多聚焦于AI技术供给端的职业替代风险,却普遍忽视了技术潜力与实际部署进程之间的显著鸿沟,导致风险研判与政策制定往往缺乏精准的现实依据,而全球范围内也尚未形成统一、可落地的劳动力市场影响评估框架。
在此背景下,Anthropic研究院于2026年3月发布最新成果,创新性地提出了“观测暴露度”(Observed Exposure)这一风险测度指标。该研究深度融合了大语言模型(LLM)的理论能力与Claude的真实使用数据,旨在重新评估人工智能对美国劳动力市场的实质性影响。
该研究由Anthropic研究院(The Anthropic Institute)发布。研究院于2026年3月11日宣布正式成立,由公司联合创始人Jack Clark领衔,汇聚了机器学习工程师、经济学家及社会科学家等跨学科精英,依托前沿的内部数据与技术视野,致力于预测并应对人工智能对人类社会带来的深远影响。

图片来源:X
核心发现
报告引入了一种衡量人工智能替代风险的新标准——“观察到曝光度(ObservedExposure)”。该指标结合了大型语言模型(LLM)的理论能力与现实世界的实际使用数据,并对自动化(而非增强型)用途以及与工作相关的用途赋予了更高的权重。
AI远未达到其理论能力上限:实际应用覆盖的任务范围仅占技术可行范围的一小部分。
高“观察到曝光度”的职业增长预期较低:根据美国劳工统计局(BLS)的预测,到2034年,这类职业的增长幅度将相对较小。
高暴露职业的从业者特征:在人工智能曝光度最高的职业中,从业者主要表现为高年龄、女性、高学历以及高薪水特征。
未见系统性失业,但招聘放缓:自2022年底以来,高暴露职业的失业率尚未出现系统性上升;但初步证据表明,其针对年轻劳动者的招聘活动已经有所放缓。

图片来源:报告原文
作者
Maxim Massenkov,Anthropic Institute研究员;
Peter McCorry,Anthropic Institute研究员。
01
(一)过往研究的局限
人工智能技术的快速扩散催生了大量测算与预测其对劳动力市场影响的研究,但过往方法的实践效果存在明显局限。
举例来说,以往针对就业风险的评估中,典型研究曾将美国约四分之一的岗位界定为离岸外包易感岗位,然而十年后这些岗位仍保持稳健的就业增长,理论预判与现实结果严重背离。美国劳工统计局的职业增长预测虽方向合理,却难以突破历史趋势线性外推的局限,预测价值有限。即便事后复盘,重大经济冲击对劳动力市场的影响也存在显著争议,工业机器人就业效应研究结论相悖,中美贸易冲击引发的失业规模至今未有共识。
在这篇文章尝试搭建全新的人工智能劳动力市场影响分析框架,并结合早期实证数据检验有效性,核心目标是建立可持续追踪人工智能就业效应的测度方法,定期更新分析结论。
(二)反事实分析
该框架无法覆盖人工智能重塑劳动力市场的全部路径,但如果可在显著影响显现前搭建基础体系,就能让后续研究比事后分析更精准识别经济扰动。AI对就业的影响或许会逐步显现,总量失业数据难以直接捕捉效应,贸易政策、经济周期等因素会进一步干扰趋势判断,这也凸显了基于任务拆分的对比分析的必要性。
主流研究通常采用基于任务的分析思路,对比不同人工智能暴露水平的劳动者、企业与行业表现,剥离混杂因素以识别人工智能的真实影响,暴露度核心依据人工智能能否完成岗位核心任务界定。本研究延续这一范式,同时整合大语言模型理论能力与真实世界使用数据,最终汇总至职业层面形成测度结果,突破了过往仅依赖理论能力评估的单一维度缺陷,让风险评估更贴合产业实际应用场景。

图片来源:The New York Times
02
(一)测量人工智能暴露度
本研究的核心创新是构建观测暴露度指标,该指标整合三类核心数据,实现对人工智能职业替代风险的精准量化。
第一类数据为美国职业信息网络(O*NET)数据库,该数据库详细列明了近800个美国职业的具体任务内容,为任务层面的风险拆解提供标准化基础;
第二类数据来自Anthropic经济指数的真实使用数据,反映Claude在商业场景中的实际应用情况;
第三类数据为埃隆杜等(Eloundouetal.,2023)提出的任务暴露度评估结果,该结果衡量大语言模型能否将任务执行效率提升至少一倍,代表人工智能的理论能力上限。

图片来源:报告原文
图1表示,埃隆杜等人的测度指标采用简化评分体系,大语言模型可独立完成且效率翻倍的任务评分为1,需依托额外工具或软件实现效率提升的任务评分为0.5,无法实现效率提升的任务评分为0。
为什么人工智能的实际能力会落后于埃隆杜的理论预测?
一方面,一些理论上可行的任务可能因为模型的局限性而未体现在实际用途中。另一方面,一些任务可能由于法律约束、特定的软件集成需求、人工验证环节或其他障碍而扩散缓慢。例如,埃隆杜等人将“授权药品续方并向药房提供处方信息”标记为完全暴露。尽管这一评估在理论上是正确的(LLM确实能加速该过程),但尚未在实际观测中发现Claude执行此类任务。
即便如此,AI理论能力与实际使用仍然存在高度相关性。
(二)测量职业暴露度的新方法
该报告提出的新衡量标准——“观察到曝光度”(Observed Exposure),旨在量化一个核心问题:在那些大型语言模型理论上可以加速的任务中,哪些在专业场景中真正实现了自动化应用?通过追踪这一差距如何缩小,“观察到曝光度”能够洞察正在显现的经济变革。
衡量标准定性地捕捉了具有职业影响预测性的几个人工智能使用维度。如果一个职业具备以下特征,其曝光度就更高:
其任务在理论上可以通过AI完成;
其任务在“Anthropic经济指数”中显示出显著的使用量;
其任务是在工作相关的场景中执行的;
它具有相对较高份额的自动化使用模式或API调用实现;
受人工智能影响的任务在该职业整体角色中占据较大比重。
对于LLM理论上能够胜任的任务,如果它们在Claude的流量中展现了足够的工作相关用途,则将其计为“已覆盖”。随后,根据任务的执行方式进行调整:全自动化实现赋予全部权重,而增强型(辅助自动化)使用则赋予一半权重。最后,将任务层级的覆盖率衡量值汇总至职业层级,并根据每项任务所花费的时间比例进行加权平均。

图片来源:报告原文
图2直观地对比了理论暴露度(蓝色部分)与观察到曝光度(红色部分),揭示了人工智能在专业场景中的真实应用现状。研究团队首先通过时间占比对职业层级的任务进行加权平均,随后根据总就业人数将数据汇总至各大职业类别。
数据显示,在计算机与数学类职业(Computer&Math)以及办公与行政支持类职业(Office&Admin)中,理论上的LLM渗透空间分别高达94%和90%。然而,来自“Anthropic经济指数”的真实数据显示,AI在这些领域的实际覆盖率远未达到其理论上限。以计算机与数学类职业为例,尽管其理论潜力巨大,但目前Claude实际仅覆盖了其中33%的任务。
随着模型能力的演进、技术采用率的提升以及部署程度的深化,代表实际应用的“红色区域”将不断扩张,并逐渐蚕食“蓝色区域”所预示的潜力空间。报告指出,这种从理论向现实转化的过程是动态的,且受到多种现实因素的制约。
与此同时,图中仍保留着大片未被覆盖的空白区域,这代表了人工智能目前无法触达的任务领域。从修剪树木、操作农机等体力密集的农业劳动,到在法庭上代表客户辩护等复杂的法律实务,这些任务依然稳固地处于人工智能的能力边界之外

图片来源:报告原文
图3显示了在这种测量下暴露最多的10种职业。从细分职业来看,暴露度排名前十的岗位集中于知识密集型与服务型岗位。与之相对,约30%劳动者的暴露度为零,涵盖厨师、摩托车维修工、救生员、调酒师等体力服务与实操类岗位,这类岗位任务极少出现在人工智能使用数据中,基本不受当前人工智能技术影响。
03
(一)暴露度与就业数据的相关性分析
美国劳工统计局(BLS)2025年发布的2024至2034年职业就业预测数据,为本研究的暴露度指标提供了外部有效性检验,两者的关联结果呈现清晰的规律。

图片来源:报告原文
基于就业规模加权的职业层面回归分析显示,观测暴露度越高的职业,就业增长预期越弱,观测暴露度每提升10个百分点,劳工统计局的就业增长预测值下降0.6个百分点,证明本研究构建的观测暴露度与劳动力市场预测结果形成呼应,具备现实预测价值;而仅使用埃隆杜等人的理论暴露度指标,无法得出这一显著相关性。
(二)高/低暴露度劳动者的群体异质性

图片来源:报告原文
高暴露度群体与零暴露度群体的劳动者特征存在显著差异。
图5显示了在ChatGPT发布前的三个月(2022年8月至10月)中,暴露程度最高的四分之一劳动力的特征,以及30%的零暴露劳动力的特征,使用的数据来自当前人口调查。人口学特征层面,高暴露度群体平均年龄更高、女性比例更高、白人和亚裔群体更多、已婚比例更高;社会经济地位层面,高暴露度群体平均时薪更高、学历更高、工会成员占比更低、周工作时长略长;整体呈现高学历、高收入、以脑力劳动为主的群体特征。
劳动者特征的分化,意味着人工智能对劳动力市场的影响将呈现群体异质性,高学历、高收入的白领群体面临更高的替代风险,而低学历、体力劳动为主的蓝领与基础服务岗位,当前受人工智能冲击极小。这一结论打破了“AI优先替代低技能岗位”的传统认知。生成式人工智能的技术特性决定其更易渗透知识处理、信息分析、文本生成等白领工作,而非需要实操、体力与现场响应的岗位。同时,女性在高暴露度职业中的占比偏高,也提示人工智能劳动力市场影响可能存在性别维度的差异,未来政策制定需兼顾性别平等与群体公平。
04
(一)高暴露群体的失业影响
本研究将失业率作为核心观测指标,因其直接反映人工智能可能带来的经济损害,失业意味着劳动者有就业意愿却无法获得岗位,是政策干预的核心依据。岗位招聘量与就业规模变动,无法直接反映劳动力市场亟需解决的政策问题,因为高暴露岗位招聘数量的下降可能被新岗位的增量需求抵消。因为失业工人寻求信工作需要时间成本,因此由AI引发的需考虑的最不利劳动力市场成果,必然是一段失业率上升的时期。当期人口调查数据(the Current Population Survey,CPS)可精准追踪失业者的既往职业与行业信息,为分职业失业分析提供了可靠数据支撑。
本研究秉持简化分析原则,聚焦暴露度最高群体,将暴露度最高的四分之一劳动力群体和零暴露的劳动力群体做对比,假设人工智能的影响会率先在高暴露群体显现,同时验证不同阈值划分对结果的影响。

图片来源:报告原文
实证结果显示,2022年末以来,高暴露劳动者并未出现系统性失业率上升。新冠疫情期间,零暴露群体因多为线下岗位,失业率大幅攀升,疫情后两类群体失业率趋势基本一致。
双重差分模型测算结果表明,ChatGPT发布后,高暴露与零暴露群体的失业率差距微小且不显著,高暴露群体失业率仅有小幅上升,效应值与零假设无统计学差异。基于置信区间的测算,若失业率差异达1个百分点,本研究框架可清晰识别,而现实数据未捕捉到这一规模的影响,即便模拟白领群体“大衰退级”失业冲击,也未在数据中显现。
(二)年轻劳动力的就业情况
年轻劳动者是人工智能就业影响的重点观测群体,本研究重点分析22至25岁年轻劳动者的就业与招聘情况。结果显示,高暴露职业年轻劳动者失业率未出现明显上升,但招聘环节暗示了一些早期信号。借助当期人口调查面板数据,追踪年轻劳动者新入职率变化,2024年起,高暴露职业与零暴露职业的年轻劳动者入职率出现明显分化,低暴露职业月入职率稳定在2%,高暴露职业入职率下降约0.5个百分点。ChatGPT发布后,高暴露职业年轻劳动者求职成功率较2022年下降14%,结果仅勉强具备统计显著性,25岁以上劳动者未出现这一趋势。

图片来源:报告原文
年轻群体招聘放缓的原因存在多重解释,未被录用的年轻劳动者可能留在原岗位、转向其他职业或重返校园,且调查数据对岗位流动的统计存在一定误差,这一效应仍需长期数据验证。但该结果与Brynjolfsson等人的研究形成呼应,共同指向人工智能对劳动力市场的早期影响,并非表现为现有劳动者失业,而是通过放缓年轻群体新增招聘,逐步改变就业结构,这一细微信号对政策预判具有重要参考价值。
05
本研究创新性提出观测暴露度指标,整合大语言模型理论能力与真实商用使用数据,侧重衡量自动化、工作场景的人工智能应用,系统评估了生成式人工智能对美国劳动力市场的早期影响。
研究核心结论明确,人工智能的实际应用规模远低于理论能力上限,二者存在显著缺口;观测暴露度与职业就业增长预期呈负相关,高暴露职业未来十年就业增长更弱;高暴露职业劳动者以高龄、女性、高学历、高收入群体为主;截至2026年初,人工智能未引发高暴露群体系统性失业,但年轻劳动者进入高暴露职业的招聘速率有所放缓。

图片来源:Anthropic官网
本研究是系统梳理人工智能劳动力市场影响的初步探索,研究框架与测度方法可随就业数据、人工智能使用数据更新持续迭代,帮助后续研究精准区分人工智能影响与市场噪声。
同时,研究存在可优化的三个方向:
未来将持续整合最新使用数据,动态追踪经济任务与岗位覆盖变化;
埃隆杜等人的理论暴露度指标可结合2023年后大语言模型能力升级更新;
针对年轻劳动者与劳动力市场新进入者的初步发现,后续可聚焦暴露领域应届毕业生的就业适应情况,深化细分群体影响研究。
从数据应用层面,本研究的任务与职业层面观测覆盖数据已在Hugging Face平台公开,为全球学界、政策界与产业界提供了可复用的研究基础。研究方法具备跨国家、跨场景拓展性,可结合不同地区劳动力市场特征与人工智能使用数据,形成全球化的人工智能劳动力市场影响评估体系,为各国制定差异化、精准化的人工智能治理、职业培训、就业保障政策提供科学支撑。
原文链接
https://www.anthropic.com/research/labor-market-impacts