美国观察|美法院首度裁定AI训练侵权,汤森路透胜诉背后全球版权保护的不同路径

作者:王瑞 发布时间:2025-03-09 来源:复旦中美友好互信合作计划+收藏本文

引言

当地时间2月11日,美国特拉华州联邦法官斯蒂芬诺斯·比巴斯(Stephanos Bibas)裁定,已倒闭的法律研究Ross Intelligence在未获得授权的情况下,复制汤森路透(Thomson Reuters)旗下Westlaw数据库内容,并用于训练其人工智能法律研究平台的行为,不属于美国版权法中的“合理使用(Fair Use)”范畴。这一判决标志着美国法院首次对AI训练数据的版权争议作出明确裁定,并可能成为未来相关诉讼的重要法律先例。 


近年来,人工智能技术的迅猛发展引发了一系列关于知识产权保护与技术创新的法律冲突。本文回顾了Ross Intelligence与汤森路透之间的诉讼案的历程,并分析此次裁决对人工智能行业、法律数据库市场及其他涉及AI训练数据的版权纠纷可能带来的影响。人工智能是否应享有更宽松的“合理使用”标准?此次判决是否意味着AI公司在使用受版权保护内容时将面临更大法律风险?科技企业正在全球面临着怎样的版权争端,以及他们是如何应对的?本文将对这些问题展开深入探讨。


01

“Thomson Reuters v. ROSS”

版权诉讼案的始末 


1

诉讼背景与案件简介


此次诉讼案主体汤森路透(Thomson Reuters)由加拿大汤姆森公司与英国路透集团于2008年合并而成,总部位于加拿大多伦多。案件涉及的Westlaw的历史可以追溯到20世纪70年代初。1972年,美国律师协会举办了第一届全国自动化法律研究会议,这次会议标志着“计算机辅助法律研究(CALR)”系统的兴起,West出版公司受到启发在1973年推出了最初名为KeySearch的系统,最初目标是将少量的摘要材料加载为可搜索的数据库,1974年更名为Westlaw。1996年,West出版公司被汤森路透收购,而Westlaw也成为了汤森路透旗下的法律研究平台。


Westlaw的“头注”(headnotes)与“关键编号系统”(Key Number System)也称为此次诉讼案的关键。头注是Westlaw中对法律判例的简短总结,通常由专业编辑撰写,旨在提炼出判例中的关键法律要点。而“关键编号系统” 是Westlaw独创的一种法律主题分类系统,通过为每个法律主题分配一个特定的数字编号,帮助用户快速找到相关判例和法律条文。


Ross Intelligence(以下简称“Ross”)是一家2015年创建的总部位于加州旧金山的初创企业,这家企业希望开发一款用于法律研究的AI工具。起初,Ross希望获得Westlaw的数据授权来进行模型训练,却被汤森路透拒绝。随后,Ross转而通过第三方购买了大量经过处理的“Bulk Memos”(批量备忘录),而这些备忘录是就是基于Westlaw“头注”内容制作而成。汤森路透发现Ross所用的“Bulk Memos”中包含大量与Westlaw头注高度相似的内容,疑似未经授权复制,并于2020年5月在美国特拉华州地方法院正式向Ross Intelligence提起版权侵权诉讼。值得注意的是,由于高昂的诉讼费用,Ross Intelligence于2020年12 月宣布停止运营,并于2021年1月31日正式关闭。在近五年的法律纠纷后,2025年2月12日,汤森路透在针对 Ross Intelligence的版权诉讼中胜诉。


图片

图片

2021年Ross Intelligence关闭前夕的X推文

来源:X


2

合理使用(Fair Use)

成案件的关键争议点


汤森路透认为Ross未经授权复制了其受版权保护的头注内容,而Ross则主张其行为属于“合理使用(fair use)”,认为复制仅为中间步骤,用于转换成数字数据以训练AI模型,且最终生成的内容并不包含原头注文本。而这也构成了法院面对该案例的一个关键问题:即Ross对标题的使用是否构成“合理使用(fair use)”?而“合理使用”原则对此类案件的重要性在于:OpenAI、Meta、Anthropic、微软等科技企业在面对当前的多起诉讼时,常以此为辩护理由,主张在未经权利人同意或支付报酬的情况下使用受版权保护的材料来构建人工智能工具应被视为合法。


法院使用四个因素来确定被告是否可以成功使用合理使用辩护:(1)使用的目的和性质;(2)受版权保护的作品的性质;(3)复制了多少作品,并且是整个作品的很大一部分;以及(4)被告对作品的使用是否影响了其价值。在2023年初步裁决中,法官认为涉及头注是否具备原创性以及是否构成合理使用等问题均应交由陪审团判定。然而,法官在案件审理过程中重新审视了证据,最终推翻了先前部分裁定:“经比对,约2,243份Bulk Memos明确是从汤森路透的头注复制而来,显示出实质性相似性,故应认定为侵权。”法官在简易判决中写道:“Ross的所有辩护都站不住脚,我全部驳回。”


02

监管还是发展?

人工智能版权争议在全球的多样化图景


在全球范围内,关于人工智能是否应该使用受版权保护的作品进行训练的争论愈演愈烈。闭幕不久的巴黎AI峰会中,尽管各国似乎都更加认可放松监管的未来趋势,但不同政体间仍旧矛盾不断,美国、英国最终拒绝签署声明。那么版权这一关乎人工智能发展的关键议题在各国有着怎样的呈现?


1

人工智能“去监管化”的美国
正成为版权诉讼多发地


作为全球人工智能产业的核心枢纽,美国正经历着AI相关版权诉讼的高发期。并且,美国企业不仅需要应对国内的版权风险,还需面对不同国家和地区监管框架的差异。2023年7月19日,美国作家协会联合包括玛格丽特·阿特伍德、菲利普·普尔曼等在内的万余名作家,向OpenAI、谷歌、微软、Meta等科技公司首席执行官发出公开信,要求在使用作者作品时应获得同意、给予认可并提供合理补偿。同年12月,《纽约时报》在纽约南区联邦地区法院起诉OpenAI和微软,指控两家公司未经许可使用其数百万篇文章训练人工智能模型,要求赔偿数十亿美元,并销毁使用其版权材料的AI模型和训练数据。2024年2月28日,数字新闻媒体The Intercept、Raw Story和AlterNet也向OpenAI提起诉讼,与其他类似诉讼不同,这些媒体指责OpenAI违反了《数字千年版权法》(Digital Millennium copyright Act),认为OpenAI从文章中删除了作者和标题等版权识别信息。同年4月30日,包括《纽约每日新闻》和《芝加哥论坛报》在内的8家媒体在纽约联邦法院也对微软和OpenAI发起诉讼。


但目前大多数在美国本土的诉讼尚未定论。2024年11月7日,纽约联邦法官驳回了数字媒体Raw Story和AlterNet的指控,并表示“这些媒体无法显示足够的伤害来支持诉讼,但允许他们提出新的投诉”。然而,今年的2月20日纽约联邦法院却驳回了OpenAI要求撤销The Intercept提起的版权侵权诉讼的请求,并认为“The Intercept合理地主张OpenAI删除了其文章中的版权管理信息,导致其受到损害。”


此外,美国科技企业也面临着来自其他国家媒体的诉讼。2024年11月19日,印度新闻社ANI(亚洲新闻国际)在印度德里高等法院起诉OpenAI,指控其侵犯了ANI的版权,并要求赔偿2000万卢比(约合23.7万美元)。2024年11月29日在安大略省高等法院,包括《多伦多星报》、《环球邮报》、加拿大通讯社、加拿大广播公司等在内的加拿大主流媒体共同起诉OpenAI,认为其未经许可使用其享有版权的内容训练大模型,要求OpenAI就其使用的每篇文章赔偿最高2万加元,即案件诉讼总额可能达数十亿美元。


图片

“谁在诉讼谁?”

来源:Wired官网


然而,就美国政府的态度而言,无疑是支持技术创新多过于严格监管。特朗普政府于2025年1月21日宣布启动“星际之门”计划,计划在未来四年内投资5000亿美元用于美国的AI基础设施建设。1月23日,特朗普又签署行政命令,要求一个跨部门工作组在180天内制定一项“AI行动计划”,以维持和加强美国人工智能领域的主导地位。


2

欧盟路径:
平衡科技巨头监管与本土产业创新


发展优先还是完善监管对于各国而言都是一个亟待解决的难题,尤其是面临由中美两国为主导的全球人工智能产业竞争的关键阶段。在2025年巴黎AI峰会中,欧盟委员会主席冯德莱恩表示欧盟要“秉持着自己的理念,在创新与规范之间寻得平衡”。


2024年,欧洲议会通过的《人工智能法案》是世界首套管理人工智能技术的全面规则,但该法案至今为止仍面临争议:一方面,科技巨头和部分欧洲国家呼吁灵活执行该法案。2024年9月,Meta的CEO扎克伯格和爱立信总裁兼CEO鲍毅康等近50位公司高管、研究人员和行业机构联名致信欧盟,表示“由于监管决策不一致,欧洲在人工智能时代面临进一步落后的风险”。在巴黎AI峰会前,法国总理马克龙强调欧洲迫切需要“弥合”与中美的差距,会议中马克龙更是公布了1090亿欧元的产业投资计划。


另一方面,欧洲社会也充斥着对该法案在版权保护方面的质疑。2024年10月底,24个欧盟文化和创意产业组织联名致信欧盟委员会,呼吁《人工智能法案》实施中采取有效措施,“使创作者和权利人能够在人工智能模型训练过程中对受版权保护的作品的摄取和复制行使和执行其权利”。12月4月,又一封代表代表作家、翻译、记者、作曲家、编剧等艺术家和创意工作者的多个组织联名信呼吁欧盟委员会重新评估版权法律框架。公开信提到,2019年欧盟在《数字单一市场版权指令》(CDSM Directive)中引入了一项关于文本和数据挖掘(TDM)的版权例外条款(第4条),规定“除非创作者和其他权利人明确保留其权利,否则TDM可以在未经许可的情况下使用受版权保护的内容”。公开信中表示“结果是,科技企业在‘本末倒置’地利用这一例外条款,甚至没有给予创作者表达同意或保留权利的机会。”


图片

2024年10月参与联名致信的24家欧洲文化和创意产业组织

来源:国际作家和作曲家协会联合会(CISAC)官网


图片

2024年12月来自欧洲文化创作者组织的联名信

来源:联名信网页


3

寻求AI监管的独立道路的英国:
夹缝中的平衡之道


英国一直试图在欧盟的强监管与美国的去监管中间找到平衡点。2024年12月17日,英国知识产权局(UKIPO)与文化、媒体和体育部(DCMS)以及科学、创新和技术部(DSIT)合作发起了关于版权与人工智能新提案为期十周的公共意见咨询。科学、创新和技术部(DSIT)发言人在一份声明中表示,英国“目前的版权和人工智能制度阻碍了创意产业、媒体和人工智能部门充分发挥潜力......新提案将保护人工智能开发人员和权利人的利益,提供一个让双方都能茁壮成长的解决方案。”然而,英国首相凯尔·斯塔默在1月13日的公开发言似乎显示出政府对于支持创新的偏向,他表示“希望英国成为人工智能超级大国”,并承诺向研究人员提供公共数据。


英国关于版权的新提案受到数千名英国音乐家、艺术家、作家和记者的抗议,他们认为这可能使科技公司更容易利用他们的工作成果来训练人工智能模型。《金融时报》全球公共政策和平台战略总监马特·罗杰森(Matt Rogerson)表示“帮助人工智能公司收集内容来训练大模型将是一个巨大的错误”。2月25日,包括凯特·布什(Kate Bush)和卡特·史蒂文斯(Cat Stevens)在内的1000多名音乐家发行了一张无声专辑《Is This What We Want?》,以抗议英国对版权法修改的提议。欧洲作家协会(EWC)也敦促英国不要效仿欧盟的“灾难性榜样”,认为英国政府不应该促进文本和数据挖掘的例外情况。


图片

《金融时报》全球公共政策和平台战略主任于2025年2月出现在下议院文化、媒体和体育委员会以及科学、创新和技术委员会的联席会议上

来源:PressGazette官网


《卫报》报道称,十周社会意见咨询期结束后,在艺术家的游说和各团体的抗议下,英国部长们已经意识到“有必要在人工智能发展与保护英国创意产业之间取得平衡”,政府正在考虑“对允许人工智能公司使用受版权保护作品的计划进行部分让步”。这种政策回调折射出英国在数字时代治理中的深层困境。作为脱欧后亟需建立国际竞争优势的国家,英国既渴望通过宽松政策吸引人工智能产业资本,又不得不正视创意产业的经济权重和社会影响力。


4

更加开放包容的亚洲解决方案


与欧美正在爆发的集中而强烈的版权争议不同,亚洲在这一领域的进展似乎温和得多。《南华早报》记者在评论中表示:“当抗议活动从纽约到伦敦肆虐时,中国、日本、印度和新加坡的艺术家们正在利用人工智能来提高他们的工艺。”比如,日本Frontier Works和KaKa Creation宣布在2025年春天发行的新动漫《Twins Hinahima》中有95%是由AI制作的。华东师范大学传播学院王峰团队在2024年3月发布的百万字人工智能小说《天命使徒》,是国内首部采用“国内大语言模型+提示词工程+人工后期润色”方式完成的人机融合式文学作品。这些来自亚洲的案例表示,创作者不再局限于对抗性叙事,而是通过制度性创新与生产工具再造,在技术工具与人文价值的协同演进中,重构了人机协作的底层逻辑——从‘创作权争夺’转向‘创作链共生’。


图片

新加坡艺术家Niceaunties的AI动画《Auntlantis, Day in the Life of, 2024》中静止画

来源:《南华早报》官网


除了社会语境的包容气氛外,亚洲的政策环境对于人工智能的产业发展也十分友好。亚洲数字治理的董事会成员塞斯·海斯(Seth Hays)也在Tech Policy网站发文表示:“新加坡和日本在人工智能培训方面有一些世界上最自由的版权规则”。比如,新加坡2021年《版权法修正案》引入了第244条,该条允许将受版权保护的作品用于“计算数据分析”(CDA)。日本自民党(LDP)于2023、2024年发布的两份人工智能政策白皮书中,在平衡人工智能产业和版权方面也有着明显的产业发展偏好。韩国的国家人工智能委员会主任Shin Sang-ryeol在2月27日表示,关于版权问题的具体解决方案计划在今年提出框架,针对韩国科技业对于缺乏训练数据的抱怨,韩国的科学和信息通信技术部也承诺会“尽量减少监管”。亚洲较为宽松的版权规定反映出各国愿意在推动AI产业创新中承担一定的版权风险,以换取更高的数据利用效率和市场竞争优势。


图片

讨论韩国新人工智能基本法的议会论坛

来源:韩联社


03

合作、游说与合规:

来自科技企业的解决方案


Ross的复制行为被认定并非“合理使用”,假如此案的判例效力被广泛认可,科技企业对受版权保护内容的使用标准或将日益严苛。一方面,他们需要在法律框架下寻求从内容方那里获取训练数据的正当途径,另一方面,还要积极应对不同国家和地区不断变化的政策与监管要求。企业对版权争议的化解目前主要有几种方式:内容方合作以获得合法授权、通过行业组织与政府进行游说争取更多豁免,以开发版权保护工具等。


1

诉讼之外:
科技公司寻求与内容方合作


在激烈的法律博弈之外,一些科技企业选择通过授权协议来获取数据合法性。达成授权协议最多的是全球各个大型媒体组织,OpenAI支付的费用一定程度上缓解了部分媒体的收入困境。2023年,美联社就与OpenAI签署协议,为其授权所需数据来训练AI模型。近年来,OpenAI还与德国新闻巨头Axel Springer、西班牙的Prisa Media、法国《世界报》、总部位于伦敦的《金融时报》、《华尔街日报》、澳大利亚媒体《每日电讯报》等达成授权合作。2024年2月22日,谷歌又公布了与社交平台Reddit的合作,Reddit在一份声明中表示将为谷歌提供改进的模型训练方法。今年1月15日,谷歌公布与美联社达成合作,称美联社“现在将提供实时信息,以帮助进一步提高Gemini中显示结果的效用性”,而这也是谷歌与新闻出版商的首次此类交易。人工智能正在全球范围内以不可逆转的趋势加速发展,越来越多的媒体与科技公司也在尝试通过商业授权与深度合作来兼顾创新与合规。在各国法律与监管环境尚不明晰的当下,通过务实的版权授权来推进技术演进,或将成为未来科技企业主要应对路径之一。


图片

谷歌与Reddit合作声明截图

来源:谷歌


2

 游说政府:

影响版权法规以促进人工智能发展


面临各类版权争端之际,科技巨头也正在花费越来越多的数额游说立法者和监管机构,以保持对人工智能有利的版权法。2023年是生成式人工智能爆发后的第一年,政府也尚未就人工智能监管各项议题达成定论,科技企业为人工智能投资和游说投入了大量资金。超过350个组织报告说,在2023年前九个月他们就人工智能相关问题共花费了5.69亿美元来游说联邦政府。2023年,国会提出《人工智能标签法案》的立法提案,要求凡由人工智能生成的媒体内容,必须“清晰而明显”地标明其为人工智能创作,且此类标识应为“永久性或无法被后续用户轻易删除”。这一提案引起了包括谷歌、微软和Meta在内的多家科技巨头向联邦政府的强烈游说活动。同年,谷歌还花费了920万美元用于知识产权执法以及其他人工智能问题游说立法者,据其向版权办公室提交的一份评论显示,谷歌认为“合理使用”原则可以保护人工智能免受版权侵权。随后的两年内科技企业的游说支出也持续上涨,据今年1月22日的文件披露,OpenAI在2024年花费了176万美元进行政府游说,仅在年末最后三个月就花费了51万美元,而2023年的游说支出仅为26万美元。


图片

科技巨头大型加大了游说力度

来源:《Times》官网



3

合规策略:
科技企业对审核的强化
和版权保护工具的开发


此外,科技企业也通过在内部强化审核、开发检测工具等方式系统地规避版权风险。首先是组建专业化法律团队,应对前沿争议。例如,2024年10月,OpenAI任命知识产权诉讼专家Allyson Bennett担任首席律师,同时任命Heather Whitney为法律顾问专门负责版权诉讼。其次,为避免因数据侵权风险,科技企业也开发了各类版权保护工具。例如,谷歌的Content ID系统可以使版权持有者识别和管理在其平台上出现的受版权保护的内容。2024年YouTube公布了一套人工智能检测工具,可以保护包括艺术家、演员、音乐家和运动员在内的创作者免受其肖像(如脸和声音)被复制和用于其他视频。2024年8月,OpenAI也宣布研发文本水印技术,该技术会为ChatGPT生成内容添加“数字指纹”。OpenAI表示这项技术“将为版权保护和内容溯源提供强有力的支持”。


04

结语


人工智能的快速发展正在推动社会进入一个全新的技术时代,而版权问题正成为这一进程中的核心争议之一。从汤森路透诉Ross案的判决,到全球范围内针对AI训练数据的诉讼,版权问题正逐步塑造AI行业的未来。当前,各国政府在监管政策上的分歧愈发明显,美国强调技术创新优先,欧洲力求在监管与产业发展间取得平衡,而亚洲部分国家则采取较为宽松的版权政策,以支持AI产业发展。这些不同的政策取向,使全球AI行业面临一个复杂而多变的法律环境。


面对这一局势,科技企业采取了不同的应对策略。与此同时,行业内部仍然存在激烈的利益博弈,一方面版权持有者担忧自身权利被侵害,另一方面,AI企业则担心过于严格的版权规则会阻碍技术进步。在这一背景下,如何在促进人工智能发展的同时,建立合理的版权保护体系,将成为未来法律、政策和产业共同努力的方向。


①“合理使用”意味着允许在有限的情况下使用他人的部分作品,而被认为侵犯其版权。