作者:刘新萍 发布时间:2026-04-28 来源:电子政务杂志+收藏本文
刊载于《电子政务》2026年4期
引用参考文献格式:
刘新萍. 多模态公共语料库建设的国际经验研究:建设模式与治理机制[J]. 电子政务,2026(04): 20-30.

多模态公共语料库建设的国际经验研究:
建设模式与治理机制
刘新萍
【摘要】:高质量、规模化、多模态的语料资源是人工智能大模型训练的核心基石,直接决定大模型性能优劣与应用边界拓展。现阶段我国多模态公共语料库建设尚处于起步阶段,面临规模小、质量参差不齐、多模态融合程度低等问题,严重制约国内大模型的开发和训练。选取美国、英国、欧盟、新加坡等国家或地区及部分头部企业牵头建设的多模态公共语料库为分析对象,梳理其建设模式与治理机制方面的共性经验。研究表明,当前国际主流多模态公共语料库的建设模式可归纳为政府主导型、学术中枢型、行业自建型三种,配套治理机制主要从数据治理、开放机制、合规管控、社区运营等方面展开。基于国际经验与国内现实困境,提出打造国家级多模态公共语料库、分类建设特色多模态公共语料库、完善多维度协同的治理机制、强化语料库建设的保障措施等政策建议,以期为我国推动多模态公共语料库建设,突破AI大模型“数据瓶颈”提供实践指引和决策参考。
【关键词】:语料库;公共语料库;多模态;训练数据;大模型;人工智能DOI:10.16582/j.cnki.dzzw.2026.04.003
一、问题的提出
随着生成式人工智能技术进入深度应用阶段,训练数据的质量成为影响大模型泛化能力、价值导向与领域适配性的关键。人工智能对语料数据的需求正在爆发式增长,而可用、易用、好用的语料资源日益稀缺。根据W3Techs提供的实时统计显示,全球互联网中文内容仅占全部内容的1.1%,而英文内容占比则高达49.4%[1]。高质量中文数据资源已成为中文人工智能大模型实现突破性发展的核心要素[2]。
近年来,我国国家层面高度重视面向人工智能(AI)的训练数据建设。2023年7月,中央网信办等七部门联合印发的《生成式人工智能服务管理暂行办法》明确要求“推动生成式人工智能基础设施和公共训练数据资源平台建设”“扩展高质量的公共训练数据资源”。2023年12月,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》指出:“推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。”2024年9月,《中共中央办公厅 国务院办公厅关于加快公共数据资源开发利用的意见》中明确,“支持人工智能政务服务大模型开发、训练和应用”。在行业领域,2025年4月,《教育部等九部门关于加快推进教育数字化的意见》中指出:“完善教育领域多模态语料库,构建高质量自主可控数据集。”
然而,就当前国内中文多模态公共语料库的实际建设情况来看,相较于国际,中文语料库的建设起步较晚,在规模、质量、领域覆盖度、多模态融合等方面存在明显差距[3,4]。同时,由于语料库治理机制不完善,也面临数据来源、数据使用、大模型再训练等方面的数据合规风险[5]。部分地方已经开始探索建设特色语料库,如羊城晚报报业集团与广州大学合作共建多模态粤语语料库,但总体来看尚未形成规模化供给能力。专业领域的语料库建设也开始探索,但同样存在覆盖面不足问题,难以支撑细分领域AI应用落地[6]。总体而言,已经建成的中文多模态公共语料库的开源程度明显不足[2],用户使用门槛较高,导致中文模型开发者可利用的网络开源训练语料的数量有限,不得不依赖外文标注数据集、自有业务数据或商业采购数据,严重影响模型训练效果。
从国际视野来看,全球领先国家已构建形成多领域的多模态公共语料库,其建设经验可对我国加快建设多模态公共语料库形成借鉴。在此背景下,聚焦多模态公共语料库这一新型基础设施,系统梳理国际多模态公共语料库建设方面的路径与经验,进而结合我国数据要素市场化改革背景,提出符合我国国情的本土化多模态公共语料库的建设路径。研究旨在回应以下核心问题:国际多模态公共语料库的建设模式是什么?形成了怎样的治理机制?为我国多模态公共语料库建设带来哪些启示?
二、文献回顾与分析框架
(一)多模态公共语料库的内涵
语料库(Corpus)源于语言学,传统语料库一般是由文本构成,主要用于语言学定量分析,揭示语言使用的本质规律。Firth于1957年提出“词汇意义源于共现语境”的观点[7],为基于真实语料的语言学研究奠定思想基础。1964年,美国布朗大学构建的Brown Corpus(包含100万词、覆盖15种文体),被公认为现代电子语料库的开端[8],标志着语料库语言学进入计算机辅助阶段。早期的语料库建设主要以学术机构主导的小规模语料库建设为主,以自然语言处理为核心特征,聚焦基础语言资源积累,用于语言学研究。随着生成式人工智能技术的发展,人工智能预训练对训练数据的内容范畴、类型、模态等需求更为多元,语料库建设逐渐从单模态向多模态拓展,成为训练、测试或优化AI模型的重要基础设施[9]。
实践中,多模态公共语料库与高质量数据集常容易混淆,尽管从功能用途上两者均为开发和训练人工智能模型的核心基础资源,但两者在数据特征、应用场景等方面存在显著区别。在数据特征方面,多模态公共语料库是指融合文字、语音、图像、视频等两种及以上信息模态的语料类数据,突破了传统纯文本的局限性,数据往往全面、自然、真实,具有规模性、多样性与时效性[2];而高质量数据集是指通过系统性质量控制手段形成的、满足特定应用场景需求的数据集合[10],强调数据的可访问、可互操作、可复用、可解释性等特征[11,12]。在应用场景方面,多模态公共语料库的核心在于基于各类语料数据整体客观地呈现人类活动[13],可服务于基础语言规律研究与模型通用能力构建;而高质量数据集面向特定任务,具有高价值应用、高知识密度、高技术含量等特征,侧重模型性能与应用开发[14]。
(二)多模态公共语料库的治理
由于语料数据本身的真实性、社会性、复杂性等特征[15,16],导致语料数据治理与一般数据集治理存在显著区别。国内学者对国际结构化公共数据集的关注较多,研究内容涵盖治理规则[17]、治理体系[18]、数据分类管理[19]、共享开放[20]、数据保护[21]、数据安全[22]等数据全生命周期的各个方面,但对多模态公共语料库治理方面的研究颇少,仅在数据标注、合规监管等方面有所涉及。
数据标注是当前语料库研究的重点内容,标注质量影响语料库质量、研究成果的准确性以及语料库的使用程度[23]。早期数据标注主要借助众包模式由人工进行标注,如MS COCO提供超过33万张图像及配套人工描述,奠定了图像描述研究的基础[24];Flickr30K提供超过3.1万张图像,每张图匹配了多句来自不同标注者独立完成的描述,用于支撑跨模态检索研究[25];VQA数据集[26]、Visual Genome数据集[27]均采用亚马逊的Amazon MTurk众包平台完成标注,解决了视觉问答、场景语义推理的语料支撑问题。
随着人工智能对训练数据规模的需求爆发,学界和产业界开始探索低成本、弱监督、规模化的语料库建设路径。谷歌发布的概念字幕数据集(Conceptual Captions),通过互联网海量网页抓取构建了百万级图文对语料[28];法国国家信息与自动化研究所等机构发布的HowTo100M视频/文本配对数据集,同样通过互联网自动爬取数据,构建了超过1亿条的视频文本对,实现了无人工标注的规模化语料生产[29]。OpenAI发布的CLIP通过大规模图文对比学习训练视觉语言模型[30],推动弱监督学习成为主流范式。德国非营利组织LAION发布的LAION-5B数据集,基于CLIP相似度过滤构建了50亿条图文对语料,显著提升了多模态模型的泛化能力[31]。
同时,语料库的数据合规管控也是当前研究热点。合规风险涉及语料数据来源、使用、再训练等全流程各个阶段[32]。有学者指出,通过互联网抓取的语料数据,若未经授权采集、未开展伦理审查,极易引发版权侵权与隐私争议等合规问题[33];而主流视觉数据集存在显著的种族与性别偏见问题,会直接导致训练模型的公平性缺失[34]。在合规风险管控方面,有学者建议应在语料数据声明中披露适用边界、来源人群特征,避免因数据排他性导致的合规风险并通过建立数据溯源机制保障使用合规[35],还需要加强开源后个人信息主体的权益保护[36]。
(三)分析框架
基于现有文献梳理可见,多模态公共语料库在数据特征、应用场景与治理要求等方面均与其他数据集存在显著差异,相应的建设模式与治理机制也呈现出明显分野。为此,围绕多模态公共语料库“如何建、如何管”两个关键问题,从建设模式与治理机制两个维度开展比较分析。
在建设模式维度,尝试对典型国际多模态公共语料库开展类型学比较,分析各类模式在建设主体、资金保障、数据组织、语料用途方面的共性特征与差异表现,提炼具有规律性的模式特点。
在治理机制维度,围绕保障语料库可持续运营的制度安排,梳理国际实践在数据治理、开放机制、合规管控、社区营造等方面的典型做法。其中,数据治理是基础,决定语料库的核心价值、可用性和可持续性;开放机制是实现语料库的公共价值与资源复用的保障;合规管控是底线要求,规避数据隐私、版权等各类风险;社区营造是长效支撑,为语料库的低成本运维提供支持。
三、案例选择
研究采用多案例比较分析法,选取多个具有代表性的多模态公共语料库的国际案例,对其建设模式与治理机制开展横向对比,精准提炼共性特征与差异。案例选取的原则是:①公共性原则。案例语料库应当是面向社会开放或部分开放、具有公益属性的公共语料库,而非盈利导向的商业语料库,部分企业建设的面向社会开放的语料库也符合这一标准。②案例代表性原则。案例所属国家或地区在AI发展或语料库建设方面处于国际领先地位。③资料完整性原则。案例语料库一般应具备官方网址且信息披露完整,具有数据采集可行性。
基于该标准,选取了来自美国、英国、欧盟、新加坡等国家或地区及企业的10个典型多模态公共语料库开展比较研究(代表性语料库基本信息参见表1)。在数据采集方面,主要从各语料库官网、学术论文等渠道获取数据。
四、国际多模态公共语料库的
建设模式分析
多模态公共语料库具备非竞争性、非排他性的准公共物品属性,其建设与运行往往涉及政府、学术科研机构、行业企业、终端用户等多方主体的协同参与。根据建设主体的差异,将当前国际多模态公共语料库的建设模式划分为政府主导型、学术中枢型、行业自建型三种(参见表2)。

(一)政府主导型
政府主导型模式的核心特征是政府部门统筹规划,依托公共财政资金完成建设,委托公共科研机构或服务机构执行落地,以形成服务于国家战略、具有公共利益属性的通用类数字基础设施。其中,英国BNC、欧洲语言数据空间LDS、新加坡NSC是典型案例。
从建设主体来看,政府主导型建设模式由政府部门牵头,委托公共科研机构或服务机构执行建设。例如,欧洲LDS由欧盟委员会发起,纳入欧盟“数字欧洲计划”顶层设计,由德国人工智能研究中心(DFKI)作为核心联盟的协调方,联合法国ELDA、希腊Athena研究所ILSP、拉脱维亚Tilde及众多欧洲分包商共同开发。而英国BNC建设最早由BNC联盟牵头,成员包括牛津大学出版社、词典出版商,牛津大学、兰卡斯特大学的学术研究中心以及英国图书馆相关研究机构。新加坡NSC则是由新加坡资讯通信媒体发展局(IMDA)牵头,南洋理工大学(NTU)作为技术执行方。
在资金保障方面,政府主导型模式均以公共财政专项资金为核心来源,辅以国家科研基金或其他资金等资助,资金稳定性强,无商业化盈利诉求。例如,英国BNC初始项目(1990—1994年)获英国政府信息技术联合框架计划支持,英国贸易与工业部提供50%资金,而科学与工程研究委员会全额资助学术机构成本,另外还有来自英国图书馆、英国学术院,以及工程与物理科学研究委员会的专项资助作为补充资金;后续的BNC2014项目则获英国经济与社会研究委员会(ESRC)资助。
在数据组织方面,一般以公共领域合规语料为核心来源,呈现出公共性、合规性、规范化等特征。该模式下的代表性语料库,其数据来源可归为三类:第一类是具有公共版权的多模态语料数据,如英国BNC,其90%的书面语料来自地方和全国性报纸的摘录、适合各年龄段和不同兴趣的专业期刊与杂志、学术书籍和通俗小说、已出版和未出版的信件及备忘录、中小学和大学论文等多种文本,而10%的口语语料是在不同场景下收集的口语和非脚本化、非正式对话的文字转录,涵盖从正式的商业或政府会议到广播节目和听众热线等。第二类是通过严格抽样选出志愿者采集数据,以确保语料的代表性;如英国BNC在建设过程中,从不同年龄、地区和社会阶层中按人口统计学平衡方式选出志愿者,录制日常对话类口语语料。第三类是众包模式公众自发录制语料数据,如新加坡NSC通过本地多族群、多年龄段公众的自发语音录制,获取了包含背景音、本土口音等真实语音数据,完整还原新加坡英语的口音特征。
在语料用途方面,政府主导型语料库逐渐从早期的语言学研究工具,过渡至基础研究和人工智能训练。其中,英国BNC在其《英国国家语料库规划用途》(BNCW02,1991年4月11日)中声明,语料库主要用于工具书出版、语言学研究、语言教学、人工智能、自然语言处理、语音处理、信息检索等。而新加坡NSC则明确语料库是从事人工智能机器学习与自动语音识别技术的研究人员和开发者的宝贵资源,明确允许商业开发,可用于研发适配本地口音的语音产品,例如电信呼叫中心的通话转录与情感分析系统、支持本地口音的聊天机器人等。
(二)学术中枢型
学术中枢型建设模式一般以高校、科研机构或科研团队为核心主导,由政府或高校提供的科研基金为主要支撑,依托学术社区协同建设,为自然语言处理、机器翻译、语言学研究等领域的学术研究与技术创新提供可复用、高质量的语料基础设施。其中,开放美国语料库OANC、美国网络新闻语料库NOW、美国LDC多模态语料库、欧盟OPUS语料库、ImageNet等为典型案例。
在建设主体上,一种是由高校或科研机构牵头,如开放美国语料库OANC的开发主要由宾夕法尼亚州立大学主持,获得了来自香港城市大学中文、翻译和语言学系等机构的支持;美国语言数据联盟LDC推出的多模态语料库,由美国语言数据联盟LDC建设与运营。另一种是由资深教授带领的科研团队牵头,如美国网络新闻语料库NOW由美国杨百翰大学的语言学家Mark Davies教授主持建设;ImageNet由普林斯顿大学李飞飞教授牵头建设;欧盟OPUS项目由自然语言处理专家Jörg Tiedemann教授主导创建与维护。
除牵头单位外,学术中枢型语料库还会依托全球开源学术社区、全球研究者和开发者参与建设。以欧盟OPUS语料库为例,其构建了一个以学术机构为中枢、社区参与为支撑的去中心化协同治理机制。其中,乌普萨拉大学是早期牵头机构,主导整体架构设计、语料整合与对齐工具开发,北欧NLP基础设施联盟为项目提供算力与数据托管支持。来自全球的研究者和开发者通过分布式参与的方式,上传语料、训练模型、撰写研究成果,构成了典型的“用户即贡献者”生态系统。
在资金保障上,学术中枢型模式一般以政府或高校的科研经费为主要来源,辅以会员年费、企业公益捐赠和社区志愿者无偿贡献。例如,美国LDC语料库由美国国防高级研究计划局(DARPA)与美国国家科学基金会(NSF)资助,以及会员机构的年费支持。OANC得到了美国国家科学基金会、ANC联盟、TalkBank项目的支持;NOW得到了美国国家人文基金会(NEH)及美国杨百翰大学相关经费资助;ImageNet则由谷歌、英伟达、美国国家科学基金会、A9、普林斯顿大学和斯坦福大学等多方主体共同资助。
在数据组织上,学术中枢型语料库的语料内容一般涵盖多种语体、风格与主题,语料内容包括电话通话、日常闲聊、新闻报道、政府文件、学术文本、教育材料、社交媒体、口语转录、技术文档、影视字幕、学术文档、法律文本等。这些数据的采集渠道包括:一是自动抓取数据,如美国网络新闻语料库NOW从20多个英语国家的新闻网站自动抓取文本数据,这些网站既有主流媒体也有地方性或区域性新闻网站,保证了语言风格与表达形式的多样性;二是招募参与者录制数据,如美国LDC推出的CALLHOME与CALLFRIEND语料库以跨国家庭通话、本地日常闲聊为来源,招募100-200名参与者,每人完成一次20-30分钟通话,最大程度还原真实日常语音交流场景。
在语料用途上,学术中枢型语料库主要面向研究人员提供数据支撑,既可以支撑搭配分析、语义演变、区域对比、句法分析等语言学研究,还可以支撑语言多样性保护、语音AI模型训练、前沿技术开发等跨学科研究。在代表性案例中,开放美国语料库OANC为计算语言学建模分析、社会语言学语言使用特征量化分析提供了底层数据支撑;美国的网络新闻语料库NOW语料库凭借其海量规模和时序性特征,可广泛应用于语言演变、社会话语分析等研究;欧盟OPUS特别关注少数民族语言等低资源语言处理,是全球语言多样性保护、AI公平性研究的重要基础支撑;ImageNet提出要为全球研究人员提供数据支撑,用于训练和测试大规模物体识别模型,同时作为计算机视觉领域物体分类任务的高质量基准数据集,助力机器学习方法的研究与优化。
(三)行业自建型
行业自建型语料库往往聚焦某特定行业领域,由该领域的行业龙头企业主导建设与运营。本研究将企业主导建设但面向社会普遍开放、具有公益属性的行业自建多模态语料库也纳入研究范畴,其中,Waymo开放数据集、MSR-VTT数据集是典型案例。
在建设主体上,一般由行业龙头企业基于自身业务主导建设和运营。如Waymo开放数据集由谷歌母公司Alphabet旗下的Waymo公司(自动驾驶公司)牵头自主研发和运营,核心团队为Waymo AI研发团队。MSR-VTT数据集则是由微软研究院牵头建设,依托微软在人工智能领域的技术积累推进数据集搭建,是微软在“视觉-语言”方向的代表性公开数据集。
在资金保障方面,行业自建型建设模式一般由企业资助建设,如Waymo开放数据集由谷歌资助建设,MSR-VTT数据集由微软公司提供资金支持。
在数据组织方面,行业自建型语料库一般聚焦行业领域的特定需求,由企业自行采集或其他方式合规获取,数据针对性强,场景贴合度高。如Waymo开放数据集是聚焦自动驾驶领域的多模态语料数据,由三个数据集组成,即高分辨率传感器数据构成的感知数据集、聚焦于车辆与行人等的交互行为的运动数据集、端到端驾驶数据集。在数据采集方面,这些数据集由其自动驾驶车队在真实道路环境中采集,数据混合了人工驾驶和自动驾驶的车辆运行记录。MSR-VTT数据集则是通过合规渠道获取YouTube开放域视频,筛选涵盖日常活动、娱乐、教育等多元场景的片段,确保数据的多样性与代表性。
在语料用途方面,多用于学术研究和技术验证。如Waymo开放数据集应用于自动驾驶和机器感知领域的学术研究和技术验证;MSR-VTT数据集主要应用于视频描述生成、“视频-文本”检索、多模态理解等计算机视觉与自然语言处理交叉领域的学术研究、模型训练、技术验证与算法评测。
五、国际多模态公共语料库的
治理机制分析
多模态公共语料库的治理机制,是保障其公共属性、合规性与可持续运营的核心制度体系,其核心目标是解决“如何管”的关键问题。下文将从数据治理、开放机制、合规管控、社区运营等方面总结典型国际多模态公共语料库的治理机制,以期形成经验借鉴。
(一)数据治理
语料数据均基于真实场景采集,具有真实性、社会性、多样化、复杂性等特征,这使得语料数据需适配比结构化数据集更高的数据治理要求。研究发现,国际多模态公共语料库在数据标注规范、数据质量控制、数据动态更新等方面形成了特色做法。
高质量的语料库不仅提供原始数据,更需通过精细化的标注提升其应用价值。研究显示,各语料库结合自身语料数据特点和应用场景形成了差异化的标注规范。例如,OANC的语言学注释包括词性标注、句法结构、命名实体识别、语义角色标注等多个方面,使其成为自然语言处理任务训练模型的重要数据源;CALLFRIEND提供完整语音和手工转写文本,并带有对话双方标签;CALLHOME的通话音频还带有时间对齐标注,语者身份标注清晰,以提升语料应用价值;新加坡NSC的数据标注则包含与音频文件一一对应的文字记录,精准标注语音内容,为自动语音识别技术训练提供“语音-文本”匹配的高质量标注数据。
各语料库均以真实还原现实语言使用情景与特征为核心目标,建立了严格的质量管控机制。部分语料库提到需对语料进行预处理,以确保数据质量,如NOW的文本均经过基本清洗和处理,包括去除HTML标签、保留正文、按句和段落划分;OPUS则需经过多渠道语料收集、格式清洗与标准化、自动对齐与质量筛选等步骤,确保语料质量;ImageNet提供的每个概念图像都需经过质量控制和人工标注。
为确保语料库数据的时效性,多个语料库建立了高频更新机制。以美国网络新闻语料库NOW为例,其语料数据自2010年起,实现按月更新,每月将从约47万篇新的网络报纸与杂志文章中新增约2.7-2.9亿词的语料数据,年均新增语料数据约31亿词,能够持续捕捉并覆盖最新的语言使用动态和最新演变趋势,确保语料库的时效性与场景适配性。
(二)开放机制
开放机制是指语料库在保障合规性、保护版权和隐私等前提下,通过差异化的开放模式、许可协议设计,明确商用与非商用边界,实现语料资源的高效复用。在开放性与合规性的平衡中,国际多模态公共语料库形成了完全开放、部分开放、平台化合规三种开放机制。
⒈完全开放
完全开放以最大程度促进创新为目标,面向公众和商业用户免费开放,允许免费下载、修改及用于商业或非商业用途,降低语料使用门槛,推动产学研广泛合作,采用该模式的典型语料库包括美国OANC、欧盟OPUS、新加坡NSC。例如,OANC全部语料基于主流的Creative Commons许可协议发布,用户在注明原始出处的基础上可自由下载、修改和分发;OPUS主要采用CC-BY(署名)、CC-BY-SA(署名-相同方式共享)、CC0(公共领域)等开放许可协议。NSC面向公众与商业用户均免费开放,无国籍限制,支持研究与商业开发双重用途,个人研究者、企业、学术机构等均可申请使用。
⒉部分开放
部分开放是国际多模态公共语料库的主流开源形式。该模式根据用户类型、使用用途、使用需求设定开放权限,但通常免费提供基础检索或非商业用途访问,采用该模式的典型语料库包括英国BNC、美国LDC、NOW、ImageNet等。例如,BNC整体以免费开放为主,个人使用、学术研究、基础检索等完全免费,而商业用途、部分高级工具订阅需付费,要求用户使用需遵守用户许可协议,禁止用户商业再分发与完整文本复制;美国LDC通过学术订阅方式获取,仅对签订许可协议的会员机构和高校开放;NOW向注册用户免费开放,但每日查询次数、结果数量和高级功能(如虚拟语料库创建)受到限制,完整下载语料或大规模分析需购买许可;ImageNet仅对非商业研究和教育用途申请者开放。Waymo开放数据集也公开向社会提供,遵循专属的非商业许可协议,
⒊平台化合规
平台化合规是适配严苛法规要求的特色开放模式,通过可信数据空间确保各机构在合规前提下实现数据的安全发现与交换。以欧盟LDS为代表,LDS不集中托管数据,而是构建一个符合《通用数据保护条例》(GDPR)等严苛法规要求的可信数据空间。参与方以去中心化方式将数据存储在参与者节点,将自有数据产品纳入公共中央目录,在合规安全的前提下实现数据的安全发现与交换。
(三)合规管控
合规是大模型价值取向的保证[4]。与其他数据集相比,语料数据往往涉及真实场景的个人隐私数据,其合规管控要求更加严格,涵盖数据采集、隐私保护、使用合规等多重维度。
为保障数据来源的合规性,数据采集环节需确保采集行为合法、获得充分授权。例如,美国LDC推出的CALLHOME数据集的采集过程充分体现了这一原则,其采用无脚本的自然电话通话录音形式,所有参与者均知晓录音行为,签署知情同意书,被明确告知通话将被录音用于科研用途。Waymo的自动驾驶数据采集也已获得当地相关部门许可,不采集违规驾驶场景数据。
在隐私保护方面,各语料库对个人信息(尤其是语音、图像等敏感数据)建立了严格的脱敏处理机制。美国LDC语料库涉及高度敏感的个人语音数据,除获得参与者知情同意外,还要求进行匿名化处理,所有文本转录中需要移除或模糊处理姓名、地址、电话、机构名等敏感信息,用“[NAME]”“[LOCATION]”等标签替代,或用静音、哔声处理敏感语音片段;同时,要求所有语料发布前须经过美国LDC的伦理审查和技术审核。而欧盟LDS要求所有数据需严格遵循GDPR要求,必要时进行数据匿名化或假名化处理。
在使用合规方面,各语料库通过明确的许可协议与使用规范,界定使用边界,规避合规风险。新加坡NSC要求使用过程需遵守许可条款,即不可转售数据、需标注数据来源为IMDA NSC、不得用于非法或歧视性用途,商业产品需在文档中声明使用NSC数据;Waymo开放数据集明确禁止用于评估现实车辆的实际性能,仅可用于学术研究与技术开发;欧盟LDS要求参与者入驻LDS前需经过身份与资质核验,符合治理规则的法人实体方可参与;OPUS提供使用声明与风险提示,确保合规边界与伦理审慎。
(四)社区营造
多模态公共语料库在语料采集、数据标注、质量优化等方面的建设要求,需要耗费巨大的人力物力,社区营造是国际通行做法。通过社区营造吸纳多元主体共同参与,以保障语料库的开放性、低成本建设与长期可持续运维。典型做法包括志愿者参与机制、用户贡献机制、生态协同机制等三类。
部分语料库建立了志愿者参与机制,通过招募志愿者补充语料资源、完善标注质量。英国BNC、新加坡NSC等语料库广泛吸引志愿者参与口语类语料录制工作:BNC按人口统计学平衡原则选取志愿者,录制不同场景下的日常对话口语语料,确保语料的代表性;NSC通过招募本地多族群、多年龄段志愿者,录制自发语音,获取包含背景音、本土口音等真实语音数据,同时志愿者也参与部分语音标注工作,提升语料质量。
用户贡献机制是以用户为主导的“分布式参与”模式。欧盟OPUS语料库是典型代表,来自全球的研究者和开发者通过分布式参与的方式,上传语料、参与语料标注与优化、训练模型、撰写研究成果,构成了典型的“用户即贡献者”生态系统。开放美国语料库OANC也通过广泛征集用户贡献数据、衍生数据或进行数据标注,进一步拓展语料的覆盖范围与应用价值。
生态协同机制则聚焦多元主体的互动与合作,构建完整的社区生态。欧洲语言数据空间LDS被设计为一个组织生态系统,即拥有语言数据的用户和希望使用语言数据的用户,在完全符合欧盟法律法规的前提下,可以在平台内执行与其数据资产相关的所有操作,并与其他利益相关者进行互动。
六、对我国构建本土化多模态
公共语料库的启示与建议
大模型的发展对高质量、多模态语料的依赖日益增强。多模态公共语料库因其公共性、开放性、基础性等特征,正成为降低研发门槛、推动AI技术普惠的关键基础设施,也是各国AI产业竞争的战略高地。基于对国际多模态公共语料库的建设模式与治理机制的系统分析,结合我国当前现状,提出以下建设路径与建议。
(一)打造国家级多模态公共语料库
充分发挥制度优势,打造本土化、规模化、开放性的国家级多模态公共语料库,既能从根源上避免AI模型被国外语料“卡脖子”,也有助于保障模型输出内容符合国家价值观、伦理要求与相关法律法规。
第一,盘活公共数据资源。当前,我国公共数据开放已取得显著成效,据复旦大学数字与移动治理实验室2025年发布的“中国开放数林指数”显示,截至2025年7月,我国已有257个省级及城市级的地方政府上线了数据开放平台,各地开放的有效数据集总数超47万个,无条件开放数据集容量超1907亿条[37],这些数据是建设国家级多模态公共语料库的宝贵资源。同时,依托全国一体化政务大数据平台的统筹整合能力,可以打破地方、部门之间的数据壁垒,高效汇聚各地各部门的公共数据,这些也可以作为语料库建设的重要来源。值得注意的是,为适配AI模型训练需要,部分地方已率先探索开放经标注的AI训练语料资源,例如,上海市数据开放平台无条件开放了各类政策语料,涵盖宪法法律、行政法规、地方性法规等多种类型,且对语料文本标注了创建时间、标题、正文、发布机构等多种实体信息,便于机器理解与利用,为国家级多模态公共语料库建设提供了可借鉴的地方实践经验。
第二,推动国家级高质量数据集与多模态公共语料库融合建设。当前,国家数据局正在牵头推进高质量数据集建设及标准化数据标注工作,其汇聚的高质量数据集,可直接作为国家层面多模态公共语料库建设的核心数据来源,实现数据资源的高效复用,降低国家级多模态公共语料库的建设成本,也有助于破解我国当前语料供给不足、质量参差不齐、标注标准不统一的现实困境。
第三,拓展并转化形成多模态公共语料资源。结合大模型训练对语料质量、多样性、多模态性的实际需求,建议在盘活公共数据的基础上,进一步拓展语料来源,将各级政府、公共事业单位在履职过程中产生的非涉密的政策法规、非涉密文本、办事记录、城市管理数据、报告、档案、讲座音视频等数据,以及研究报告、新闻媒体报道、网络文章等各类资源,进行清洗、标注、脱敏,实现文本、图像、语音、视频等多模态语义对齐,最终转化为高质量、机器可读、适配AI训练的公共语料资源。
(二)分类建设特色多模态公共语料库
在国家级多模态公共语料库的基础上,可结合学术研究需要、公共价值实现和产业发展需求,依托学术机构特色与企业自主性,分类建设特色多模态公共语料库。
一方面,以国内顶尖高校、科研机构为核心主导,强化语料库的学术支撑与技术创新。依托国家自然科学基金、国家社会科学基金、高校科研经费等资源,鼓励科研团队牵头开展语料库建设与技术研发。聚焦语言学研究、多模态融合、低资源语言处理等领域,由学术机构牵头搭建学术社区协同平台,吸引国内高校、科研机构、行业开发者参与语料上传、标注与优化。联动主流新闻媒体、学术期刊数据库,动态更新新闻语料、学术语料,打造适配中文语境的语言学标注语料、跨学科研究语料,为中文AI模型预训练与学术研究提供支撑。联合新疆、西藏、云南等地区高校、文旅部门及当地社群,系统采集少数民族语言的相关语音、文本、视频等多模态语料,开展数字化标注,打造特色多模态公共语料库,助力语言文化传承和AI技术公平。
另一方面,以行业龙头企业为主导打造细分领域特色多模态公共语料库。针对工业、农业、文旅、交通、医疗、智能制造等细分领域,由行业主管部门牵头、龙头企业主导建设,科研机构提供技术支撑,企业投入专项资金保障建设与运维。聚焦各行业场景化需求,依托龙头企业的场景资源,采集真实场景下的多模态语料,如自动驾驶领域联动企业采集道路运行数据,医疗领域联动三甲医院采集影像、病历文本数据,汇聚行业通用知识语料与场景化特定语料,打造具有高知识密度、高准确性的行业类公共语料库。同时,建立行业公共语料库的共享机制,推动语料库在行业内合规共享。
(三)完善多维度协同的治理机制
立足我国数据安全法、个人信息保护法等法律法规要求,构建适配我国国情的协同治理生态,保障语料库的合规性、可用性与可持续性。
第一,强化数据治理,提升语料质量和适配性。建立覆盖语料数据全生命周期的数据治理体系,在数据采集中坚持真实场景导向,确保语料的真实性与代表性。结合中文语言特点与AI训练需求,制定统一的多模态语料数据标注标准,规范标注流程,提升语料的实用性。建立语料数据质量标准,完善语料清洗、标准化、质量筛选机制,依托自动化预处理工具,剔除低质量、冗余语料。完善语料数据动态更新机制,联动主流媒体、政务平台、科研数据管理单位,及时补充新语料;针对新闻、政务等时效性强的语料,应当建立按月更新机制,确保语料的时效性和场景适配性。
第二,优化开放机制,完善语料库的服务能力。结合我国多模态公共语料库的公益属性与安全需求,探索建立差异化的开放策略,设计灵活的分层服务体系。对于政府牵头建设的语料库,建议与现有公共数据开放平台联动,建立语料数据开放专区,面向公众、科研机构、企业免费开放,降低使用门槛,推动产学研协同;对于学术机构与行业主导建设的特色语料库,建议免费提供在线检索、基础分析接口,满足公益研究需求,对大规模分析等深度需求可实行有偿授权。对于涉及敏感数据、需严格管控的语料库,构建可信数据空间,确保数据在合规前提下安全交换,适配我国数据安全管控要求。同时,可探索语料数据的有偿运营服务,开发语料产品来获取运营收益,以有偿服务的合理收益反哺语料库的持续维护与更新,实现可持续运营。
第三,健全合规管控,守牢数据安全与伦理底线。严格落实《数据安全法》《个人信息保护法》等法律法规要求,构建数据全链条合规体系。在采集环节,确保采集行为合法,对涉及个人信息的语料(如语音、图像),严格落实知情同意制度,明确采集用途,并委托第三方机构开展合规审核。在隐私保护环节,对敏感信息进行匿名化、假名化处理,模糊个人身份信息。建议建立由政府、高校、科研机构、法律实务机构组成的伦理审查委员会,完善语料发布前的合规审核。在使用与流通环节,明确语料使用边界,禁止非法转售和违规使用,要求语料使用者在学术成果、企业产品文档中声明语料来源。建立违规使用惩戒机制,确保语料使用合规。
第四,深化社区营造,构建可持续运营生态。搭建国家级语料协同平台,打破主体壁垒,推动政府、学术机构、企业、公众的互动合作,打造动态生长、众包协同的中文语料生态社区,保障语料库的长期可持续运营。建立志愿者参与机制,对优秀志愿者给予表彰或语料资源优先使用等激励;营造“用户即贡献者”的生态,鼓励企业、科研机构、开发者上传高质量语料、标注工具与研究成果,可建立贡献者积分体系,积分可兑换语料使用权限、技术支持等权益。
(四)强化语料库建设的保障措施
为确保我国多模态公共语料库建设落地见效,还需要强化政策、资金、技术、人才四大保障,破解建设过程中的可能困境。
在政策层面,国家应出台专项政策,明确多模态公共语料库的建设定位、发展目标和建设标准,规范语料版权和隐私保护,统筹协调各部门、各地区的建设工作;针对语料数据特点,完善语料数据全生命周期的治理标准与规范指引,为语料库建设与数据治理提供制度支撑。
在资金方面,建议构建政府主导、多元补充的资金投入机制,加大公共财政专项资金投入,吸引公益基金会、科研基金参与,设立多模态公共语料库专项基金,重点支持国家级公共语料库与低资源语言语料库建设。建议将多模态公共语料库建设纳入地方数字经济发展专项资金支持范围,通过税收减免、研发费用加计扣除等激励方式鼓励企业参与行业多模态公共语料库建设,引导企业贡献语料资源或提供技术支持。
在技术层面,依托国内高校、科研机构,加强多模态语料标注、清洗、语义对齐、隐私脱敏等核心技术研发。引导科技企业开展技术攻关,推动面向语料数据的数据处理、隐私保护、数据互操作、流通安全等方面的技术迭代与升级,确保不同语料库之间的兼容性;鼓励企业开放自研的语料处理工具,提升我国语料库建设的整体技术水平。
在人才保障层面,应当加强语言学、计算机科学、数据治理、法律伦理等跨学科复合型人才培养,在高校设立相关交叉学科专业,培养兼具语料标注、技术研发、合规管控能力的专业队伍。开展国际交流合作,组织科研人员、企业技术人员参与国际语料库建设交流活动。建立人才激励机制,对参与语料库建设、技术研发的科研人员给予资金奖励、职称晋升等倾斜支持,激发人才参与动力和创新活力。
参考文献:(略)
项目基金:国家社会科学基金重大项目“面向数字化发展的公共数据开放利用体系与能力建设研究”(项目号:21&ZD337)。
作者简介:
刘新萍,博士,上海理工大学管理学院副教授,硕士生导师,复旦大学数字与移动治理实验室执行副主任,主要研究方向为数字治理、公共数据开发利用、跨部门数据共享与协同。
来源丨https://mp.weixin.qq.com/s/y-wYOI7zErOuqKE3891tsg