成果 | 李梦颖:超越“去伪存真”——对当下社交机器人研究视角的反思

作者:李梦颖 发布时间:2025-03-17 11:53:41 来源:《中国传播学评论(第十一辑)》+收藏本文

图片


超越“去伪存真”:对当下社交机器人研究视角的反思

李梦颖


摘要:基于对当下社交机器人研究的梳理和分析,已有研究主要以“去伪存真”为目的,通过识别和管理社交机器人,让社交媒介回归以人类为主体互动的空间,还原真实的民意和舆论。笔者提出,“去伪存真”不仅在技术和方法上仍存在很大的障碍,其本身也可能是一个伪命题。平台、算法、程序这些构成社交机器人的核心元素,早已以不同形式参与和影响人类交互,人类与机器、虚拟与真实的界限已破。在这样的背景下,只着力于将社交机器人从网络环境中区分和剥离出来,如缘木求鱼,难以真正揭示其社会影响。研究者应超越“去伪存真”,转换研究视角,提出新的研究问题。本研究从“人机共生”的视角出发,将社交机器人视作了解平台技术和文化特性的手段,或可为当下的社交机器人研究打开新的思路。

关键词:社交机器人;自动化程序;算法;平台


引言


人类不再是社交媒介的唯一用户。“推特(Twitter)用户中有480万人是社交机器人”“用户数刚破十亿人的照片墙(Instagram)上约有9500万个社交机器人账号”“脸书在第一季度移除了22亿个虚假账号”“美国新冠疫情期间要求解封的半数以上的推特用户是自社交机器人”……由电脑自动化程序所生成和控制的“社交机器人”已被发现广泛存在于各大社交媒介平台。社交机器人的功能和应用场景复杂多元。有的社交机器人很容易被识别出来,主要根据设定好的自动化脚本,执行简单、重复的发布内容任务。比较典型的例子有推特上的@pentametron,它被设定为随机转发符合特定诗歌韵律的推文,还有和英国大本钟同步报时的@big_ben_clock,每日整点发送代表敲钟声“Bong”的推文,类似地,名为“古城钟楼”的微博账号也是自动报时社交机器人,以西安钟楼为例,按照天干地计时法,每个时辰发出“当当当”的钟声。而随着人工智能技术的发展,尤其是随着语言模型训练的突破,社交机器人不仅可以运行更加复杂的算法,还能模仿人的网络行为特点,伪装成真实用户进行交互,包括发送及接受添加好友的请求,更新和分享个人状态,点赞和评论热点话题等日常的社交媒介行为(“僵尸粉”“社交机器人水军”),还包括根据输入信息自动生成个性化的内容(聊天社交机器人、AI客服),以及基于机器学习技术在网络的互动中不断学习人类的交流模式,更新和改进自身算法,实现意想不到的交流(微软小冰)等。可以说,社交机器人的活动日益良,智能程度加深。对于人文社会科学的研究者而言,真正让社交机器人同其他自动化程序区分开来的,不是其技术特点,而是他们在社交媒介这一当下最普遍的交流平台中,同人类用户一样“呈现自我”“建立社会关系”,成为一个有过去、有知识、有情感甚至有身体的主体。这从根本上挑战了人与机器、真实与虚拟的界限,生动说明了后人类理论家海勒所说的外显行为界定主体的意义,机器和人类之间并“没有本质的不同或者绝对的界线”。


近十年,关于社交机器人的讨论愈发热烈,人们发现社交机器人被广泛用于传播虚假信息、操纵舆论、影响公共政策、干预政治选举等,因此学界尤其关注社交机器人账号的检测方法及其在重大公共议题传播过程中的角色。研究的重点在于探究社交机器人的行为模式和特点,阐明其对公众信息获取和意见形成的影响,并提出相应的治理方法。大部分研究从“人机对立”的视角出发将社交机器人视作“内容污染者”,其基本预设为社交机器人是假,人类用户是真,研究社交机器人的目的在于“去伪存真”,即通过识别和治理社交机器人,让社交媒介回归以人类为主体互动的空间,让网络舆论可以展现真实的民意。本文研究者提出,“去伪存真”不仅在技术上仍存在困难,其本身可能是一个伪命题—人类与机器、虚拟与真实的界限已破。而如果转换一种思路,从“人机共生”的视角出发,将社交机器人视作了解平台技术和文化特性的方法,或可为当前的社交机器人研究打开新的研究思路。


下文将先回顾已有的社交机器人识别方法,讨论“去伪存真”在技术上存在的困难及隐含在方法背后的偏见;其次,梳理关于社交机器人在社会影响上的研究,反思其对人机关系的预设,提出仅从治理角度研究社交机器人的局限性,并探讨国内相关研究的发展趋势,强调在中国语境下研究社交机器人需要不同的问题意识;最后,文章尝试提出研究社交机器人的新视角,从社交机器人的技术和文化特性出发,将其作为理解社交媒介平台运作方式的方法,提升对于智能时代新的传播形态的理解。


一、“去伪存真”的技术壁垒:社交机器人识别的困难和偏见


当前研究关注的重点是如何检测和识别社交机器人。计算机学科的研究者通过分析推特用户的社交网络结构、发帖时间和频率、语言内容和情绪特征等,探索识别社交机器人账号的方法,并开发了相应的检测系统,让学者和公众能有效地辨别出社交机器人账号。比如,阿尔维西等人提出,真人用户账号和社交机器人账号的社交网络会呈现不同的特点,社交机器人可能会主动与大量的“陌生人”互动,以获取真实用户的关注,而人类用户账号人可能更倾向于关注社交圈或兴趣接近的,因此通过分析用户的社交网络结构,可以识别出疑似的社交机器人账号。另一个常用的识别指标是发帖频率和时间:牛津大学的霍华德和科兰尼以单日发文是否超过50条作为界定自动化账号的标准;查沃什等人认为有规律的、有周期性的或不间断地发帖的账号为社交机器人的账号。还有的学者通过分析推特账号的用户信息、粉丝情况以及元数据特征等进行识别,比如,社交机器人账号更可能保留系统随机分配的初始用户名和默认头像,缺少个性化设置;社交机器人账号转发的推文通常多于原创内容、关注数多于粉丝数;社交机器人账号通常由电脑远程控制,其推文的元数据中往往缺少位置信息,而真人用户账号大多用手机登录,其元数据中包含较多关于地理位置的数据。


相较于这些运用单个指征界定社交机器人账号的方法,目前应用得更加广泛的是以Botometer(原名BotOrNot)、Debot等为代表的、基于机器学习的公开检测系统。这些检测系统从海量的推特用户数据中提取和识别不同类别的行为特征,不仅准确率更高,在理想的情况下,还可以通过更新训练数据及时校准模型,快速适应推特上人类和社交机器人行为的动态变化。以印第安纳大学开发的Botometer为例,该工具从社交网络结构、用户信息、关注情况、发文频率、文本特征、语言情感六个方面提取了推特用户的1000多个行为特征,根据这些特征给推特账号打分,分数越高则代表它们是社交机器人的可能性越大。目前,Botometer每天处理超过25万个检测请求,并且支持第三方开发者在其基础上拓展新的功能,不仅研究者可以便捷地使用该系统对大规模的推特账号进行检测,越来越多的普通用户也开始在日常的社交媒介使用中尝试这些检测工具,有学者称其为“用人工智能技术武装公众对抗社交机器人”。


通过梳理社交机器人识别方法和工具的原理,可以发现,无论是根据单一指标辨别社交机器人,还是应用机器学习的方法纳入海量特征值进行分析,机器账号识别方法的基础是对机器和人类行为特点区别的一系列假设,并且这些假设大多来自对推特这一个社交平台用户行为的分析。而研究者之所以特别关注推特,一方面是同该平台巨大的用户规模及其在公共讨论中的重要性有关。另一方面,则是受到研究条件的制约。相较于其他平台,推特更加开放,对于调用其应用程序接口(API)的限制相对较少,研究者因此可以比较容易地获取数据训练模型,开发供公众及缺少编程背景的研究者使用的便捷检测工具。目前,无论是计算机还是社会科学领域中针对社交机器人的研究,都主要基于推特这一个平台展开,对于其他社交媒介上社交机器人的研究,仍相对空白。而集中关注某一平台不可避免地会带来偏见,限制我们对社交机器人行为特点和模式的理解。以社交网络结构这一常见分析指标为例,是否大量关注陌生人或许可以有效地区分推特中的社交机器人账号,但在类似汤博乐(Tumblr)等以鼓励陌生人互动的社交媒介上,便难以成立。


换而言之,社交机器人的检测和识别上仍存在较大的技术壁垒。受制于数据收集困难和平台开放度不足等问题,已有的方法和工具难以应用到研究推特以外的社交媒介上,我们对于社交机器人的规模、特点和影响的了解都仍处在初步阶段。即便是相对成熟的推特社交机器人研究,相关识别系统的准确性受到指标设计、训练数据的有效性以及平台中社交机器人的比例等多重复杂因素的影响,只能在概率层面提供一定的参考,而下文中即将探讨的关于社交机器人社会影响的实证研究,往往直接采用现成工具的检测结果作为“辨别真伪”和确定社交机器人数据样本的依据,缺少对于识别方法本身的反思。


二、“去伪存真”的局限性:反思社交机器人的影响


理解社交机器人的社会影响是一个研究热点。近年,随着假新闻、舆论操纵、意见极化等话题的热议,越来越多的研究开始关注社交机器人的潜在风险,包括社交机器人如何影响信息传播、干扰网络舆论生态等问题。其中,政治选举是最受研究者关注的场景。贝西和费拉拉抓取了2016年美国总统大选期间近两千万条选举相关推文,通过Botometer检测工具将样本中的真人用户和社交机器人进行分类,他们发现,无论是在支持特朗普的阵营中还是希拉里的阵营中,都存在大量的社交机器人账号,其发文量占相关推文总数的五分之一。此后,该研究团队用类似的方法,从2017年法国大选期间近一千七百万条相关的推文中识别社交机器人账号并分析其在马克龙邮件泄露丑闻中的角色。研究发现,一些曾在2016年美国大选中散播虚假信息的社交机器人账号在2017年的法国大选中又被激活,参与散播谣言。此外,社交机器人除了密集地推送支持或反对某一候选人的信息,还用更加隐蔽的方式介入选举。比如有学者发现,在2017年德国大选期间,德国七个主要政党的推特账号的粉丝数都迅速上涨,其中,粉丝账号中社交机器人账号占比均超过十分之一,这些社交机器人账号并未发布选举相关的内容,而是通过为政党增加粉丝数、点赞数的方式,扩大他们在社交媒介上的影响力,营造支持率上涨的假象。这些研究成果似乎都印证了存在“计算宣传”,即运用自动化手段有组织地操纵舆论。有学者担心,当社交机器人被系统性地运用在政治选举中,或是散播抹黑候选人的言论或是制造虚假人气,会极大地影响公众的认知和行为,公众可能会把社交机器人的行为当成来自普通民众的反应,并影响选举的最终结果。


除了干预选举,还有研究发现,在诸多重大公共政策和议题的讨论中也有社交机器人的参与,并且可能刺激网络意见极化。在2016年英国脱欧的投票前夕,活跃的社交机器人账号仅占参与脱欧讨论的推特用户总数的1%,但他们以每周发布100条以上相关推文的频率,在推特上生产了超过1/3的关于脱欧话题的内容,比例惊人;卡内基梅隆大学的一项最新研究显示,在关于新冠疫情期间美国是否应该解封的争议中,有近一半的推文可能来自社交机器人账号。社交机器人的大规模介入可能导致的是网络讨论走向偏激化。一项针对推特上关于疫苗讨论的研究发现,无论是支持还是反对疫苗的社交机器人账号,往往只转发与自己立场相同的意见,加深了社交媒介的“回音壁”效果。费拉拉的关于社交机器人网络行为的最新研究也支持了这一观点,他发现,社交机器人主要被用于散播新冠肺炎相关的“阴谋论”、支持相悖的极端意见。如果参考罗斯等人试验的结果表明,在沉默螺旋理论成立的前提下,假设社交机器人处在社交网络中比较中心的位置,并且是面对意见两极分化严重的议题,仅需要2%—4%的社交机器人就可能改变舆论的整体氛围,制造出一种“主流”意见。


近几年,越来越多的国内学者也开始关注社交机器人的负面影响,将其同假新闻、虚假宣传等一同视作社交媒介时代需要被治理的对象,还有学者就推特上同中国相关的议题开展实证研究,分析社交机器人介入议题传播和讨论的方式及其在相关新闻报道的扩散中扮演的角色,进而理解海外社交媒介上涉及中国议题的舆论操控问题。比如,有学者抓取了推特上同中美贸易谈判议题相关的20余万条推文,应用Botometer系统识别其中的社交机器人账号,分析社交机器人的行为特征。他们发现,社交机器人积极参与了在推特上扩散中美贸易谈判的相关内容,发文总量和频率都远高于真实用户,但在立场上并未发现明显倾向。还有学者运用相似的分析工具和方法研究推特上带有中国相关标签的推文中社交机器人的比例、发文内容和互动方式。他们发现社交机器人在涉及关于中国的负面讨论中表现活跃,自动化操作痕迹明显。在另一篇文章中,两位学者应用相似的方法考察了推特平台上《纽约时报》香港修例风波相关报道的一级传播和二级传播中,社交机器人账号的参与情况、行为特征和传播效果,他们发现,尽管社交机器人账号活跃度很高,但并未能引起人类用户的进一步转发,尚未形成信息扩散的重要节点。


可以发现,无论是国内还是国外关于社交机器人社会影响的实证研究似乎形成了一个固定的模式:以重大政治事件或公共议题为案例,抓取推特上的相关推文;应用Botometer等公开的社交机器人检测工具,识别样本中的社交机器人账号、获取相关数据;再针对社交机器人的发文内容、特点和影响展开分析,并就舆论操纵、虚假信息传播和计算宣传等问题进行讨论,警示社交机器人可能带来的问题和挑战。可以说,这类研究有其重要的现实意义,但如果仅从这一视角研究社交机器人,可能有极大的局限性。这些研究始终是在“图灵测试”的范畴中探讨社交机器人,将其视作“内容污染者”的潜在预设是,社交机器人不仅区别于人类,更是需要被治理的对象,是被用来达到商业或政治目的的工具。社交机器人是假,人类用户是真。通过识别社交机器人账号,阐明其作用机制和影响,提出相应的治理办法,可以让社交媒介回到人类为主体互动的空间,还原真实的民意和舆论。但是,自动化程序、算法、代码等构成社交机器人的核心元素,早已是网络空间的一部分,人机交流、人机互动正以不同的形式重构现代生活。无论是社交媒介平台本身的算法推荐机制,还是其界面运作系统的架构设计,都可能影响用户接触什么样的信息、形成什么样的社会关系。从这个角度来说,虚拟与现实、人类与机器的界限早已打破,未来是人与机器共同作用下的新文明。在这样的背景下,着力于在社交媒介中将社交机器人识别、区分和剥离出来,实现所谓“未被污染的”“真实的”网络环境,不但在技术上极难实现,而且它本身就是一个伪命题。国外学者关注泛滥的网络虚假信息的一个重要原因为担心民意检测等在大众传媒时代被广泛应用的政治实证技术可能失灵,社交机器人批量生成社交媒介上的点赞、转发和评论,可能影响公共政策走向。那么,在中国语境下,基于不同的社会和政治环境,社交机器人的问题意识是什么?我们不仅要对中国社交媒介上社交机器人的现状、特点和影响有更多的了解,更要突破仅致力于识别和治理范畴的现状,开拓新的视角,提出新问题。


三、超越“去伪存真”:如何使作为方法的社交机器人成为可能


在反思了已有研究的局限性后,本研究尝试提出研究社交机器人的不同视角,将关注点从识别和治理社交机器人转向以社交机器人为“方法”,理解社交媒介平台的运作方式和人机关系的发展趋势。如盖尔和巴卡吉耶娃所言,一个社交机器人离开了社交媒介平台的界面和功能,难以想象其是否可以模仿人类呈现自我、进行交互。


在技术上,社交机器人的运作完全依赖于平台的技术架构。从最基本的层面来说,社交机器人要执行自动化程序,需要调用社交媒介平台的应用程序接口(API)以及其他编程配置文件;此外,社交机器人的行为,无论是点赞、分享还是发布内容,都需要通过符合平台特点的算法来实现。比如,抖音上的社交机器人,会根据抖音平台算法对关注、点赞、讨论等行为不同的权重,设定其具体的行为模式。而微博和推特上的社交机器人,则可能针对热搜议题设计自动化程序。每个平台都有针对自动化程序的监测手段和用户规则。比如,微博明确规定,任何人不得擅自在微博平台上实施自动化行为,并就自动化行为提出详细界定,即“明显异于常人的、远高于正常用户的频率发布微博、评论、私信、头条文章或做出关注、点赞、抓取数据等行为”。类似地,尽管推特没有禁止所有的自动化程序,甚至鼓励如本文开头提到的“创意”社交机器人,但明确规定打击散播垃圾信息的社交机器人账号,以及针对其热搜榜的自动化程序。因此,社交机器人的开发需要考虑平台的监测手段,并同其技术的更新升级保持一致,否则可能导致批量失效。有学者从购买社交机器人的网站以及Github等开源社区搜集了45018份针对不同社交媒介平台设计的社交机器人的源代码,他们发现,涉及特定平台的代码样本数量同该平台API接口的开放程度直接相关,比如,自Telegram于2015年正式推出了支持第三方开发的数据接口后,相关的自动化程序代码数量激增,在他们搜集的样本数据中,有超过一半的代码是为Telegram而写,自2018年以来,推特相关的社交机器人的代码则越来越少,这可能同推特愈发严格的注册程序流程相关。可见,社交机器人同平台本身的技术基础设施和规则密切相关,提供了一个理解平台本身技术特点和运作规则的新切入点。


在经济上,社交机器人的流行同平台注意力经济的崛起密切相关。微博每月例行发布的打击违规涨粉的公告都会提道:“粉丝是社交媒体账号的核心资产,是衡量微博账号价值的重要依据。”其体现的是社交媒介的一个最重要的逻辑,即追求用户数量并通过将用户的活动数据化,获取社会和商业价值。格利茨和赫尔蒙德提出“点赞经济”的概念,探讨平台如何通过“点赞”等界面功能的设计,让用户在不同平台产生的数据彼此流动、交换,形成一种社会的、可追踪的和可售卖的关系,服务于其商业利益。比尔亦提到,从“点赞数”“粉丝数”“评论数”,到几乎不需要用户操作即可将其行为转化为数字化、数据化的“观看数”,都让平台得以迅速将用户行为转化为具有商业价值的数据。同时,通过这些数字形成社交压力,刺激用户交互、产生更多流量。也正是在这样的背景下,社交机器人成为平台注意力经济中的一环。在此前的一项研究中,笔者同合作者通过实验的方法分析照片墙和汤博乐上社交机器人的行为特点,研究的初步结果表明,同样是图像分享类社交媒介,但两个平台上社交机器人的表现差异很大:在照片墙上,社交机器人通过反复发布同一个人的照片等方式模仿人类用户的网络行为;而在汤博乐上,社交机器人则是有节奏地、重复性地发布带有超链接的、吸引眼球的图片,将用户的注意力引导到外部网站。这种区别可能体现了社交机器人的行为模式对应着不同平台的用户文化和商业需求,照片墙的生态趋向上文提到的“点赞经济”,用户主要通过涨粉、涨赞的方式增加个人在社交媒介上的热度,社交机器人只有伪装成真实用户,它们的点赞、互粉才是可以转化为收益的。而汤博乐则更接近传统的“链接经济”,自动社交机器人无须模拟真人的行为,他们的目标是分发内容,为外部网站提高流量和搜索引擎中的排序。可见,分析社交机器人的行为特点有助于理解不同平台的商业模式和用户文化。


在文化上,社交机器人可被视作“自动生成和处理数据的算法机制同人类交往规范之间的接口”,提供了一个理解新的文化形态、观察社会关系如何形成、人类如何互动的机制。如塔伊纳·布赫所言,要理解算法是如何运作的,不一定只能从打开算法的“黑匣子”入手,还可以通过观察算法和人的互动关系,去理解算法的社会影响。她提出“算法想象”的概念,探讨人如何感知、理解和想象算法,以及人对算法的想象又如何再作用于基于机器学习所运作的平台算法本身。尽管以往针对社交机器人的研究中,也曾有邀请人类用户观察社交机器人的做法,但是研究的目的主要是围绕人是否可以识别社交机器人以及识别的准确性和效率,未来研究或可尝试类似的方法,观察不同平台人机交互的方式、机制和影响。


如果回顾十年前学界刚开始关注社交机器人时的讨论,人们或许会惊讶地发现,早期很多学者对于社交机器人的应用前景一度非常乐观。有学者在推特上构建自己的自动化软件社交机器人,观察其对目标用户社交网络结构的作用,他们发现,社交机器人可以有效地影响用户在推特上建立联系的可能性,这意味着社交机器人可以协助拓展用户的社交网络,让他们接触到原本不关心的内容或不会与之互动的其他人,从而推动生成新的社会关系。据此,帝姆·黄等人提出社交机器人或可用于重塑社区,修复社会群体之间的裂痕,弥合现有的社会差距。帝姆·格雷厄姆和罗伯特·阿克兰也认为,批量采用社交机器人或可以打破“过滤泡”,促进群体团结,推动更多人参与公共事务。这同近年学界重点关注社交机器人的负面影响、强调治理社交机器人必要性的态度,大相径庭。指出这一点,并非想讨论究竟应以积极还是悲观的态度看待社交机器人,而是想指出,无论对于其应用前景还是相关研究的开展,都需要更具有想象力的方式。本文提出的转换思路、将社交机器人作为理解平台技术、经济和文化特性的方法正是这样一种希望打破惯有研究思路的初步尝试。未来社交机器人研究应跳脱出识别和治理的框架,摒弃“人—机对立”的预设,超越“去伪存真”,向不同维度的视角和问题敞开。问题不是社交机器人能否通过图灵测试,而是如何同社交机器人形成更有意义的互动。


作者简介:

李梦颖,复旦大学信息与传播研究中心研究员、复旦大学新闻学院青年副研究员 。



原文链接 | https://mp.weixin.qq.com/s/G0S9nJKXLenZfOWiiRzBBg