青年观察 | “中国病毒” or “新冠病毒”?两种词的使用人群有何差别?

作者:Hanjia Lyu等 发布时间:2020-04-15 来源:复旦发展研究院+收藏本文

此篇青年观察的作者为罗切斯特大学Goergen数据科学中心的复旦校友Hanjia Lyu及其团队成员。根据GDELT数据,全球线上媒体报道范围内,提到“中国流感“一词的新闻报道量从1月18日开始上升。世界卫生组织WHO的官方标准名词是COVID-9。同时,与COVID-19有关的种族袭击事件的报道量也在增加。随着新冠病毒全球大流行的进行,新冠病毒也成为了社交平台上各用户讨论的热点。当这些用户在提到COVID-19的时候,主要有两种提法,一种是使用有争议的词汇,称其为“中国病毒”(Chinese Virus)或者“武汉病毒”(Wuhan Virus),另一种是使用无争议的词汇,即“新冠病毒”(Coronavirus)。团队成员使用Tweepy API抓取了一千七百万条推特及他们的作者信息,试图研究选择这两种用词的人群在年龄、性别,用户层面特征(如粉丝数量、是否为大V用户),政治追随(在推特上粉了哪些重要的两党人物),以及他们的地理位置上的区别。在研究中,团队还设计了分类器以预测哪些推特用户更倾向于使用具有争议性的词汇(如“中国病毒”)。

原文“Sense and sensibility: characterizing social media users regarding the use of controversial terms for COVID-19”的作者为:Hanjia Lyu, Long Chen, Yu Wang, and Jiebo Luo,英文全文已发布在arxiv上,读者可以点击“阅读原文“查看详细内容和数据


截至4月13日,COVID-19已经影响到了213个国家或地区的共1,773,084例确诊病例,死亡111,652例,不可避免地对全球经济产生影响。[1]McKibbin与Fernando测算了7种情形下的全球GDP损失,损失范围在2,830亿美元至91,700亿美元[1]。然而这种影响不仅体现在经济方面,当COVID-19最早在中国大陆传播的时候,Lin发现了存在于亚洲社会的歧视现象[2]。随着COVID-19的发展,全球新闻报道中提到“中国流感“一词的报道量在1月18日迅速上升,与之同时发生的还有与COVID-19有关的种族袭击报道。图1是全球有关”中国流感“以及COVID-19相关的种族袭击新闻报道的体量时间线。[2] 与COVID-19有关的种族袭击事件的新闻报道量仍在不断上升。Zheng et al. 发现部分媒体将COVID-19与“中国病毒”直接挂钩的报道对在全球范围内旅行的中国人精神健康造成了负面影响[3]。除此之外,社交平台上“中国病毒”或“中国流感”的使用量也在增加。3月16日,美国总统Donald Trump使用其推特账户明确将COVID-19称作“中国病毒”。[3]尽管他在之后声称这种用法并没有种族含义[4],但针对Asian-American的种族主义与歧视仍在美国社会蔓延。[5]



图1:“中国流感”与COVID-19相关种族袭击新闻报道密度


Matamoros-Fernandez曾提出“平台种族主义”(platformed racism)的概念,如推特这样的社交平台其实是种族主义的放大器[4]。使用有争议性的词汇指向COVID-19的时候可能是在发布仇恨言论,仇恨言论反映存在于社会内的矛盾[5]。在社交平台上,仇恨言论的传播极度迅速,甚至可以跨平台,并且留存较长的时间。即便事后被有意识删除,仍旧可以在互联网的其他地方甚至线下找到痕迹[6]。对政府而言,可以通过指定针对性的政策缓和这种社会矛盾,用于社会治理。对社交平台而言,可以将类似的仇恨言论在其造成更恶劣的影响前保持在可控范围内。对个人用户而言,他们可以接触到更全面的信息,从而有效地进行社交认知(social sensing)。如对此感兴趣,读者们可以点击“阅读原文”查阅更详细的Literature review部分。


本文聚焦于分析使用争议词汇“中国病毒”或无争议词汇“新冠病毒”的人群在年龄、性别、用户层面特征(如粉丝数量、是否为大V用户)、政治追随(在推特上粉了哪些重要的两党人物),以及他们的地理位置上的区别。为了找到这样的用户,本文以“中国病毒”和“新冠病毒”为关键词,抓取使用了这两类词汇的推特及他们的作者,将推特里有“中国病毒”的划分为争议组(CD, Controversial Datasets,后文都用CD指代),将推特里有“新冠病毒”的划分为无争议组(ND, Non-Controversial Datasets,后文都用ND指代)。这里需要特别指出的是,在原文里使用“中国病毒”的推特,不一定代表这位作者真的同意这种用法,比方说以下这条推特:


我认为我们不应该使用“中国病毒来指代COVID-19。


不过本文认为这样的推特占总相关的推特量很小的一部分,因此仍旧维持上述的分组方式。换句话说:本文假设,使用“中国病毒”的用户是赞同这种争议性词汇所表达的含义的,使用“新冠病毒”的用户是不赞同或至少避免使用争议性词汇所表达的含义的。还有一种可能的情况是,同一个用户既使用了“中国病毒”,也使用了“新冠病毒”,经过预处理,本文发现这样的用户占比为8.19%,相对较小,因此在CD与ND组里仍旧同时保留这部分用户。另外,由于Tweepy API本身并不提供推特用户的年龄及性别信息,因此本文使用Face++读取该用户的社交平台头像,进而识别其年龄及性别。详细的数据收集和预处理过程可以查看英文原文。数据经过清洗整合后,最终,CD组里有593,233位不同的推特用户,ND组里有490,168位不同的推特用户,以下是本文的发现。




年轻人更倾向于使用无争议词汇


图2是两组人的年龄分布,在两组内,25-34岁是用户数量最多的一个年龄段,这也与全体推特用户的年龄分布保持一致。[6]然而两个组的各年龄段占比却显著不同(p<0.0001)。ND组的用户普遍更年轻,21%的用户都集中在18-24岁,而CD组里这一年龄段的用户只占16.5%。45岁以上的用户更可能使用具有争议性的词汇。



图2:CD与ND用户年龄分布




无争议组里的女性用户占比相对争议组里的女性用户占比更高


图3是两组用户的性别分布,可以看出男性用户占比都较高,也符合推特全体用户的性别分布特征。截至2020年1月,全体推特用户里,62%都为男性,38%为女性。[7] 值得注意的是,CD组的性别分布与全体推特用户的性别分布差别很小,但从ND组的性别分布中可以明显观察到性别分布的不同。CD与ND组在性别分布上显著不同(p<0.0001)。



图3:CD与ND用户性别分布




社会资本更高的用户倾向于使用无争议词汇


这一章节,我们比较了粉丝数(#followers)、好友数(#friends)、状态数(#statuses)、点赞数(#favourites)、小组数(#listed_membership)这5个用户特征。图4是以上5个特征的取完对数后的密度分布图。需要特别指出的是,本文使用用户成立的月份数来标准化上述5个特征(削弱注册时间长导致粉丝数等数量更多的影响)。



图5:Log Scale粉丝数、好友数、状态数、点赞数、小组数密度分布


通过比较,我们发现ND组的用户社会资本更高,也就是说他们拥有更多的粉丝,更多的好友,发布更多状态,给别人点赞更多,参与的公共小组数量更多(p<0.0001)。拥有更多的粉丝与好友,意味着该用户有着更多的观众,更多的点赞与状态数意味着他们使用推特更加活跃。对于这一点观察原因的推测是,由于这些用户有更多的观众,所以会在发布内容上更加谨慎。有发现证明,推特用户认为自己的状态(哪怕不是自己原创的)是自己的“财产”,所以在发布状态时会格外谨慎,在好友之间分享时则更会小心[7]。




使用争议词汇的用户,他们更“新”(账号注册至今时间更短)


本文发现,ND组里的用户账号成立时间中位数为74个月,CD组里的用户账号成立时间中位数为63个月,差距几乎是一年。这一发现与“发布仇恨言论的用户账号成立时间更短”相似[8],然而使用争议性词汇并不等同于发布仇恨言论。本文推测,时间更短意味着使用推特的经验更少,暗示他们对于发布内容的把握会更不谨慎。




无争议组里大V用户更多


特别需要指出的是,“大V”不是推特本来的叫法,推特上使用“Verified”来标记那部分用户,通常来说他们的影响力更大[8],与微博中的大V意思非常相似,因此本文用“大V”来指代verified用户,目的是希望更容易让读者理解,详细定义可以参考前一脚注的链接。根据最新的数据报告,在全体推特用户中,只有0.05%的大V用户[9],然而在CD与ND组里大V用户的占比都更高,分别是0.6%与2%,大V用户的占比显著不同(p<0.0001)。现有的研究显示,由大V用户所发布的推特可信度更高[9]。结合这一发现,本文推测,因为自己所发布的内容会被认为更加可信,影响力更大,所以当大V用户在发布内容时就会更加的谨慎,选择合适的用词。




Trump的粉丝更喜欢用争议词汇,民主党人粉丝更喜欢用无争议词汇


图6是CD与ND组在推特上关注政党人士的分布图。本文选取的政党人士,或是现在正在,或是曾经参加2020总统竞选,包括5位民主党候选人(Joe Biden, Michael Bloomberg, Bernie Sanders, Elizabeth Warren, Pete Buttigieg)与现任总统(Donald Trump)。CD与ND中,一位都不关注的占比最高,CD组中有63.4%,ND组中有70.6%。值得注意的是,21.6%的CD用户是Donald Trump的粉丝,而那一占比在ND中只有10.7%。另外,关注民主党候选人的占比,CD也普遍比ND更低。两组人的政治following倾向显著不同(p<0.0001)。



图6:Political Following Status.




争议组与无争议组比较,住在城市(urban)的用户更少,住在郊区(suburban)或乡村(rural)的用户更多


本文通过清洗推特用户在发布状态时显示的地理位置(注:并不是所有用户都会显示位置),将其精确至zipcode水平发现,虽然CD与ND组里城市用户都是最多的,但两者的占比仍旧显著不同(p<0.0001)。ND组里62.48%的用户为城市用户,住在郊区或着乡村的仅为15.58%与21.94%,而在CD组里只有56.14%的用户为城市用户,郊区或乡村用户的占比更高,分别为17.48%与26.38%。




本文进一步地设计几种常见分类器用以预测CD组用户。具体的模型设置、train、develpement、test dataset的划分与详细的precision、recall等分数可以点击“阅读原文”。在所有模型中,本文获得的最高AUC值为0.874。


在之后的研究中,本文作者将关注这两组用户所发布的推特文字内容,以期获得更深入的理解。


作者后记:

在这篇文章之前,复旦发展研究院公众号已经有了相当多的观察文章和海外日记详细介绍了关于美国疫情的诸多有效信息,我们觉得自己总结得也不会有各位前辈那么好,就给大家推荐一个有趣实用的网站,在美国的各位同学可以使用该网站查看自己所处区域social distancing的实行情况如何。https://www.unacast.com/post/unacast-updates-social-distancing-scoreboard,可以精确到county(郡)。也欢迎各位向我们提出宝贵的建议和意见,邮箱:hlyu5@ur.rochester.edu。

参考文献

[1] W. McKibbin and R. Fernando, “The Global Macroeconomic Impacts of COVID-19: Seven Scenarios, March 2, 2020. CAMA Working Paper No. 19/2020.


[2] C. Lin, “Social reaction toward the 2019 novel coronavirus (COVID-19). Soc Health Behavior, 3:1-2, 2020.


[3] Y. Zheng, E. Goh, and J. Wen, ``The effects of misleading media reports about COVID-19 on Chinese tourists’ mental health: a perspective article. Anatolia, 1-4, 2020.


[4] A. Matamoros-Fernández, ``Platformed racism: The mediation and circulation of an Australian race-based controversy on Twitter, Facebook and YouTube. Information, Communication & Society, 20(6), 930-946, 2017.


[5] Z. Waseem and D. Hovy, ``Hateful symbols or hateful people? predictive features for hate speech detection on twitter. In Proceedings of the NAACL student research workshop pp. 88-93, 2016.


[6] I. Gagliardone, D. Gal, T. Alves, and G. Martinez, ``Countering online hate speech. Unesco Publishing, 2015.


[7] Marshall, C. C., & Shipman, F. M. (2011, May). Social media ownership: using twitter as a window onto current attitudes and beliefs. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (pp. 1081-1090).


[8] M. H. Ribeiro, P. H. Calais, Y. A. Santos, V. A. Almeida, and Jr, W. Meira, ``Characterizing and detecting hateful users on twitter. In Twelfth international AAAI conference on web and social media, 2018.


[9] A. Gupta, A. Joshi, and P. Kumaraguru, ``Identifying and characterizing user communities on twitter during crisis events. In Proceedings of the 2012 workshop on Data-driven user behavioral modelling and mining from social media, pp. 23-26, 2012.