作者:Yipeng Zhang, Hanjia Lyu*, Yubao Liu*, Xiyang Zhang, Yu Wang and Jiebo Luo 发布时间:2020-07-03 来源:arxiv+收藏本文
注:原文“Monitoring Depression Trend on Twitter during the COVID-19 Pandemic”的作者为Yipeng Zhang, Hanjia Lyu*, Yubao Liu*, Xiyang Zhang, Yu Wang and Jiebo Luo,英文原文发布于arxiv上。
已有多项研究向我们解释了新冠疫情对人们的健康以及社会经济的影响 [1,2,3],但我们对于因新冠疫情给人们生活造成巨大改变而带来的精神层面影响,以及在群体范围内如何量化这种精神影响,却知之甚少。全球有近3.8亿人患有精神障碍(mental disorder)[1],精神障碍会导致包括自杀在内的多种负面结果 [4,5],但患有精神障碍的个人有时却不愿意或羞于寻求帮助 [6]。以往的研究往往难以在大样本情况下对于人们的精神状况进行追踪。近几年,学者们将目光转移到了社交媒体,学者们通常是用 n-gram [7],话题模型 [8],一维CNN 以及 BiLSTM 等深度学习模型 [9] 利用推特数据在用户层面识别抑郁症患者,但这些研究的数据样本都少于500。有学者在之后将研究抑郁的数据样本扩充到了1,402,并使用多模型字典学习模型研究抑郁信号 [10]。读者们可以点击“阅读原文”了解更详细的背景介绍以及文献综述。
本文创建了5,150位推特用户的数据集,其中一半为被识别出的有抑郁特征的用户,另一半为控制组。数据集包括了他们在过去三个月内的公开推特文本以及行为数据。本文将这些文本数据切块,每250个单词作为一块,共组成32,420块文本块。本文以 BERT [11],RoBERTa [12],与 XLNET [13] 作为分类模型,逐步增加训练集大小,模型表现随着数据集增大有明显提高,证明了本文数据集大小对于使用推特数据识别抑郁信号的重要性。本文对比了不同模型下,文本块层面以及用户层面文本的分类表现,通过切文本块方法的数据切分表现更优异,证明了本文切块方法的有效性。更进一步地的,本文以深度学习模型为基础,融合了用户性格(personality)、LIWC(Linguistic Inquiry and Word Count)、VADER(Valence Aware Dictionary and sEntiment Reasoner)以及用户人口学特征,设计了正确率更高的分类模型,最终模型的分类正确率为78.9%,F1为79.2%,AUC为86.4%。
图1为深度特征以外的不同特征对于模型分类的重要性(Permutation Feature Importance)。可以看到,尽责性(Conscientiousness)、第一人称(I, me, mine)使用比例、生理相关语言(eat, sleep等)以及权力(power)相关语言学特征(superior, bully等)对分类影响较大。
图1:排列特征重要性
详细的数据收集以及预处理,各模型的表现可点击“阅读原文”查看。为方便论述,以下用DP表示depression group(抑郁组),用ND表示non-depression group(非抑郁组)。
图2为DP以及ND用户在2020年1月1日到2020年5月22日期间的抑郁水平,在图中,本文标记了几个重要的时间节点。1月21日美国本土发现了第一例确诊新冠病毒的患者。3月31日美国发布了National Emergency。4月7日,美国最后一个州(South Carolina)发布居家隔离令。在1月份,DP与ND两组都表现出了抑郁程度的降低,这可能与人们往往在冬季情绪陷入低谷有关[14]。在第一例确诊至发布National Emergency期间,DP与ND的抑郁水平走势略有不同。DP的抑郁水平轻微下降,而ND的抑郁水平却有较为明显的上升。根据先前的心理学研究中,本文猜测造成这一不同可能是因为抑郁症患者更专注于个人感觉和有关个人的事件,从而更少受外界负面事件的影响。抑郁症患者最容易受直接威胁到他们个人的负面事件的影响 [15],与外界更多的互动会带来更多的负面反馈 [16]。随着时间的推移,DP与ND的用户在National Emergency发布后,抑郁水平都有明显的提高。
图2:DP/ND用户抑郁水平
为了更好地理解这种变化趋势,本文使用LDA话题模型提取了以National Emergency发布为分割点的前后两段时间的文本话题,图3为DP和ND两组不同话题的占比。在National Emergency发布前,DP与ND两组人最频繁讨论的两个话题为(1)美国总统Donald Trump,(2)学校与工作。ND的第三最频繁话题有关健康,而DP的第三最频繁话题有关娱乐。这一不同支持了上述两组曲线在National Emergency发布前的不同走势。在National Emergency发布后,DP最频繁讨论的话题是疫情期间的抑郁与焦虑,而这一话题只是ND组的第三频繁话题,也就是说,ND组对抑郁与焦虑的关注不及DP组。另一个发现是,在National Emergency发布后,两组人的话题都与新冠有关。
图3:DP/ND在National Emergency发布前后的话题占比
本文进一步将模型应用于监测美国国家层面以及州层面用户抑郁水平。在州的层面,本文选取了东海岸疫情严重的纽约州,西海岸的加州以及南方旅游胜地佛罗里达。图4 为三州以及美国整体层面用户在3月3日至5月22日期间的抑郁水平。通过观察发现,在这段时间内,三个州以及美国整体的抑郁水平走势非常相似,在National Emergency发布前抑郁水平有一小段下降,在之后稳步上升。佛罗里达的抑郁水平比美国整体以及其他两州都要低。
图4:纽约州、加州、佛罗里达及美国整体抑郁水平
进一步,本文同样对上述三州以及美国整体的文本进行了话题提取。图5为三州及美国整体各话题占比。最频繁的话题为有关政府处理疫情的政策,加州和佛罗里达对于这个话题的关注程度比美国整体以及纽约州更高。佛罗里达同时更关注疫情期间的生活变化。另一个发现是,纽约州对于医院新闻的关注,可能是因为截至5月22日,纽约州有最多的确诊案例。
图5:纽约州、加州、佛罗里达及美国整体各话题占比
参考文献
[1] Nuno Fernandes. 2020. Economic effects of coronavirus outbreak (covid-19) on the world economy. Available at SSRN 3557504.
[2] Scott R Baker, Nicholas Bloom, Steven J Davis, and Stephen J Terry. 2020. Covid-induced economic uncertainty. Technical report, National Bureau of Economic Research.
[3] Maria Nicola, Zaid Alsafi, Catrin Sohrabi, Ahmed Kerwan, Ahmed Al-Jabir, Christos Iosifidis, Maliha Agha, and Riaz Agha. 2020. The socio-economic implications of the coronavirus and covid-19 pandemic: A review. International Journal of Surgery.
[4] Hazel Inskip, Clare Harris, and Brian Barraclough. 1998. Lifetime risk of suicide for affective disorder, alcoholism and schizophrenia. The British Journal of Psychiatry, 172(1):35–37.
[5] Lay San Too, Matthew J Spittal, Lyndal Bugeja, Lennart Reifels, Peter Butterworth, and Jane Pirkis. 2019. The association between mental disorders and suicide: A systematic review and meta-analysis of record linkage studies. Journal of affective disorders.
[6] Eisho Yoshikawa, Toshiatsu Taniguchi, Nanako Nakamura-Taira, Shin Ishiguro, and Hiromichi Matsumura. 2017. Factors associated with unwillingness to seek professional help for depression: a webbased survey. BMC research notes, 10(1):673.
[7] Glen Coppersmith, Mark Dredze, and Craig Harman. 2014. Quantifying mental health signals in twitter. In Proceedings of the workshop on computational linguistics and clinical psychology: From linguistic signal to clinical reality, pages 51–60.
[8] William Armstrong. 2018. Using topic models to investigate depression on social media. Technical report, Technical report, University of Maryland, USA, 2015. Scholarly paper.
[9]Ahmed Husseini Orabi, Prasadith Buddhitha, Mahmoud Husseini Orabi, and Diana Inkpen. 2018. Deep learning for depression detection of twitter users. In Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic, pages 88–97.
[10] Guangyao Shen, Jia Jia, Liqiang Nie, Fuli Feng, Cunjun Zhang, Tianrui Hu, Tat-Seng Chua, and Wenwu Zhu. 2017. Depression detection via harvesting social media: A multimodal dictionary learning solution. In IJCAI, pages 3838–3844.
[11] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
[12] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. 2019. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.
[13] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov, and Quoc V Le. 2019. Xlnet: Generalized autoregressive pretraining for language understanding. In Advances in neural information processing systems, pages 5754–5764.
[14] Chris Thompson, Deborah Stinson, Margaret Fernandez, Jeffrey Fine, and Geoffrey Isaacs. 1988. A comparison of normal, bipolar and seasonal affective disorder subjects using the seasonal pattern assessment questionnaire. Journal of Affective Disorders, 14(3):257–264.
[15] Li Yue, Zhang Dajun, Liang Yinghao, and Hu Tianqiang. 2016. Meta-analysis of the relationship between life events and depression in adolescents. Journal of Pediatric Care, 2(1):1–13.
[16] E Samuel Winer and Taban Salem. 2016. Reward devaluation: Dot-probe meta-analytic evidence of avoidance of positive information in depressed persons. Psychological bulletin, 142(1):18.