自新冠疫情暴发以来,我国各地政府部门持续通过多种平台和渠道发布疫情信息和数据。近日,国内绝大部分地区已连续多日无新增新冠确诊病例,境内战疫收官有望。那么,在“疫情数据发布”这道考题上,我国各省、自治区和直辖市的答卷情况如何?下面我们来盘点一下各地的期中答卷。
由复旦大学数字与移动治理实验室和DATAMATE数据工作室联合出品的《我国省级地方政府新冠疫情数据发布研究报告》对我国31个省、自治区、直辖市(不含港澳台地区,以下简称各省份)人民政府的卫生健康委员会在新冠疫情暴发后发布的疫情数据进行了系统的采集、分析和比较,包括其发布内容、发布形式和发布时效等方面,并总结规律,发现问题和提出建议。数据采集时段为从疫情开始到2020年2月10日24时。这一时段基本覆盖了各省份从疫情发生到疫情高峰的时期,是社会公众对疫情数据的需求最大最迫切的时期,也是检验一个地方疫情数据发布水平最关键的时期。
表1 整体分析框架
1.整体发布情况
在全国各省份中,上海、广东于1月20日在全国率先发布疫情数据;其余省份开始发布疫情数据的日期大都在1月21日至1月24日之间(如下图)。除湖北之外,绝大多数省份发布疫情数据的开始日期都基本与出现首个确诊病例的日期同步。在报告观测期内,多数省份的平均每日发布次数分布在1次左右。重庆平均每日发布次数最多(2.9次)。
图1 疫情数据发布起始日期与省份数量
即各省份疫情数据的发布形式。目前,所有省份发布的疫情通报都存在“以文字夹杂数字”的形式。然而,这种形式不够清晰直观,缺乏数据思维,不便于用户理解和分析。19%的省份在文字形式之外,还增加了结构化的表格形式来呈现疫情数据,还有23%的省份采用了可视化图形的形式(如下图)。图2 各省份文字、表格与可视化图形采用情况
2. 疫情统计数据发布情况
目前,各省份公布的各类疫情统计数据基本上覆盖了疫情发展的全周期,包括了一个病患从疑似、确诊(或被排除)、经治疗后病情平稳到出院(或是转为重症、危重或不幸死亡)的各个环节;同时还包括了对确诊病人的密切接触者进行医疗观察,以及确诊(或解除观察)的过程,各个环节之间的顺序和关系如下图所示。图中标注了各项数据在所有省份的整体公布比例(只要某个省份在1月20日到2月10日报告观测期内公布过一次该项数据,即视为曾经公布过)。从图中可见,在报告观测时间内,新增确诊病例、累计确诊病例、重症/危重病例、接受医学观察者数量、出院病例这五项数据所有省份都发布过,比例达到100%;其次是解除医学观察数量、病情平稳病例、死亡病例、累计疑似病例、新增疑似病例等数据,都有超过50%的省份发布过;而排除疑似病例数、重症转为普通型病例这两项数据只在不到30%的省份发布过。
图3 疫情统计数据发布的全面性
下图具体展示了各省份发布的疫情统计数据的全面性。重庆、吉林与山西发布疫情统计数据的全面性最高,覆盖了所有14项主要数据;其次是广西,发布了13项数据。
图4 各省份疫情统计数据发布的全面性
在报告观测期内,没有一个省份连续发布了每项统计数据。有些省份曾发布过某项数据,但之后不再发布,或只是断断续续发布;有些省份则从未发布过某项数据。随着疫情的发展,全国各省份发布的疫情统计数据不断丰富全面,其中累计确诊病例、新增确诊病例、正在接受医学观察者、累计重症/危重病例等数据每日在全国各省份发布的比例最高,而排除疑似病例与重症转普通型病例两项数据的比例最低(如图5)。上海和山东发布各项数据的整体持续性最高,分别为62%和58%。
图5 疫情统计数据在所有省份的每日发布比例
3. 病例个案信息发布情况
公开率是指在各省份已确诊的病例中,有多少比例的病例个案信息已经公布。陕西和西藏公布了所有确诊病例的个案信息,达到100%。
图6 各省份确诊病例个案信息的公开率
精细度是指各省份发布的确诊病例个案信息的精细和具体程度,包括基本信息、行为描述和诊疗情况等方面(见下表)。
图7展示了各省份发布确诊病例个案信息的精细度,颜色越深的方框表示该省份在其发布的确诊病例个案信息中包含了该项内容的比例越高。总体上,在报告观测期内,大部分省份发布的确诊病例个案信息内容很少,从各省份的平均比例来看,发布确诊病例个案的性别和年龄这两项内容的比例相对较高,其次为发布当前状况的比例,而发病期间活动场所的比例最低。在确诊病例个案信息发布内容的精细度上,天津和陕西整体比例最高(分别为52%和50%)。
图7 各省份发布确诊病例个案信息的精细度
天津发布居住区域信息的比例最高,为88.4%;对于更为具体的居住小区或村等信息,仅有吉林发布了超过七成确诊病例的居住小区信息(75.9%)。青海发布了七成病例的重点地区接触史信息和两成以上病例的其他密切接触史信息(70.6%和23.5%),为此项最高。青海和天津在所发布的病例中包含了该病例与其他病例亲属关系信息的比例相对最高(分别为41.2%和36.2%)。吉林发布了近六成确诊病例(59.3%)的交通工具概述和近五成确诊病例(48.1%)的交通工具具体信息,为该项最高。仅有海南、吉林、天津、内蒙古发布过部分确诊病例发病期间的活动场所信息,且发布比例均不足一成。报告发现有少数省份发布了过于详细的、可直接锁定到个人的数据,如病例的私家车车牌号等。还有些省份同时发布了某个患者的姓氏、性别、年龄、居住的街镇和就诊医院等信息,这些数据如分别发布,风险相对可控,但同时发布且可关联到同一个患者时,很容易被用来锁定到患者本人,暴露病人的隐私。
4.网络调查结果
针对“疫情数据应该发布到多细”这一问题,报告进行了初步的网络调查,共收到反馈问卷576份,部分调查结果如下。调查发现如图8所示,公众对于发布基本的病例居住地点信息有很高的需求(选择同意的比例为97%),但当要求发布的数据越来越细,越来越接近病人隐私时,选择反对的比例逐渐增高。如下图,对于是否应该发布病人居住的小区名称和楼号,选择支持的比例降到了64%;而对于是否应该发布病人居住的小区名称、具体楼号和室号时,选择支持的比例则仅为19%。
图8 关于发布病人的居住地点
对于发布交通工具概述类信息,选择支持的比例98%。但当发布的数据越容易泄漏病人隐私时,选择反对的比例逐渐越高。对于是否应该发布病人乘坐过的飞机航班(火车车次)和日期,对于是否应该发布病人乘坐过的飞机航班(火车车次)、日期和座位号,选择支持的比例降到了70%;而对于是否应该发布病人自驾车的车牌号这样的隐私数据,选择支持的比例仅为15%。
图9 关于发布病人乘坐过的交通工具
5.主要结论与建议
在整体发布情况上,各省份在数据发布的时效性、易得性、可读性等方面表现参差不齐。在当地疫情统计数据的发布上,没有一个省份连续发布了每项数据,各省份发布的数据或是不全面,或是不连续。在病例个案信息的发布上,各省份发布的个案数量和信息内容各有差异,没有一个省份发布了所有确诊病例个案的每项信息。
--各省份疫情统计数据的发布水平整体高于病例个案信息的发布水平。--随着时间的推移,各省份发布疫情数据的水平也在不断提升和完善,数据的全面、持续和细致程度逐步提高。--公众对于疫情数据的需求未得到数据供给的充分满足。在各个维度上疫情数据发布水平相对领先的省份的分布情况如图10和表3所示。在图中,某个省份的颜色越深,代表该省份发布水平领先的维度越多,例如吉林、陕西、天津、上海、山东、重庆等省份,都在两到三个维度上相对领先。报告发现,新冠疫情严重的省份都未进入疫情数据发布水平相对领先的名单。一个地方的疫情严重程度与疫情数据发布水平之间是否存在相关关系或因果关系?还有待进一步开展研究。
图10 各维度上数据发布水平相对领先的省份
表3 各维度上数据发布水平相对领先的省份
发布时效:保证及时和持续,以消除社会恐慌情绪,提高公众自我防护意识;发布内容:力求全面和精细,发布一手的、更为原始的数据,比发布统计数据具有更大的信息量和利用潜力;发布标准:保持规范和完整,制定统一数据标准,并配备详细的备注或说明文件;发布形式:便于获得和可读,并进一步提供可机读格式的数据,便于社会进行开发利用;发布底线:兼顾法治和温度,既要充分保障公众的知情权,又要严格保护患者的隐私。
【团队成员】
复旦大学数字与移动治理实验室:
郑磊、吕文增、韩笑、张宏、侯铖铖、张忻璐、刘新萍、周业光、华蕊
DATAMATE数据工作室:
陈瑶、邓婕、王近斐、杜雨萱、赵慧、郑银银、李珍、王家豪