FeaturedNewsPharmaPQE

未来出现新的流行病的可能性有多大?基于概率统计的大数据分析可防止未来流行病的发生和蔓延

by PQE集团Infodemic调查组

话题:

数学模型/大数据分析

研究员:

Francesca de Cecco,资深顾问

Giovanni Orlando,资深顾问

摘要

在由Sars-Cov-2几乎无法阻止的传播所引起的巨大影响之后,全世界研究机构和政府所讨论的最常出现的话题之一已成为如何再次阻止此类事件发生。本文的目的是从不同的角度来解决这个问题,通过了解导致当前情况的根本原因,来了解将来发生新的大流行的可能性。

根据现在一般判断,(病毒)由哺乳动物身上而来,后成为人畜共患,我们可以分析物种间病原体传播所经的地理位置。为确定未来大流行的可能性,将主要对流动性进行分析。

特别是,分析的目的是根据人类活动网络和流感样病毒的全球扩散来预测将来可能发生的情况。

引言

高度传染性动物传染病的爆发,例如猪瘟,禽流感和新冠病毒,对公共卫生产生了严重影响,并产生了社会经济后果。对促进病毒传播因素的重新认识对于将来有效控制疫情至关重要。

导致近期流行的大多数人类传染病是人畜共患病,起源于野生哺乳动物。因此,对野生生物病毒多样性模式的理解以及跨物种传播(或称为外溢)的充分研究是大流行监测的目标。Olival [1]等人提出了一项研究,其中有一个模型,旨在预测世界上哪个地方以及哪个宿主物种最可能引发人畜共患病传播。作者的结果显示了南美和中美,非洲和东南亚(取决于所分析的物种和总的哺乳动物丰富度)。基于此结论,本论文的目的是建议对新病原体感染的空间分布进行分析,以推导出地理风险图。

引起大流行的病原体的传播尤其受到人类流动性的驱动,因此,为了确定流行病的时空动态,人们继续分析人口流动的方式。有一种称为“全球流行病和流动”(GLEaM)的模型,该模型以随机方式整合了人口分析和人口流动数据,以模拟流行病在全球范围内的传播[2].。Balcan等人的研究成果更加表明,鉴于在当地爆发新的流感样病毒有一系列的初始条件,每个国家流行病到来的时间表以及由此导致的感染高峰主要受到世界各地区人员流动网络的影响。

在全球范围内,搭乘飞机的国际旅客的出行似乎是病原体[3] 传播和控制全球大流行的最相关因素。欧洲各国家的传播链,由Merler [4]等人使用的大流行传播的模拟模型,可以确定从外国输入第一例病例更可能发生在人口稠密度高、流动性高的地区,例如欧洲西部。

这些计算方法可以与简化的理论框架进行结合(在一些理论框架中,病毒丰富性高的地区与人口流动性进行比较,以评估输入第一例病例可能性更高的地区,并提出可能的流行病方案。

数据评估

Olival [1]等人考量了众多野生哺乳动物人畜共患病毒分布丰富的区域,目的是评估病毒外溢可能性的风险图。他们研究报告的结果之一如图2所示:病毒丰富度最高的地区在图中以荧光标示。中美、南美、中非和东南亚是该模型所锁定的区域,在这些区域中,病毒丰富度较高,更容易发生病毒从动物身上外溢到人类身上的情况。

图 1: 哺乳动物物种丰富度 (来源: [1])

图 2: 对哺乳动物病毒监测欠发达地区 (来源: [1])

根据这些图像,很明显,上述地区可被视为下一场流行病的潜在高发区。因此,我们的目标是将这些结果与可掌握的交通数据交叉分析,以便对可能爆发的新疫情进行预测。该分析的结果可被用作避免病毒失控传播的之路图。

航空公司的运输网减少了世界上人口最稠密地区之间的旅行时间,从而缩小了地理空间,也奠定了突发疾病传播的主要渠道 [5]。GLEaM [2] 模型(一种大数据分析模型,用来预测某假定流行病行为的演变,并分析爆发地区分布特点)就考虑了这些人口流动因素。

Liu等人 [6] 表示GLEaM模型“即使可用的历史数据有限,该模型仍然在预测COVID-19活动情况方面相对可靠。”

因此,我们通过模拟器施用上述模型。从Olival 等人的结果开始,我们进行了简单的考量,评估了未来发生新流行病最可能的起始地点。在SARS-CoV-2引起的严重事件后,以东南亚为缘起的传播路径已被评估研判,又因中非与世界各地的人流联动较少,我们决定考虑把未来新疫情可能的起始点设在南美洲。从模拟器中抽取的以下框架显示了该疫情(指未来可能爆发的新大流行)可能的传播进展情况。

图 3: GLEAM 模拟器: 流行病传播轨迹, 第一帧

图4: GLEAM 模拟器: 流行病传播轨迹, 第二帧

图 5: GLEAM 模拟器: 流行病传播轨迹, 第三帧

从模拟结果可以看出,流行病扩散的演变应该遵循人口流动图,先是传播到了北美,然后传播到了欧洲。

根据前文提到的影响因子,未来新疫情的全球分布将会首先冲击通航密集的地区。

图6:航班和接驳图

此外,为加强人口流动模型对流行病传播的适用性,在新冠病毒传播路径图中,也有类似的规律:最初的病例首先在中国被发现,继而在欧洲和北美。非洲和南美由于往来中国的航班比例较小,因此传播后滞。

结论

分析的结果不可避免地使我们考虑两类风险:

  • 首先,直接风险,与病毒外溢的可能性相关,主要影响还处于城镇化进程中的(欠发达)地区
  • 第二种风险,非直接风险,与流动性和联动性相关,可以由GLEaM模型来近似估算

在此结论的基础上,以降低上述风险,有必要采取不同类型的缓解措施。为了减少直接传染,可以通过监测手段来进行前瞻性地思考,以从根本源头上控制病毒的外溢效应。具体来说,可以在城镇化欠发达地区加强对食品流通和动物养殖场的控制。

就所谓的间接风险而言,应该可以运用GLEaM之类的数学模型来预判流行病传播的可能路径,并通过阻止人口流动来避免失控传播。本文提出的分析方法旨在为降低未来大流行严重性提供一种可能性的分析工具。

专业词汇表

参考:

[1] Olival K. J. , Hosseini P. R., Zambrana-Torrelio C., Ross N., Bogich T. L., Daszak P., Host and viral traits predict zoonotic spillover from mammals, Nature Vol. 546 no 7660, pp 646-650, 29 (2017)

[2] Balcan D., Gonçalves B., Hu H., Ramasco J. J., Colizza V., Vespignani A., Modeling the spatial spread of infectious disease: the Global Epidemic and Mobility computational model, Journal of Computational Science. Vol 1, no 3, pp 132-145 (2010)

[3] Apolloni A., Poletto C., Colizza V., Age-specific contacts and travel patterns in the spatial spread of 2009 H1N1 influenza pandemic, BMC Infectious Disease 13:176 (2013)

[4] Merler S. & Ajelli M., The role of population heterogeneity and human mobility in the spread of pandemic influenza, Proceedings of the Royal Society B 277, 557-565 (2010)

[5] Colizza V., Barrat A., Barthelemy M., Vespignani A., “The Modeling of Global Epidemics: Stochastic Dynamics and Predictability”, Bulletin of Mathematical Biology, 68: 1893–1921 (2006)

[6] Liu D., Clemente L., Poirier C., Ding X., Chinazzi M., Davis J. T., Vespignani A., Santillana M. “A machine learning methodology for real-time forecasting of the 2019-2020 COVID-19 outbreak using Internet searches, news alerts, and estimates from mechanistic models” arXiv preprint arXiv:2004.04019, 2020