新型冠状病毒肺炎疫情预测建模、数据融合与防控策略分析

来源：公共卫生突发事件咨询服务与研究中心作者：发布时间：2020-03-05 查看次数：5389

唐三一，肖燕妮，彭志行，沈洪兵

摘　要

自2019年12月以来，武汉爆发的COVID-19疫情由于春节人口流动快速蔓延，自2020年1月23日起全国大范围实施围堵缓疫策略，并不断提高检测和检出率，有效地抑制了疫情快速蔓延的趋势。在COVID-19爆发的早期，如何利用数学模型并结合少量和实时更新的多源数据，对疫情进行风险分析，评估防控策略的有效性和时效性等具有非常重要的现实意义。本研究将结合前期研究基础，系统介绍如何依据疫情发展的不同阶段和数据的完善，逐步建立符合我国防控策略的COVID-19传播动力学模型，给出模型由自治到非自治，风险评估指标由基本再生数到有效再生数，疫情发展与评估由早期的SEIHR传播动力学决定到最终取决于隔离人群和疑似人群规模的演变等的重要研究思路。

【关键词】新型冠状病毒肺炎；动力学模型；基本再生数

引　言

自进入21世纪，中国相继暴发了包括2003年的非典型肺炎（SARS）、2009年的甲型流感（H1N1）、2013年的禽流感（H7N9）和2019年COVID-19等在内的恶性传染性疾病^[1-2]，相继给国家造成了巨大损失。比如SARS在全球导致了超过8 000人感染，超过900人死亡。而在2019年底暴发的COVID-19疫情，由武汉首发并快速向全国蔓延，截至2020年2月10日24时，我国累计报告42078例感染，死亡1017例^[3-4]。

突发性传染病的共同特点是突发性和无有效的治疗方法，因此，在其爆发的初期，基于数学模型和少量实时更新的数据，分析其传播能力和传播风险^[5-7]，给出包括基本再生数（R₀）等在内的关键技术指标，有利于疾病预防控制部门快速了解其传播力，从而采取相应的防控措施。而随着疫情的发展和控制措施的加强，针对疫情的复杂演化和围堵缓疫策略的有效性、时效性以及影响疫情严重程度的关键防控因子的甄别进行系统研究，则可为决策部门提供重要的决策依据。同时基于模型，采用敏感性和不确定性分析，评估复工、复学、局部集聚性爆发等事件对疫情防控成功的影响^[8-9]，都具有非常重要的意义。

因此，根据COVID-19疫情爆发早期、封城策略的实施、治疗检测与检出率的不断提高，以及密切跟踪隔离和疑似病例这两类人群规模的不断攀升的事实，通过发展模型和依据实时更新的数据，结合前期的研究工作基础，本研究重点介绍如何建立数学模型分阶段分析COVID-19疫情传播的风险、评估不断加强防控策略措施的有效性。

一、具多防控策略的COVID-19疫情传播模型

COVID-19疫情爆发以来，湖北省卫生健康委员会和国家卫生健康委员会及时通报了疫情数据，主要包括累积报告病例、累计治愈病例、累积死亡病例、跟踪隔离人数、疑似病例人数等，同时多个省份还报告了输入病例、本地病例等详细数据。上述详尽数据为建立数据驱动的COVID-19传播模型奠定了基础，因此，研究期间依据COVID-19传播的机制以及我国采取的防控策略，给出了如下具多防控策略的一般性COVID-19疫情传播模型示意图（图1）。依据具有密切跟踪隔离策略建立传染病动力学模型的基本思路，根据图1可得如下数学模型：

注：融合多源数据、构建模型、实现预测、预警和风险分析及决策评估

图 1 基于COVID-19传播机制、防控策略的模型构建示意图

模型（1）是适合COVID-19传播和我国追踪隔离等防控特点的数学模型。在该模型中，自然传播过程的人群分为易感者类（S）、潜伏者类（E）、感染者类（I）、疑似病例类（B）、住院者类（H）和恢复者类（R）。由于密切跟踪隔离措施的实施，与感染者密切接触的人群分为隔离的易感者类（Sq）和潜伏者类（Eq）。通过感染者密切接触追踪，假设q比率的接触者被隔离，其中被隔离的个体若被感染，则该个体隔离在Eq仓室，否则隔离在Sq仓室。若比率为1－q的接触者在追踪中被遗漏，一旦被有效感染则移动到E仓室，否则仍然留在仓室S中。设每次接触时传播概率为β，接触数为c。被隔离的个体中，如果被感染（或未感染），则以βcq［或（1－β）cq］的速率移动到仓室Eq（或Sq）。若未被隔离且被感染，则以βc（1－q）的速率转移到仓室E。感染者个体被确诊的速率为 δI，并以γH的速率恢复到仓室R。如果考虑由于发热门诊有人进入到疑似病例仓室的实际情况，模型中统一记成仓室B。函数PE（t），PI（t），PB（t）和 PH（t）分别表示输入到潜伏类、感染类、疑似类和确诊类的病例数，可由泊松分布刻画。模型其他参数和意义见表1。

在COVID-19疫情传播的早期（即2020年1月23日前），相应的防控措施比较弱，这样模型（1）中的3个与防控策略密切相关的3个函数接触数c（t），隔离率q（t）和确诊率δI（t）都为常数，此时模型（1）为一个自治系统，由系统参数确定的传播阈值为R0。为了刻画不断加强的防控、确诊和检出率等，上述3个参数应该是基于时间的单调递减或递增函数。为了方便大家理解，简单介绍如下。随着追踪隔离措施的加强，假设接触数是一个关于时间的递减函数c（t），可以定义如下：

其中的阈值时间t_c为1月23日，其他参数意义参考表1.类似地，定义隔离率为时间递增的函数q(t)，即有

同样假设确诊率 δI（t）是一个关于时间增加的函数，那么确诊周期 1/δI（t）即为时间递减的函数，记为

基于上述假设，模型（1）的有效再生数可以定义为

当相应的率函数为常数时，上式定义了R_0。

二、COVID-19疫情的风险和防控决策分析

自2019年12月以来， COVID-19在武汉爆发，直到2020年1月24日凌晨以前，相应的防控措施较少，累计报告确诊病例数基本按照疾病传播的自然状态演化，即指数增长模式。在这种条件下利用常系数的SEIR或SEIHR模型，就能较好的刻画和预测COVID-19疫情的动态变化，即模型（1）中的隔离率q很小或为零且无输入病例。文献［9］利用2020年1月10日至1月22日24时之间的累积报告病例数，采用最小二乘法和MCMC方法，估计模型未知参数。基于公式（2）给出的计算公式得到COVID-19传播早期的R0为6.47（95%CI：5.71～7.23），同时利用似然函数法（用新报告病例数）并采用极大似然估计，取续代时间为6时加以验证，得到了基本一致的再生数。依据确定的参数，对未来一周的疫情做了较准确的预测：截至1月29日24时模型预测报告病例数为7 723例（实际全国报告病例数为7 711例）^［9］。

R0＝6.47是一个很大的一个值，相比2003年SARS的R0＝3.6，说明了COVID-19的传播能力远大于SARS，也说明了疫情发展的紧急性和严重性。本研究的估计值比包括WHO在内的组织或团队公布的R0＝2.2要高出很多，但本研究基于动力学模型和统计方法相互验证得到了几乎相同的数值，是具有一定的可信度。2月7日WHO通过分析中国约1.7万例患者数据后指出：COVID-19的传染性远高于SARS。近期基于大样本分析，有关工作相继报道了R0＝3.7和5.5，与本研究前期结果近似，说明本研究的结果具有较强的可信性和时效性。

自2020年1月23日起武汉市开始实施封城策略，各地也相继采取了出行限制策略。由此可见，当第二节给出的3个率函数为常数时的自治模型，不能很好地刻画自2020年1月23日凌晨后实施的不断加强的封城、密切跟踪隔离、疑似病例的检测率、筛查率等措施。因此我们及时发展文献^［9］中的模型，在图1中除了没有考虑由于发热门诊发现的疑似病例外，得到了能够刻画防控措施不断加强的非自治模型，通过参数估计得到模型的有效再生数，发现在我国采取围堵缓疫策略后，有效再生数随着防控措施的加强逐渐减小，即新发感染数开始逐渐下降。严控措施实施一周左右的时间后，有效再生数可能已经降到1以下，这充分揭示了在我国实施的封城、密切跟踪隔离措施的有效性，为政府决策提供了重要的决策依据。在不同条件下得到报告病例数将在2月4－8日左右达到峰值。同时该模型可以用来评估从2月8日开始复工复学的人员流动规模对疫情的影响，并能分析疫情再度爆发的风险。研究结果表明：在维持1月23日以来的防控措施下，每日100万～200万的人口流动是风险较低的，但是更多的人口流动比如≥300万就极有可能导致二次爆发。当然非疫区的人员流动规模适当扩大，二次爆发的风险也是比较低的。上述风险分析部分结果为相关决策机构提供了重要的决策依据。

截至2月11日24时全国密切跟踪隔离累积人数超过45万，其中累积疑似病例超过7万，且与普通发热门诊病例交叉混合，对疫情未来的发展动态预测带来很大挑战。同时依据有关专家报告，得知每日报告确诊病例数很大比例来源于跟踪隔离和疑似人群，这说明我国当前COVID-19疫情的最终走向与这两个群体的大小有关，而且依赖针对这两个群体的检测率、检出比例等关键因子。由此可见，我国COVID-19的传播已经超出经典SEIR/SEIHR动力学模型的范畴，需要发展符合国情的防控策略的全新模型。

因此，研究过程中及时调整研究思路，创新性地提出了适合我国当前防控特点的COVID-19传播疫情模型，如同时考虑密切跟踪隔离的疑似病例和发热门诊发现的疑似病例（B）。该仓室就像一个黑匣子，包含了很多重要的信息却又很难明显区别开来，但却能很好地刻画检测强度和检出率对整个疫情的影响。该模型的提出，使得本研究的模型能够利用累积报告病例、累积死亡病例、累积跟踪隔离人数（不含疑似病例）、累积疑似病例等4列数据进行模型拟合和参数估计，并能实现多源数据之间的交叉验证，保证模型参数估计和预测的准确性。

研究结果显示，累积跟踪隔离人数和累积疑似病例这两个群体规模的稳定是我国COVID-19疫情峰值到来的前提。敏感性和不确定分析都显示累积跟踪隔离人数、累积疑似病例数群体规模基本趋于稳定，意味着峰值即将到来，累积报告病例数增幅减缓。为了分析疫情数据的随机性、不确定性等因素对未来疫情的影响，本研究采用泊松随机数生成方法，重新得到1 000组上述列举的4列数据，通过1 000次的模型拟合和参数估计，得到了相应的均值和95%CI。结果显示，未来疫情发展中累积疑似病例和累积报告死亡病例规模不确定性相对较大，受随机性影响较强。注意到只有累积死亡病例数的预测曲线完全落在不确定性分析的95%CI上限的偏中间位置，因此关注重症病例提高治愈率，谨防复工复学等返程集聚性爆发的随机发生对疫情带来的冲击应该得到高度关注。为了进一步确定防控策略的有效性，特别是对完整数据区间内有效再生数的影响，我们采用相应的统计方法，得到的有效再生数估计值及其相应的95%CI（图2）。该结果再一次验证了严控措施实施一段时间后，有效再生数已经＜1，及新发感染已经得到了有效控制，目前去库存和防治二次爆发成了疫情防控的重中之重。

图2 从2019年12月9日到2020年2月10日之间的有效再生数估计值及其相应的95%CI

三、讨论与建议

依据图1给出的带有追踪隔离等防控措施的COVID-19传播示意图，本研究通过在前期研究中分阶段构建并发展相应的数学模型，对不同阶段的疫情以及防控策略的有效性进行了系统深入的研究，得到了很多有价值的研究结果。比如敏感性和不确定性分析等得到防疫后期应该关注重症病例并提高治愈率，谨防复工复学等返程集聚性爆发的随机事件对疫情防控带来新的冲击等，因此在当下国家不断加强隔离、检测和检出率的同时，大众持续的、严格地做好自我隔离和保护是最佳的策略。模型（1）具有一定的普适性，根据COVID-19的疫情和我国采用不同防控措施的时间节点，在COVID-19疫情发展的不同阶段如何使用该模型框架将成为讨论的重点。

首先，疫情的第一个阶段，既2020年1月23日前，由于封城、密切跟踪隔离措施没有实施，则模型（1）中的隔离率为常数q0（特别地，可以假设为零），此时模型（1）简化为经典的SEIHR模型。这样采用1月23日前的疫情数据，可以估计模型的R0，得到COVID-19疫情早期的传播风险。

其次，在疫情的第二阶段，既2020年1月23日起，封城、密切跟踪隔离等措施逐步加强，确诊率和检出率逐步提高，此时模型（1）中的隔离率、接触数、确诊率等参数不再是常数，而是依赖于时间的函数。此时需要依据多源数据，估计有效再生数，通过这些率函数的敏感性分析可以评估逐步加强的控制措施的有效性以及疫情的发展趋势。

之后，在疫情的第三阶段，随着围堵缓疫策略的加强，COVID-19疫情的传染率大幅下降（接触数明显降低），大多感染者、疑似病例都以隔离。此时COVID-19疫情的发展已经不是经典的传播动力学所确定的了，应该重点关注密切跟踪隔离人群、疑似病例人群的动态变化。此时的治愈率、检出率、解除隔离率等成为敏感性分析的关键参数。

最后，在疫情的第四阶段，模型（1）中给出了输入病例对疫情的影响。但是如何分析输入病例对其他疫情不严重的省份的影响，由于报告病例相对较少，需要将模型（1）发展成为相应的离散随机模型，这为分析复工等对二次爆发风险分析提供了重要的模型支持。

通过上面由点到面的分阶段、分层次分析，才是有效的研究春节前后人员大流动对各地区甚至是全国疫情影响的最有效方法之一，也为围堵缓疫策略的依从性研究提供了模型和研究思路。上面依据疫情动态发展、防控措施的实施等适时建立和发展相应的传播动力学模型，能够有效预测疫情的动态发展，为疫情的传播风险提供预警，具有重要的理论和现实意义。

如何基于突发性传染病的传播机制、防控措施的实施，构建适合中国防控特色的数学模型并服务于地方和国家防控策略是具有挑战性的问题。比如根据传统的SEIR模型并依据单一的数据源，对我国疫情的风险进行预测和评估这本身就具有一定的风险性，这完全有可能低估或高估疫情。特别是传统的SEIR模型不能有效刻画各种防控策略的联合作用，因而不能综合评价疫情防控措施的有效性和时效性，这样可能得出比如封城效果不明显不准确的结论。

利益冲突 所有作者均声明不存在利益冲突

来源：微信公众号：中华流行病学杂志（https://mp.weixin.qq.com/s/JZ39TAxlwE91L8Fe5swWCQ）