日记名称:卫生科学与发展杂志
文章类型:分析
收到日期:8月25日,2020年8月25日
接受日期:2020年10月19日
发表日期:2021-01-30
引文:Yoo K、Arashi M和Bekker A(2020)将Gumbel和logistic增长模型相互对比,模拟COVID-19的传播。卫生科学发展Vol . 3, Issu: 2(17-30)。
版权:Yoo K等人这是一篇在知识共享署名许可条款下发布的开放获取的文章,允许在任何媒体上不受限制的使用、发布和复制,前提是注明原作者和来源。
抽象的
在本文中,从数据驱动的角度来看,我们简要介绍了广泛使用的物流生长曲线建模的适当性与Covid-19传播。具体而言,除了美利坚合众国(美国)之外,我们建议在若干国家的Covid-19案件行为的牙龈生长模型,以便更好地检测到增长和预测。我们提供合适的合适并预测一些选定国家作为图示的案件的增长。我们的贡献将刺激这种大流行爆发的正确增长差价。
强调
探索COVID-19数据logistic曲线建模方法,并指出其不足之处。
提出Covid-19与牙龈生长曲线的建模。
拟合来自不同国家的COVID-19数据,大力支持甘伯尔模型的选择。
关键字
不对称;物流生长模型;非线性回归;预言。
抽象的
在本文中,从数据驱动的角度来看,我们简要介绍了广泛使用的物流生长曲线建模的适当性与Covid-19传播。具体而言,除了美利坚合众国(美国)之外,我们建议在若干国家的Covid-19案件行为的牙龈生长模型,以便更好地检测到增长和预测。我们提供合适的合适并预测一些选定国家作为图示的案件的增长。我们的贡献将刺激这种大流行爆发的正确增长差价。
强调
探索COVID-19数据logistic曲线建模方法,并指出其不足之处。
提出Covid-19与牙龈生长曲线的建模。
拟合来自不同国家的COVID-19数据,大力支持甘伯尔模型的选择。
关键字
不对称;物流生长模型;非线性回归;预言。
介绍
目前,新型冠状病毒(COVID-19)大流行是由一种名为“严重急性呼吸综合征冠状病毒2”(SARS-CoV2)的新病原体引起的,表明在感染的早期阶段,可能会出现严重急性呼吸道感染的症状,并正在全球迅速蔓延。由于我们对COVID-19的了解有限,流行病学建模仍在发展中,基于人口统计信息的生态增长建模是可行的。它是为了支持围绕不同的非药物干预措施制定决策。
逻辑函数/曲线通常用于在许多科学分支中用于动态建模,包括化学,物理学,物质科学,林业,疾病进展,社会学等。但是,问题是它也适用于Covid-19来自可用数据视图。指数增长原理可以应用于Covid-19的传输(参见很少,对于基于Web的仪表板[1])。众所周知,指数模型足以描述短时间内,通常会随着时间的推移快速地偏离实际数字。Logistic Grower Curve成功地建模一些流行病[2-6]。我们的主要目标是了解逻辑功能是否可以适当地预测传播。已经努力预测和预测Covid-19爆发的未来轨迹。我们参考Cohen,Bastista,Roser等,Hsastassopoulou等,迈尔和Brockmann,Cassaro和Pires,Ceylan,Salehi等,Sauer和Petropoulos以及Makridakis提到了一些相关的研究[7-17]。
在上述研究中没有任何一项研究中,旨在预测Covid-19的生长的牙龈功能。因此,在这一贡献中,动态牙龈模型用于跟踪Coronavirus Covid-19爆发。我们根据以下组织其余的工作。在即将到来的部分中,我们提供用于比较和拟合目的的数据和软件来源。第5节包括物流建模的分析,概述缺点,提出了Gumbel模型作为合适的候选人;然后与逻辑模型进行比较。第7节说明了Gumbel模型的潜力与所选国家的Covid-19数据的分析。我们在第8节中得出贡献。
实验数据
网上有许多来源可以提供COVID-19病例的数据。一个这样的网站是“人道主义数据交换”,可以找到每个国家每天累积的COVID-19病例。(https://data.humdata.org/dataset/ novelh -coronavirus-2019-ncov-cases)有一个可下载的“time_series_covid19_confirmed_global.csv”,起始时间为2020年01月22日,部分国家甚至有按州或省划分的数据。为了进行所需的分析,必须获取每个国家的日常案例,但一些国家,如美国和澳大利亚,将数据分解为州或省一级。由于本研究的重点是每个国家,我们使用R开源软件沿着国家的独特值进行总结,适当地转换数据用于我们的分析,然后使用nls函数进行非线性回归。
方法论和结果
运用物流增长模型的初步认识
在本节中,我们使用常用的logistic曲线建模进行数据分析。logistic函数是一种常见的s型曲线,具有以下函数形式的人口动态模型在时间
with initial condition () = , is the carrying capacity, the maximum capacity of the environment here, > 0. Here, Eq. (1) divided by corresponds to the cumulative distribution function (CDF) of a logistic distribution at point . The probability density function (PDF) is simply obtained by differentiating the latter with respect to .
这是有用的,因为两个甘贝尔分布的随机变量的差异有一个逻辑分布。全球新冠肺炎病例呈指数级增长,这通常是早期logistic曲线的下半部分。
结果与讨论- logistic模型:分析是数据驱动的,因此,本文的重点不是流行病学的角度。然而,参数估计值与现实世界相比。represents how many cases we expect to see in the end, is how quickly the virus has spread/cleared and is where the peak increase in cases was observed. To illustrate the failing of the logistic model, the US data was the focus here.
根据数据建模,直到3月28日,以回归获得以下结果。该模型对于小于0.0001的p值非常显着,并且在图中显示,实际的美国数据和模型几乎无法区分。该数据表明Covid-19案件的总数大约在226,000和265,000之间。使用这些估计预测未来7周的案件数量。然而,当数据到4月4日的数据时,参数,它代表最终案件的情况(477922)远远超出使用数据预测到前一周的(AS的置信限度的上限为265206)。The slope parameter, , decreased while the location parameter, increased. (Figures 1,2 and Tables 1,2,3).
图1:使用logistic函数观察2020-01-22至03-28美国病例,并预测7周。
图2:使用Logistic功能观察到美国2020-01-22至04-04至04-04和预测7周的案例。
表1:基于函数的基于函数的参数估计从2020-01-22到03-28。
参数 | 估计 | 约标准错误 | 约95%置信极限 | |
---|---|---|---|---|
245898 | 9653.8 | 226590 | 265206 | |
0.3098 | 0.00483 | 0.3001 | 0.3195 | |
67.1124. | 0.2341 | 66.6442 | 67.5806. |
表2:基于函数的参数估计从2020-01-22到04-04。
参数 | 估计 | 约标准错误 | 约95%置信极限 | |
---|---|---|---|---|
477922 | 13319.9 | 451282 | 504562 | |
0.2403 | 0.00405. | 0.2322 | 0.2484 | |
71.7055. | 0.2409 | 71.2236 | 72.1874. |
表3:基于US- logistic函数的参数估计从2020年01月22日到04月25日。
参数 | 估计 | 约标准错误 | 约95%置信极限 | |
---|---|---|---|---|
995370 | 14689.3. | 966196. | 1024544 | |
0.1459. | 0.00321 | 0.1395 | 0.1523 | |
80.3266 | 0.2772 | 79.7761 | 80.8772 |
Using data until 2020-04-25, the new estimate for once again exceeds what was predicted using previous data and the slope parameter, , decreased while the location parameter, increased. (Figure 3)
图3:使用Logistic功能观察到美国2020-01-22至04-25至04-25至04-25的案例,并预测7周。
建模累积案例可以被视为试图为整个森林建模,而不是看每棵树。即使一个特定的树是森林中大多数其他树木的两倍高,当所有高度总结时,它不会对整体产生大的影响。因此,为数据引入更多可变性,通过取消累积数据的差异来分析日常新案例。这样,随着更多数据获得的日常情况的幅度不会减少,并且它将捕获大尖峰的效果。换句话说,我们正在放大数据,以使每日案件数量更多。
下面的参数估计是基于相同的数据上。模型的p值仍然<0.0001,表明其显著性在新方法中没有丢失。在取差值的过程中丢失了一个观察结果,但通过查看日常病例,尝试用PDF代替CDF,我们可以得到更详细的情况,这增加了对病例总数的估计。见图4;通过使用logistic函数的一阶导数集中于日常案例建模(表4)的观点。
图4:观察2020-01-22至04-25年间美国的每日病例,并使用logistic函数的导数预测7周。
表4:基于函数的基于衍生的参数估计从2020-01-22到04-25。
参数 | 估计 | 约标准错误 | 约95%置信极限 | |
---|---|---|---|---|
1254903 | 47672.7 | 1160207 | 1349599. | |
0.1076 | 0.00493 | 0.0978 | 0.1174 | |
83.4375 | 0.5791 | 82.2871 | 84.5879 |
缺点:在使用SIGMOID函数来模拟数据时,暗示的假设是将病毒传播与“秋天”的蔓延相同的时间。这来自逻辑函数对拐点对称的事实。条形图(图5)显示了西班牙,意大利和美国的日常新案例。只要看下面的图表就足以质疑是否试图适应对称的形状曲线,提供良好的契合或可预测性。因此,下一步是找到一种分布,其CDF似乎具有具有S形函数的特征的一般“s”形状,但具有一些构建的偏斜度,使得当在对日常新案例建模时,它适合不对称数据出色地。在查看符合所有标准的许多分布后,Gumbel分布似乎具有有前途的特性。
图5:西班牙、意大利和美国每日新增病例柱状图(摘自https://www.worldometers.info/coronavirus/country/us/)。
图6显示了我们的眼睛是多么容易欺骗我们。红线(CDF和PDF)是Logistic分布,蓝线(CDF和PDF)是Gumbel分布。(虚线是PDF,实线是CDF。)如果我们只是孤立地观察CDFs,人类是无法分辨出曲线是否对称的。即使画了x轴和y轴,仅仅把Gumbel CDF稍微向左移动就足以让观众觉得分布是令人信服的对称的。另一方面,使用PDF检测对称性(或缺乏对称性)在视觉上是清晰的,它不需要专家来确定(Logistic函数的)红色虚线曲线是对称的,而蓝色虚线曲线(Gumbel的)不是。因此,观察日常数据并检测这种偏态对提出替代模型至关重要。
图6:Logistic分布和Gumbel分布的PDF和CDF。
Gumbel Grows建模
Gumbel分布经常用于实际概率建模。Gumbel(Anderson和Daniewicz,Gomez等,Hyun等人,Huang等人。)呈现一个模型作为指数分布的扩展,其中它可以用于适合极限数据集[18-21]。一个Gumbel dynamic model of population at time is defined by
with initial condition () = , is the carrying capacity, the maximum capacity of the environment here, > 0. Here, Eq. (2) divided by corresponds to the CDF of the Gumbel distribution at point . The PDF is simply obtained by differentiating the latter with respect to .
总体而言,使用Gumbel分布的PDF和CDF进行了与逻辑函数相同的过程。结果表明,无论使用gumbel PDF(每日)或CDF(累积)是否使用牙龈,使用Gumbel在逻辑上都非常优选。对于一个星期内,案件总数的参数估计不再陷入一周内甚至视觉上,图表的轨迹表明每个国家的路径都更加光滑,更容易达到未来的结果。
在参数估计中,“”和“”的作用与logistic函数的“”和“”的作用类似,但参数“beta”的作用略有不同,它是一个斜率/持续时间双函数参数,可以使曲线收缩或拉伸。Gumbel模型包含了某种程度的偏度,允许它在数据中发现更大的变化。请注意,基于PDF的估计的标准误差更大,这是意料之中的,因为它使用的是不稳定的每日数据,而不是相当稳定的累积数据。
表5:美国- Gumbel PDF基于参数估计。
参数 | 估计 | 约标准错误 | 约95%置信极限 | |
---|---|---|---|---|
1485959. | 50413.7 | 1385819 | 1586100. | |
16.7931 | 0.6251 | 15.5514 | 18.0349 | |
82.1391 | 0.5729 | 81.0010 | 83.2771 |
表6:美国-甘贝尔CDF基于参数估计。
参数 | 估计 | 约标准错误 | 约95%置信极限 | |
---|---|---|---|---|
1315121 | 14613.8. | 1286097. | 1344146 | |
14.8945 | 0.1874 | 14.5224 | 15.2666 | |
79.8614 | 0.1936 | 79.4769 | 80.2458 |
图7:使用Gumbel PDF,观察到每日2020-01-22至04-25至04-25和预测7周的预测。
比较和讨论
以下图(图8)总结了使用冈贝尔分布和Logistic分布对COVID-19感染病例建模的关键差异。这里使用的数据是美国到2020年04月25日为止的病例数,其中圆圈代表累积病例数。左面显示了基于Logistic函数的不同模型,右面显示了基于Gumbel分布的CDF的不同模型。不同的线条表示为了模拟过去的结果而忽略了多少周的观测值。在左边的面板中,很明显,Logistic模型未能捕捉到数据中的一个重要特征,因此无法跟上数据。如上所述,这是由于数据的非对称性质。然而,在右边的面板上,Gumbel模型在捕捉这些趋势方面要稳健得多。虽然3个星期前的预测高估了病例数,但此后的估计仍相当稳定,在过去两周内似乎趋于收敛。
图8:基于2020-01-22至04-04(3),04-11(2),04-18(1)和04-25(0)。
一些选定国家的Gumbel模型
在本节中,我们分析了一些选定国家的冠状病毒病COVID-19的动态,以显示甘贝尔模型的潜力(图9)。时间窗口是从2019-12-31到2020-10- 12,除了土耳其(从2020-03-12)和秘鲁(从2020-02-28)。此外,只有Gumbel PDF模型在某些国家运行时没有奇点或迭代问题,这也证明了它的健壮性。此外,出于实际目的,我们提供了11月份的预测,如表7所示。
图9:基于Logistic CDF、Gumbel CDF和PDF的预测,从2020年03月12日(土耳其)、2020年02月28日(秘鲁)、2019年12月31日(所有其他国家)到2020年10月12日。
表7:预测到2020年11月。
日期 | 意大利 | 西班牙 | 德国 | 法国 | 挪威 | 火鸡 | 伊朗 | 中国 |
---|---|---|---|---|---|---|---|---|
1-11月20日 | 1132 | 6118 | 2182 | 30934. | 121. | 1316. | 1011 | 0 |
2 - 11月- 2020 | 1114 | 5995 | 2188 | 31531 | 120. | 1305. | 998 | 0 |
3 - 11月- 2020 | 1095 | 5874 | 2195 | 32133 | 120. | 1294 | 986 | 0 |
4-11月20日 | 1076 | 5755 | 2201 | 32738 | 119. | 1283 | 973 | 0 |
5-11月20日 | 1058 | 5636 | 2206 | 33347 | 119. | 1272 | 961 | 0 |
6 - 11月- 2020 | 1040 | 5519 | 2212 | 33959 | 118. | 1261 | 949 | 0 |
7-11月20日 | 1021 | 5403 | 2217 | 34575 | 118. | 1249 | 937 | 0 |
8 - 11月- 2020 | 1003 | 5288 | 2222 | 35193 | 117. | 1238 | 925 | 0 |
9-11月20日 | 985 | 5175. | 2226 | 35815 | 116. | 1227 | 913 | 0 |
10-11月20日 | 967 | 5064. | 2231 | 36439. | 116. | 1215 | 902. | 0 |
11-11月20日 | 949 | 4953 | 2235 | 37066 | 115. | 1204. | 890 | 0 |
12-11月20日 | 931 | 4845 | 2239 | 37696 | 114. | 1192 | 879 | 0 |
13 - 11月- 2020 | 914 | 4738 | 2242 | 38327 | 114. | 1181 | 867 | 0 |
11月14 - - 2020 | 896 | 4633 | 2246 | 38961 | 113. | 1169 | 856 | 0 |
15-11月20日 | 879 | 4529 | 2249 | 39597. | 112. | 1158 | 845 | 0 |
16-11月20日 | 862 | 4427 | 2252 | 40235 | 111. | 1146 | 834 | 0 |
17 - 11月- 2020 | 845 | 4326 | 2254 | 40874 | 111. | 1135 | 823 | 0 |
18-11月20日 | 829 | 4227 | 2257 | 41514. | 110. | 1123 | 813 | 0 |
19 - 11月- 2020 | 812 | 4130 | 2259 | 42156 | 109 | 1111 | 802 | 0 |
20-11月20日 | 796 | 4035 | 2261 | 42799 | 108 | 1100 | 792 | 0 |
21 - 11月- 2020 | 780 | 3941 | 2262 | 43443 | 107 | 1088 | 781 | 0 |
22-11月20日 | 764 | 3849. | 2264 | 44088 | 107 | 1077 | 771 | 0 |
23-11月20日 | 748 | 3758 | 2265 | 44733 | 106 | 1065 | 761 | 0 |
11月24日—- 2020 | 732 | 3669 | 2265 | 45379 | 105 | 1054 | 751 | 0 |
25-11月20日 | 717 | 3582 | 2266 | 46024 | 104 | 1043 | 741 | 0 |
11月26日—- 2020 | 702 | 3497 | 2267 | 46670 | 103 | 1031 | 731 | 0 |
日期 | 韩国 | 加拿大 | 澳大利亚 | 新西兰 | 印度 | 卡塔尔 | 日本 | 秘鲁 |
1-11月20日 | 2 | 2526.641 | 3. | 0 | 70744 | 12. | 94. | 2141 |
2 - 11月- 2020 | 2 | 2556.059 | 3. | 0 | 70223 | 11. | 90. | 2090 |
3 - 11月- 2020 | 2 | 2585.1. | 3. | 0 | 69697 | 11. | 86. | 2039 |
4-11月20日 | 2 | 2613.751 | 3. | 0 | 69166 | 10. | 83. | 1990年 |
5-11月20日 | 1 | 2641.999. | 3. | 0 | 68631 | 10. | 80 | 1942年 |
6 - 11月- 2020 | 1 | 2669.835. | 2 | 0 | 68091. | 10. | 76. | 1894年 |
7-11月20日 | 1 | 2697.245 | 2 | 0 | 67547 | 9 | 73. | 1848年 |
8 - 11月- 2020 | 1 | 2724.221 | 2 | 0 | 66999 | 9 | 70 | 1803 |
9-11月20日 | 1 | 2750.752 | 2 | 0 | 66448 | 9 | 68. | 1758年 |
10-11月20日 | 1 | 2776.827 | 2 | 0 | 65894 | 8 | 65. | 1715. |
11-11月20日 | 1 | 2802.437 | 2 | 0 | 65337 | 8 | 62. | 1672年 |
12-11月20日 | 1 | 2827.574 | 2 | 0 | 64778 | 8 | 60. | 1631. |
13 - 11月- 2020 | 1 | 2852.229 | 2 | 0 | 64216 | 7 | 57. | 1590 |
11月14 - - 2020 | 1 | 2876.394 | 1 | 0 | 63652 | 7 | 55. | 1550. |
15-11月20日 | 1 | 2900.06 | 1 | 0 | 63086 | 7 | 53. | 1512. |
16-11月20日 | 1 | 2923.221 | 1 | 0 | 62518. | 7 | 51. | 1474 |
17 - 11月- 2020 | 1 | 2945.869 | 1 | 0 | 61949 | 6 | 49. | 1437. |
18-11月20日 | 0 | 2967.999 | 1 | 0 | 61379. | 6 | 47. | 1401. |
19 - 11月- 2020 | 0 | 2989.603 | 1 | 0 | 60808 | 6 | 45. | 1365 |
20-11月20日 | 0 | 3010.677 | 1 | 0 | 60237 | 6 | 43. | 1331 |
21 - 11月- 2020 | 0 | 3031.215 | 1 | 0 | 59665 | 5 | 41. | 1297 |
22-11月20日 | 0 | 3051.212 | 1 | 0 | 59092 | 5 | 40 | 1264 |
23-11月20日 | 0 | 3070.663 | 1 | 0 | 58520 | 5 | 38. | 1232 |
11月24日—- 2020 | 0 | 3089.565. | 1 | 0 | 57948 | 5 | 37. | 1200. |
25-11月20日 | 0 | 3107.914 | 1 | 0 | 57376 | 5 | 35. | 1170 |
11月26日—- 2020 | 0 | 3125.707 | 1 | 0 | 56804. | 5 | 34. | 1140 |
27日- 11月- 2020 | 0 | 3142.94 | 1 | 0 | 56233 | 4 | 32. | 1110 |
28-11月20日 | 0 | 3159.612 | 1 | 0 | 55663 | 4 | 31. | 1082 |
29-11月20日 | 0 | 3175.719. | 1 | 0 | 55094 | 4 | 30. | 1054 |
30-11月20日 | 0 | 3191.261 | 1 | 0 | 54527 | 4 | 28. | 1027 |
结论
在本文中,我们研究了物流生长模型。显示了缺点。We guided the reader to the solution of the use of the Gumbel model as an appropriate choice and completed the prediction for several countries.正如Panovska-Griffiths指出,一个模型无法回答所有问题[22]。我们希望这一贡献可以成为该集合的一部分。作者希望这一模型能够为决策者提供帮助。本文是与Covid-19传播的建模和预测相关的正在进行的项目的一部分。
竞争利益声明
作者声明,他们没有已知的相互竞争的经济利益或个人关系,可能会影响本文报道的工作。
没有参考文献