估计真实感染情况

2020-08-18 14:00:29

8月10日最新消息:有关免疫、行为和干预在新冠肺炎传播中的作用的案例研究,请参阅我们的新发现。

感染在6/7月(每天约45万新感染的高峰)比3月/4月(每天约30万新感染的高峰)更为普遍。这可能是由重新开放、缺乏政策干预以及病毒更广泛的流行所推动的。本页的其余部分描述了我们推导此估计的方法,下面将进行更多讨论。

隐含感染病死率(IIFR)从3月份的1%下降到5月份的0.6%,7月份下降到0.25%。这可能主要是由于感染年龄中位数较低所致。改善治疗、更好地保护脆弱人群以及更早发现也可能有助于降低病死率。请参阅我们下面关于IIFR的部分,以及进一步的讨论。

在高受影响的州,感染在达到人口流行率10-35%后开始放缓。这很可能是由于地区达到了一定程度的有效群体免疫力,从而抑制了进一步的传播。6/7月份的这一门槛可能低于3/4月份,这是意料之中的,因为有效再生产数量RT现在要低得多。达到这一临时有效的群体免疫阈值并不会阻止传播--它只会减缓进一步的传播。人类行为和政策干预(如口罩命令)的变化也有助于减缓传播。如果目前的干预和社会距离放松,或者如果免疫力随着时间的推移而丧失,那么我们可能会看到传播率再次上升。下面有更多讨论和注意事项。

了解美国感染新冠肺炎的真实人数是了解这种疾病的关键一步。但估计这一数字并不是一项简单的任务。真实的感染人数比美国报告的病例数量多出许多倍,因为大多数感染者由于以下几个原因而没有接受检测:1)他们没有症状,2)他们只有轻微的症状,3)他们不容易获得检测,或者4)他们只是不想接受检测。

在本页面中,我们引入一个简单的平方根函数来估计一个地区新冠肺炎的真实流行情况,该函数仅基于确诊病例和检测阳性率:真实新增日均感染=日均确诊病例*(16*(阳性率)^(0.5)+2.5)。我们还将介绍隐含感染致死率(IIFR),这是一种通过将一个地区报告的死亡人数除以真实感染估计数(在考虑滞后之后)得出的衡量标准。

使用这种方法,我们估计真正的新感染人数在7月份达到了每天近50万新感染的峰值,而3月份每天的新感染人数为30万。这意味着重新开放后的感染高峰比3月份最初的高峰高出60%。总体而言,到2020年7月底,我们估计超过3500万(十分之一)的美国人在某个时候感染了SARS-CoV-2病毒。

下面,您可以看到我们对美国感染估计的图表。我们将结果与covid19-projections.com模型进行比较,该模型仅使用过去报告的死亡人数来估计真实感染人数。

一旦我们对每天新感染的真实人数有了合理的估计,我们就可以使用报告的死亡人数来计算隐含的感染死亡率(IFFR)。美国的IIFR在3月份高于1%,在4-5月份稳定在0.6%左右,然后在7月份下降到~0.25%。请注意,我们的国际财务报告报告估计没有考虑新冠肺炎的超额/未报告死亡人数,因此这可能是真实国际财务报告报告的下限。下面将进一步解释这一点。

本页上展示的所有工作都没有经过同行评审,因此我们鼓励大家带着健康的怀疑态度阅读这篇文章。我们希望读者能根据我们提出的证据做出自己的结论。这只是对这种情况的一种可能的看法,结果可能会根据新的数据/证据而改变。

请注意,我们使用的感染致死率(IFR)一词指的是真实死亡人数除以真实感染人数。它没有经过年龄调整。因此,如果这种疾病在年轻人群中的流行率越来越高,那么IFR将会下降,尽管病毒在特定年龄段中的致死率保持不变。某一年龄段的死亡率很可能没有明显变化。

为了计算隐含感染死亡率(IIFR)的估计值,我们只使用分子中报告的死亡人数。如果一个州严重低估了新冠肺炎的死亡人数,那么我们的估计可能会低估真实的IFR。由于大多数州都低估了新冠肺炎的死亡人数,我们的国际IFR估计更接近真实感染死亡率的下限。例如,如果真实死亡人数比报告死亡人数高出50%,那么真实的IFR将比IIFR高出约50%。为了更好地了解新冠肺炎造成的真实死亡人数,我们建议调查额外的死亡人数,这是我们在本分析中没有做的。

我们对“群体免疫阈值”的使用不一定严格,因为这个术语传统上是在通过接种疫苗获得的长期免疫的背景下使用的。我们认为,应该有一个更好的术语来描述目前的现象,即由于社会距离和人们获得临时免疫力而导致传播速度放缓。如果社会疏远措施随着时间的推移而放松和/或免疫力丧失,那么传播可能会再次增加。因此,“群体免疫力”一词可能具有误导性。

随着各州扩大他们的测试能力,使每个人都可以更容易地进行测试,我们在本页上呈现的关系可能会变得不那么相关。我们在讨论中对此提供了可能的解释。

此分析的输出仅与提供的输入数据一样好。例如,如果各州少报/误报新冠肺炎的死亡人数,那么这可能会严重扭曲这项分析的结果。因此,我们呼吁所有州遵循国家指导方针,以诚实、全面和一致的方式报告数据。

这种方法根据美国的数据进行了优化。它不一定适用于美国以外的国家,因为在这些国家,测试指南/程序可能会有很大的不同。人们可能需要重新调整流行曲线,以适应每个国家。

虽然本页面上的所有方法都是独立开发的,但我们要注意的是,这并不是一种新颖的方法。请参阅Peter Ellis、David Blake和Campbell等人之前的工作。

输入:我们使用来自约翰霍普金斯大学CSSE的报告病例和死亡数据,以及来自COVID跟踪项目的测试数据。

输出:我们已经将感染估计和隐含的IFR计算上传到我们的GitHub。您可以在这里找到每日摘要。我们的目标是每天更新这些文件。目前,我们只有对美国的IIFR估计。我们正在努力将这一概念推广到其他国家。

这种方法背后的核心思想是,我们可以用阳性率来粗略地确定真实感染人数与报告病例的比例。假设是,随着阳性率的增加,一个地区的真实流行率相对于报告的病例就越高。这在直觉上也是有道理的:如果你测试每个人,那么正确率就会很低,你就会捕捉到每一个案例。但是,如果检测不是广泛可用的,那么你只会发现严重的病例,从而导致更高的阳性率。这种现象有时被称为优先测试。

我们认为,阳性率和真实患病率之间的关系是单调递增的。当然,确切的关系因州而异,也因时间而异。但是,如果取所有数据的平均值,就可以生成一条理论曲线。我们相信这个关系可以用以下形式的根函数来近似:

通过对历史试验阳性和血清学调查的曲线拟合,以及试错,我们发现以下平方根近似函数效果很好:

要看这种关系是否通过了“常识测试”,我们可以看看美国一段时间以来的积极程度(见下图)。在3月/4月,美国的阳性率约为20%,这相当于使用上述功能时报告的病例数量的大约10倍的患病率。这似乎是一个合理的估计,与疾控中心提供的估计相符。在此期间,在纽约和新泽西州,检测阳性率约为40-50%,相当于大约12-15倍的患病率(后来由血清学调查证实)。在6月份,当美国的阳性率约为5%时,该函数估计流行率约为报告病例数量的6倍,这似乎是合理的。我们使用2.5的y截距表示最小患病率为2.5倍,以说明无症状个体。

下一步是根据真实的流行率将所有报告的病例与真正的新感染病例相对应。我们只需在上面的函数中插入阳性率就可以计算出真实的患病率。然后,我们将比率乘以每日确诊病例,以得到真实的每日感染情况:

出于所有计算目的,我们使用7天确诊病例和阳性率的平均值。将上面的两个函数组合在一起,我们得到:

例如,假设美国在7月22日报告了6.7万例新病例,阳性率为8.5%。这将导致真实的患病率为16*sqrt(0.085)+2.5=7.16.。然后我们可以将这一比率乘以确诊病例,得出真正的新感染病例。在本例中,我们估计有7.16*67,000=~480,000真正的新感染。因为报告的病例比感染晚了大约两周,所以我们必须将结果推迟两周。因此,48万真正的感染实际上发生在7月22日,也就是7月8日之前的大约14天。

对于美国全国范围的数据,我们可以通过将每日阳性率传递到上面的近似函数来计算真实的患病率。然后,我们将真实患病率乘以每天确诊病例的数量,得出真正的新感染人数。请注意,所有使用的日线数字都是7日移动平均线。最后,我们将真正的新感染病例推迟14天,以说明报告延迟的原因。现在,我们可以将结果绘制为日期的函数:

我们可以使用各州的病例和阳性率来计算每个州的真实新感染病例,而不是使用美国全国的病例和阳性率,使用上述相同的方法。下面是一些州估计的每日真实新增感染人数的曲线图。使用这种方法,你可以看到佛罗里达州和德克萨斯州正在接近纽约在3月份创下的每日新增感染人数上限。

然后,我们将所有50个州和地区的感染估计数相加,得到全国每天的新增感染人数(橙线)。请注意,它与使用美国全国数据生成的图表非常一致。

我们可以将前面的方法与covid19-projections.com使用的方法进行比较。它只使用过去报告的死亡人数来预测未来报告的死亡人数。您可以在这里阅读关于我们模型的更多信息。

我们的模型产生的输出之一是每个地区和国家的真实感染人数。我们只需从我们的模型中获得输出,就可以得到我们对美国真实感染人数的估计。

现在,我们可以将上面描述的所有方法绘制在一起,并查看它们之间的比较。请注意,它们遵循大致相同的形状和大小。

使用病例与死亡人数的估计-轮换-平均而言,与3月/4月相比,6月/7月更早发现病例。在我们目前的估计中,我们假设新感染和报告病例之间有一个恒定的滞后时间。因此,与仅由死亡数据产生的估计相比,基于报告病例的感染情况在3月/4月滞后,在6月/7月领先。如果我们在确诊病例和新感染病例之间使用非静态轮换(即3月/4月的较长轮换和6/7月的较短轮换),那么这种差异将大大缩小。

使用病例与死亡的估计-数量-随着检测在6/7月变得更加广泛,使用这种方法估计真正的感染可能会导致高估一个地区的流行率。因此,与使用ON Death生成的病例估计值相比,您可以看到峰值震级的差异更大。有关详细说明,请参阅讨论。

使用各州病例与美国全国病例的估计-使用各州对阳性率和病例的估计(而不是全国估计)导致6/7月份真实感染人数略有高估。我们怀疑这部分是因为一些州(如佛罗里达州、亚利桑那州、佐治亚州)低估了阴性检测结果的数量,这人为地夸大了阳性率,从而夸大了患病率。如果调整这一因素,峰值很可能会排在每天略高于40万新感染人数的行列中。

我们可以使用这些对真实感染的估计来计算美国的隐含感染死亡率(IIFR),方法是将未来28天的报告死亡人数(7天移动平均数)除以真实感染人数(7天移动平均数)。请注意,我们假设报告的死亡人数大致等于真实死亡人数。如果新冠肺炎的超额/未报告死亡人数很多,那么我们的国际IFR估计将低估真实的IFR。参见温伯格实验室的工作,了解他们对超额死亡的分析。

我们也可以在各州的基础上做到这一点。有关选定州的IIFR图,请参见下文。

使用CDC的COVIDView数据(按年龄细分检测),我们可以看到,从4月到6月,确诊病例的年龄中值有所下降:

当然,在不同年龄段的测试方式上可能会有选择偏差。有人可能会争辩说,3月/4月比6月/7月老年人的比例更高的原因是因为测试有限,因此老年人被优先进行测试。因此,人们可能会认为,年龄较大的人群比年轻年龄组的阳性率更低(因为你感染的病例更多)。但如果你看看数据,情况正好相反:在3/4月份,年龄较大的年龄段实际上比年轻年龄段的阳性率更高。根据我们以上的患病率计算,这显示高龄组别的患病率实际上比低龄组别的患病率还要高。从4月下旬开始,这一趋势发生了逆转,现在年轻年龄组的阳性率高于年长年龄组。

考虑到确诊病例的数量和检测阳性率,我们可以使用上面的患病率公式来估计按年龄组划分的真实感染比例:

你可以看到,在计入检测阳性后,从年老到年青的分布变化更加明显。18-49岁的患病率与65岁以上的患病率的比率从4月份的大约2.5倍上升到6月份的10倍。由于65岁以上人群的感染死亡率大约是18-49岁人群的10-50倍,因此美国的总体感染死亡率在3月至7月期间大幅下降也就不足为奇了。通过改进治疗和更早的检测,IFR进一步降低。

作为补充,上面的图表还可以解释为什么尽管病例增加,但美国报告的死亡人数在6月份继续下降:病例增加主要是由感染死亡率较低的年轻人推动的。不幸的是,7月份的模式表明,感染的年龄分布正在恢复到较高的感染年龄中位数,导致7月底/8月初的死亡人数急剧上升。这可能会导致8月份及以后隐含感染死亡率的上升,我们将对此进行监测。

我们通过试错和曲线拟合相结合的方法,推导出患病率函数(患病率=a*(阳性率)^(B)+c)的常数。我们不相信这个功能是完美的。可以有其他常数a、b和c,它们可能更接近真实关系。因为没有适合该函数的“true”值,所以我们认为不值得尝试完美地拟合该函数。因此,我们决定用一个简单的平方根函数来描述这种关系。

阳性率和患病率之间的确切关系可能会因州与州和时间的不同而不同。以下是可能导致这些差异的部分因素列表:

检测的可用性-进行的检测次数越多(占人口的百分比),未检测到的患病率就越低,阳性率的作用就越小。有关更深入的观点,请参阅汉堡与迈凯轮(Burger&;McLaren)撰写的论文。

测试结果积压-阳性测试优先处理,这可能会使阳性率偏高。

检测结果的延迟/滞后-如果检测需要1-2周才能报告,那么它可能不再是新感染情况变化的准确表示。

年龄结构变化-测试阳性率在较年轻的年龄组中较高。因此,感染年龄中位数较低也可能导致较高的阳性率,从而可能导致混淆因素。

例如,这里有一篇来自“坦帕湾时报”的报道,它探讨了佛罗里达州的积极率是如何报道的。与此同时,佐治亚州对测试报告有一套不同的标准。这些指导方针在每个州的水平上都是具体的,而且各州之间可能会有很大的不同,这使得比较变得更加困难。

我们认为,6/7月份的高阳性率意味着患病率低于3/4月份,当时检测还不是那么广泛。因此,这项工作的未来扩展可能涉及与时间相关的患病率函数,例如针对3月/4月和4月后的单独函数。我们认为较低的指数和系数可能是四月以后更好的近似(例如患病率=10*(阳性率)^(0.4)+2.5)。

关于为什么6/7月份的感染人数比3/4月份多,有很多种解释。其中一个原因是基于关于指数增长的简单数学计算。我们从2月份的0感染开始,R0为~2.5。在3月份人们开始疏远社会之前,只有一段有限的指数增长期,这很快将RT值降至1以下。美国大部分地区的在家订单及时有效地遏制了传播,防止了进一步的不受控制的传播。

相比之下,当各州在5月/6月重新开放时,每天已经有大约10万新感染病例。在RT为~1.2,并采取有限的干预措施以缓解传播的情况下,新感染病例能够在两个月内攀升至每天400k+。用外行人的话说,我们在5月份从一个高得多的点开始,有更长的时间才能达到顶峰。

美国的IIFR从3月份的超过1%下降到7月份的0.25%。下面,我们给出一些解释,解释为什么美国的IIFR自3月/4月以来大幅下降。

更好地保护弱势群体(新冠肺炎在3/4月死亡的人中,近一半在疗养院)。

以上是可以解释IFR真实下降的解释。我们认为,较低的感染中值年龄和对高危人群的更好保护是IIFR下降的主要驱动因素。下面就是这样的情况。

.