如何不丢失16,000个新冠肺炎测试结果:一位数据科学家的观点

2020-10-11 18:07:59

本周,英国测试和跟踪基础设施的一个关键部分严重失败。近一万六千名新冠肺炎感染者的所有接触者都被允许在不知情的情况下在社区内传播了整整七天。那大约是5万人。

我不会抱怨英国公共卫生(PHE)使用EXCEL合并每个测试中心的测试结果。那显然是错的。

这涉及到更令人担忧的事情:我不明白为什么没有适当的监测到位。这是技术领导的可耻失败。我不是要求更换EXCEL;我是要求NHS测试和跟踪领导力由了解数据的人取代。

监控是基础数据科学。如果你的团队不能达到这个水平,那么你就不应该处理任何重要的数据,当然不应该是我们的国家大流行战略所依赖的数据。我工作的公司只为金融机构收集数据,没有人的生命掌握在我们手中。然而,如果没有适当的监控,我们永远不会部署数据管道。

为什么这项基本技能不是NHS测试和跟踪系统的核心呢?英国政府已经为该项目花费了10B英镑,其中大部分流向了外部顾问。我猜GB10B不会给你带来严肃的技术文化,在没有适当监督的情况下,在EXCEL中把东西拼凑在一起会让你在职业上感到尴尬。

像这样的情节看起来很奇怪。为什么轨道突然变平了?这是否反映了底层数据的趋势,还是数据收集过程的产物?这件事需要调查。

计数集中在右侧(意味着许多文件具有相同的行数)。这是一个致命的泄露,某种人为的限制已经达到了。自然发生的计数从来不是这样的。

每个考试中心每天都应该与PHE进行简短的交谈,以验证他们的数据是否已被正确收集。本周我们从Y考试中心收集了X个阳性样本。是的,这个数字是正确的。

这是世界上最无聊的会议,看起来完全是浪费时间,直到有一天有人说“我们收集了65536行数据”,一位敏锐的初级科学家说“哇!”(65,536是旧版Excel中允许的最大行数)。

使用这两个简单的图和一次定期会议,我们创建了一个数据收集问题的预警系统。请不要告诉我‘我们正处于大流行危机中,只是没有时间安排这件事’。还有时间,因为我们正处于大流行中,因为这个过程失败了,人们将会死亡。

我是代表英国数据科学家职业兴趣的组织--皇家统计学会数据科学部的主席。我们的许多成员抱怨说,他们无法发挥作用,因为他们没有一位了解他们工作的技术经理。在基本的数据监控到位之前,这类管理者将深受困扰。

高质量的数据科学工作需要组织范围内对数据的理解。我指的是整个组织:我知道有些公司的首席执行官每天都会亲自检查数据摄取数据。

一位经验丰富的数据科学领导者应该立即被安装到NHS测试和跟踪中,并被授权将数据管道运行到专业标准。严谨和纪律的文化将防止另一次灾难性的错误。不幸的是,你买不到这样的文化,即使(或者特别是)向大型咨询公司投入数十亿英镑也不行。