医疗保健还没有为人工智能做好准备。然而

2020-05-10 00:46:35

医疗保健是一个特殊的领域。当涉及到治疗病人时,它已经取得了很大的进步。新的疗法,新的手术,新的药物。但不知何故,我们这十年的突破性技术,如机器学习和云计算,似乎还没有渗透到这个领域。

这一领域已经取得了很多进展。Qure.AI可以在肺部X光片上以超人的精度检测结核病。谷歌能够以超人的精确度检测糖尿病视网膜病变。虽然这听起来确实像是人工智能将取代放射科医生和眼科医生,但事实远非如此。其中大多数都是费力的工作,无论如何都需要医生的核实。但这些算法无疑起到了安全网的作用。

虽然我很高兴看到这种技术被广泛采用,但事实并非如此。

我毫不怀疑医学的未来将是由算法驱动的,但今天有这些障碍阻碍了它的发展。

为了训练任何算法,特别是那些在实践中真正有用的复杂算法,我们需要大量的数据。而不仅仅是任何类型的数据。我们需要精心组合的结构化数据。今天,医疗保健产生的数据处于光谱的另一端。就拿开特定剂量的药这个简单的动作来说。你会认为它有足够的结构,对吗?不用谢!。首先,没有任何电子处方系统的医院不得不依赖医生开处方。关于这位医生的笔迹有多么糟糕的笑话不计其数。即使对于一流的笔迹检测AI来说,给出医生的笔迹也有点过头了。

现在,当涉及到电子健康记录时,这个问题实际上是成倍增加的。比方说,我们想训练一个检测X射线的算法,但是要使用医生记录的预先存在的数据。同样的概念,比如“肺实”,不同的医生有不同的表述方式。有些人可能会将其记录为听诊发现-“检查-肺实变”,另一些人甚至可能直接做出肺炎之类的诊断。在实际打字时会使用多个缩写和同义词。任何实习生试图阅读文件,并且很难理解到底写了什么,都会产生共鸣。

现在情况并不全是严峻的。聪明人已经想到了一些解决方案。

代表系统化医学命名,是解决这一问题的一个很好的尝试。一切都是用概念来表示的,它们也与其他概念有关系。例如,“肺实”的概念是这样的:

这些关系告诉我们,它在部位肺中具有伴生的实变形态。父母的属性也告诉我们这是一种肺部疾病。虽然对我们来说这似乎是多余的,但对于计算机来说,这些信息是黄金。

代表逻辑观测标识符名称。任何可以测量或评估的东西都可以表示为LOINC概念。例如,血压。对此有一个LOINC概念:

它几乎涵盖了所有常见的调查。现在,“LOINC问题”的答案可以是数字:比如120/80 mm(Hg),也可以是其他SNOMED概念,用来描述血液培养中的有机体。

SNOMED CT和LOINC都可以很好地标准化概念,但我们不希望有人将所有这些都记录在EXCEL表格上。因此,FHIR(快速健康互操作性资源)解决了这个问题。它带来了一套每个人都能理解的标准表示法。例如,在JSON中,资源条件fhir如下所示:

它与现有的web API基础设施非常兼容,是存储和传输健康信息的好方法。

现在我们有了结构化数据,但是医疗数据本质上是敏感的。很明显,你不想让另一个人知道你患有某种疾病,特别是当它与许多社会耻辱联系在一起的时候。在印度,即使是像麻风病和结核病这样完全可以治疗的疾病,人们也会带着不成比例的恐惧和歧视来看待。知道了这种耻辱,医生甚至在病人面前重新命名疾病,让它听起来更好听。HIV被称为“复检阳性”;麻风病更名为“汉森氏病”,癌症仅被称为“恶性肿瘤”。

我们在分子生物学领域的最新发现使社会有能力在基因水平上将我们撕裂,并使我们受到系统的歧视,因为我们甚至不具备这些条件。不难想象一个反乌托邦的未来,你的员工不会雇佣你,因为你有鼓励你每天晚睡晚起的基因,警察有系统地监控和骚扰“有高犯罪风险”的人,而医疗保险对最需要的人来说极其昂贵。

回到现在,向公众公布你的医疗数据可能会产生更直接的后果,甚至会让你处于危险之中。以存在于许多发展中国家的非法贩运器官市场为例。将你的HLA类型或血型泄露给这样的组织可能会让你面临被绑架甚至被杀的危险。

比方说,我们有研究人员对X型疾病的突然爆发感兴趣。医院里挤满了X型疾病的患者,但医生们远未弄清这种疾病发生的原因或方式。他们受法律约束,必须对患者信息保密,不能只是将其发布给研究人员。然而,医院准备公布数据,只公布研究人员感兴趣的领域,删除个人识别字段。

对于一个对这种疾病一无所知的研究人员,或者在他们的头衔中有机器学习的顾问来说,所有的领域都是“感兴趣的领域”。然而,他们决定只需要年龄、性别、症状、症状持续时间和患者来自哪里。传染病非常保守的研究领域。

乍一看,这似乎是一个不错的方法。但请注意,这些字段中的许多字段通常与其他数据集一起发布。因此,通过另一个公开的数据集,例如,选民名单(史诗般的数字可以很容易地粗暴地泄露印度每一位选民的详细信息,这要归功于帮助选民的应用程序),所有患者的姓名、年龄和地址都可以重新生成。

这种攻击被称为重新识别攻击。而且这不仅仅存在于理论上。这在实践中已经进行了多次。Netflix公布了数千人的匿名数据,甚至连电影的名字都用标签代替了,研究人员很快将其与IMDB数据库结合起来,重新识别了其中许多人。当州长威廉·韦尔德(William Weld)的健康记录被重新识别时,这种情况再次发生,当个人基因组计划的匿名参与者的基因数据被重新识别时,情况再次发生。甚至有机器学习算法,通过从互联网上提取数据来自动重新识别,准确率高达99.98%。

有许多方法可以尝试防止重新标识攻击。k-匿名是一种技术,其中数据集中至少有k个人具有特定字段的相同属性。这使得重新识别攻击更难执行,但并非不可能。还有一些是l-多样性和t-封闭性,所有这些都是对相同基本思想的细微变化和改进:更改数据集,使数据保持匿名。另一种技术是对数据进行泛化,以便在释放数据点之前稍微微调一下。这保留了数据集的宏观统计信息,同时防止了重新标识攻击。这是朝着正确方向迈出的一步,然而,为了真正保护数据,要添加的噪声量严重限制了数据集的效用。此外,某些字段(如字符串)不容易泛化。

但是,当攻击者对数据集中的人有一些背景知识时,所有这些技术都会失败,在我们生活的这个信息丰富的世界里,这并不是一项艰巨的壮举。

无论如何,只有一种技术可以保证隐私。它在数学上是严格的,即使攻击者被告知了世界上所有的背景知识,它也保持了匿名性,这就是所谓的差分隐私(Differential Privacy)。

如果您愿意,我将把有关差异隐私的研究留给您,因为这超出了本文的范围。

虽然有像GDPR这样的法律防止公司滥用数据,但资本主义总是找到漏洞。例如,如果你允许他们使用你的数据,谷歌会以更便宜的价格提供他们的服务:

这并不能保证他们会安全地存储并匿名使用。所以这仍然是一个需要解决的难题。