引用沈琳,李志刚,傅博文,陈四鹏,习李,杨旺,王晓一,吕斌,徐波,宋宪涛,张耀军,向程,黄伟建,蒲俊普,张琦,夏云龙,白度,向阳冀,郑铮,基于面部照片使用深度学习检测冠心病的可行性,欧洲心脏杂志,,ehaa640,https://doi.org/10.1093/eurheartj/ehaa640。
关。
面部特征与冠心病(CAD)风险增加相关。开发并验证了一种基于人脸照片检测CAD的深度学习算法。
我们在中国9个地点对接受冠状动脉造影或CT血管造影的患者进行了一项多中心横断面研究,以训练和验证用于从患者面部照片中检测冠心病(至少一个≥50%狭窄)的深层卷积神经网络。在2017年7月至2019年3月期间,来自8个站点的5,796名患者连续入选,并随机分为训练组(90%,n = 5216)和验证组(10%,n = 580)进行算法开发。于2019年4月至2019年7月,将9个站点的1013名患者纳入试验组进行算法测试。以放射科医师诊断为参考标准,计算灵敏度、特异度和受试者工作特征曲线下面积(AUC)。采用灵敏度高的操作切割点,冠心病检测算法在试验组的敏感性为0.8,特异性为0.5,AUC值为0.730(95%可信区间为0.699~0.761)。该算法的AUC值高于戴蒙德-弗雷斯特模型的AUC值(0.730比0.623,P <; 0.001)和CAD联盟的临床评分(0.730比0.652,P <; 0.001)。
我们的结果表明,基于面部照片的深度学习算法可以辅助这个中国队列中的CAD检测。该技术可应用于门诊CAD的检测前概率评估或社区CAD筛查。进一步研究开发临床可用的工具是有必要的。
冠心病(CAD)仍然是世界各地区心血管疾病中死亡和慢性残疾的主要原因。1迫切需要精确、实用、性价比高的CAD筛选工具。除传统的基于临床危险因素的预测模型外,2-9部分面部特征与冠心病风险增加相关,这可能为疾病筛查提供一种潜在的手段。10例如,脱发、白发、面部皱纹、耳垂皱纹、黄色瘤和角质弧可能与冠心病风险增加和心血管健康状况不佳有关。11-13进一步的研究表明,这些面部特征在识别CAD方面可能有较好的性能,或者可以改善传统预测模型的性能。10、14。
然而,这些面部特征在CAD筛查中的使用受到以下因素的限制:(I)面部特征种类少,流行率低,(Ii)缺乏具体的定义和可量化的严重程度分级,以及(Iii)在识别人类时重复性差。10、11、15因此需要一种工具来集成与CAD相关的所有面部特征,以进行疾病筛查。随着人工智能的发展,深度学习算法已经成为基于面部照片的疾病诊断和预测的一种很有前途的工具,特别是对于遗传和内分泌疾病。16、17。
因此,我们假设这种新的方法可能有助于综合面部特征来检测CAD。本研究的目的是开发和验证一种深度学习算法来检测人脸照片中的CAD。
我们进行了一项多中心横断面研究。数据来自中国9个地点的两项研究(ClinicalTrials.gov标识符NCT03214783和NCT03731936)。这项研究得到了所有九个参与中心的机构审查委员会的批准。
接受择期冠状动脉造影或冠状动脉CT血管造影(CCTA)的患者符合纳入研究的条件。排除标准包括:(I)曾接受过经皮冠状动脉介入治疗;(Ii)曾接受冠状动脉旁路移植术;(Iii)其他心脏病(如先天性心脏病、瓣膜心脏病或大血管疾病);(Iv)在过去3个 月内没有血液生化测试;(V)人造面部改变(如整容手术或面部创伤);(Vi)无法拍照。所有符合条件的患者在接受冠状动脉造影术或CCTA程序之前,都提供了参与研究并将其照片用于研究的知情同意书。
这项研究分两个阶段进行。在第一阶段,来自8个地点的符合条件的患者被登记,并随机分为训练组(90%)和验证组(10%)进行算法开发。在第二阶段,来自9个地点的合格患者被纳入试验组。在第二期的9个地点中,有8个也参与了第一期。
训练有素的研究护士在手术前对病人进行采访和拍照。基线访谈收集了关于社会经济状况、生活方式(酒精、肉类、快餐摄入量和运动)、临床表现、家族史和药物的数据。使用数码相机(超过2000万像素)根据标准化协议拍摄每个患者的正面、60°侧面和头顶视图(在线补充材料,方法S1)。手术后提取病历,以获得有关人口统计学特征、病史、风险因素和实验室测试的信息。
所有入选的患者根据冠心病的存在情况进行二分法,冠心病的定义是根据冠状动脉造影或冠脉造影将至少一个冠状动脉病变狭窄率(≥)50%定义为50%。3,5-8两名对研究设计盲目的放射科医生独立审查每个患者的血管造影或CCTA,以评估冠状动脉狭窄的程度,任何争议都通过第三名放射科医生的审查解决,以便达成共识决定。根据≥狭窄50%的冠状动脉数目和部位,进一步将冠状动脉病变分为单支、双支、三支或左主干病变。
面部照片质量由两名对研究设计盲目的研究人员根据在线补充材料中的方案进行评估,方法S2。不合格的面部照片被排除在最终分析之外。合格的面部照片使用软件进行进一步的预处理,以确保照片质量的一致性(在线补充材料,方法S2)。
使用深度卷积神经网络来训练用于CAD检测的算法(在线补充材料,方法S3,图S1)。我们将每个患者的四张面部照片叠加到一张12通道的照片中,以整合所有面部特征。在给定训练集的完整照片的情况下,该模型提取有用的特征并执行CAD分类决策。根据放射科医师分类,将预测结果与地面实况进行比较,计算预测误差,并进行相应的参数调整,以减小误差。这个过程被重复了足够多的次数,使网络能够学习如何从面部照片中准确地评估重要的CAD。根据验证集上的最佳性能确定算法的参数。
为了进行性能比较,我们还建立了另外三个CAD检测模型。首先,我们根据先前试验前CAD预测模型中确定的26个基线变量建立Logistic回归模型,其中3-8个变量包括患者人口统计信息、社会经济状况、生活方式、病史、风险因素和实验室测试(在线补充材料,表S1)。其次,我们开发了两个基于面部照片和临床变量的混合模型,其中一个模型将我们的算法与Diamond-Forrester模型中的三个变量混合,另一个模型将我们的算法与Logistic回归模型中的26个变量融合(在线补充材料,方法S3)。
为了评估算法的性能,我们以放射科医生的诊断为对照,计算了灵敏度、特异度、受试者工作特征曲线下面积(AUC)、阳性预测值(PPV)、阴性预测值(NPV)和诊断准确率。我们在从受试者工作特征(ROC)曲线中选择的两个操作点对该算法进行了评估,其中一个被选为灵敏度和特异度之和最大,另一个被选为高灵敏度(80%)。
我们进行了几次分析,以更好地理解CAD是如何在深度学习算法中的多个层次上识别的。
我们假设该算法可能部分地通过识别CAD风险因素来检测CAD。因此,我们训练了另外七个基于面部照片的算法,分别预测了传统模型中包括的七个CAD危险因素,包括年龄、性别、糖尿病、高血压、高脂血症、吸烟和体重指数(BMI)(在线补充材料,方法S4.1)。3-7、9和我们分别在试验组中测试了这七种算法的性能,以推测识别CAD的算法的潜在工作机制。
使用来自训练组的数据,我们进行了两次可视化测试,以识别算法对CAD分类突出显示的重要面部区域(在线补充材料,方法S4.2)。在第一个测试中,我们使用自动地标识别软件将患者的正面面部照片分为以下七个部分:双侧脸颊、额头、双眼、双侧耳朵、鼻子、嘴巴和下巴。为了重新训练和验证算法,我们依次遮挡了这些部分中的每一个。基于遮挡后算法性能的下降,我们评估了不同面部区域对算法的贡献(在线补充材料,图S2A)。
在第二个可视化测试中,我们依次遮挡了所有面部照片中较小的区域(11 × 11像素)。利用遮挡对算法的影响输出每张照片的热图,更直观地显示算法认为对CAD分类重要的面部区域(在线补充材料,图S2B)。
为了进一步检验面部特征和CAD之间关联的稳健性,我们在训练数据集中评估了“阳性面部区域”数量和CAD患病率之间的剂量-反应关系(在线补充材料,方法S4.3)。为了识别阳性面部区域,我们使用自动标志性软件将患者的正面面部照片分为9个部分,包括左脸颊、右脸颊、额头、左眼、右眼、双侧耳朵、鼻子、嘴巴和下巴(在线补充材料,图S2A)。阳性区域是那些有助于检测CAD的区域,它们是通过遮挡照片的这些特定区域后模型的AUC降低来识别的。我们根据阳性面部区域的数量将患者分为三组(0~3、4~6或6~9个阳性面部区域),并比较各组之间冠心病、单/双支病变和三支/左主干病变的患病率。
基于验证组的结果,我们假设我们的算法在测试组的敏感度为0.8,特异度为0.6。灵敏度计算的抽样精度估计为±5%,显著性水平为5%。因此,我们需要将246名冠心病患者和369名非冠心病患者纳入试验组,以检测该算法的敏感性和特异性。18岁。
数据以连续变量的平均值±标准差和离散变量的百分比表示。分类变量比较采用卡方检验或Fisher精确检验,连续变量比较采用t检验或Mann-Whitney U检验。
为所有诊断性能指标计算准确的95%置信区间(CI)。我们使用德隆检验来比较不同模型的AUC。根据年龄、性别、心绞痛症状、危险因素和冠状动脉病变程度进行预先指定的亚组分析。为了进一步巩固我们的结果,我们执行了两个敏感度分析,包括(I)使用像素增加或减少的照片来评估算法在不同图像质量下的性能,以及(Ii)在开发阶段没有包括的额外中心测试算法性能。
所有的比较都是双侧的,统计学意义定义为P <; 0.05。使用SAS版本9.4(SAS研究所公司)计算分析。
2017年7月至2019年3月,在8个地点登记了5840名符合纳入标准的患者(图1)。我们排除了44名面部照片不合格的患者(0.8%)。在剩下的5 796名患者中,我们随机将90%(n = 5 2 16)患者分为训练组,10%(n = 5 80)患者进入验证组。两组的基线特征相似(表1)。在2019年4月至2019年7月期间,在9个地点招募了1024名符合条件的患者纳入测试组;在排除11名(1.1%)面部照片不合格的患者后,最终数据集包括1013名患者(图1)。与训练组的患者相比,测试组的患者年龄更大,接受过CCTA的可能性更大,男性更少,有心脏病风险因素,有生活方式风险因素,正在接受药物治疗(表1)。
数据以平均值±标准差或n(%)表示。表1中没有丢失任何数据。
ACEI,血管紧张素转换酶抑制剂;BMI,体重指数;CCB,钙通道阻滞剂;COPD,慢性阻塞性肺疾病;HDL,高密度脂蛋白;LDL,低密度脂蛋白。
数据以平均值±标准差或n(%)表示。表1中没有丢失任何数据。
ACEI,血管紧张素转换酶抑制剂;BMI,体重指数;CCB,钙通道阻滞剂;COPD,慢性阻塞性肺疾病;HDL,高密度脂蛋白;LDL,低密度脂蛋白。
算法和其他模型的AUC值、敏感度、特异度、PPV值、NPV值和准确性见于表2,在线补充材料,表S2和图2中。该算法在验证组和测试组中分别达到0.757(95%CI,0.710-0.805)和0.730(95%CI,0.699-0.761)的AUC值,验证组和测试组的AUC值分别为95%CI(95%CI,0.710-0.805)和0.730(95%CI,0.699-0.761)。以敏感度和特异度之和最大的操作点进行验证,算法的敏感度和特异度分别为0.71和0.72,试验组的敏感度和特异度分别为0.68和0.68。这些结果对应于验证组的PPV为0.89和NPV为0.42,而试验组的PPV为0.72和NPV为0.64。使用灵敏度高(80%)的操作点,验证组的灵敏度和特异度分别为0.80和0.61,试验组的灵敏度和特异度分别为0.80和0.54。在测试数据集中,与戴蒙德-弗雷斯特模型(0.730比0.623,P <; 0.001)、CAD联盟临床评分(0.730比0.652,P <; 0.001)和基于26个基线变量的Logistic回归模型(0.730比0.660,P <; 0.001)相比,该算法显示出更高的AUC值。钻石-弗雷斯特模型中的3个变量(0.730比0.726,P = 0.66)和Logistic回归模型中的26个变量(0.730比0.724,P = 0.52)的加入并没有显著改善算法的AUC值。
AUC,受试者工作特征曲线下面积;NPV,阴性预测值;PPV,阳性预测值;SEN,敏感性;SPE,特异性。
验证组冠心病患病率(单支冠脉病变≥为50%)为76.9%(4 4 6/5 80)。
B Logistic回归模型包括以下基线变量:年龄、性别、文化程度、久坐工作、工作时间、生活方式、运动、吸烟、体重指数、冠心病家族史、高血压、高脂血症、糖尿病、脑血管病、心力衰竭、外周血管疾病、慢性肾脏疾病、慢性阻塞性肺疾病、症状、血糖、总胆固醇、甘油三酯、高密度脂蛋白胆固醇和低密度脂蛋白胆固醇。该模型包含了传统和最新冠状动脉疾病预测模型中的所有变量。3-8。
试验组冠心病患病率(单支冠脉病变≥50%)为53.9%(546/1013)。
AUC,受试者工作特征曲线下面积;NPV,阴性预测值;PPV,阳性预测值;SEN,敏感性;SPE,特异性。
验证组冠心病患病率(单支冠脉病变≥为50%)为76.9%(4 4 6/5 80)。
B Logistic回归模型包括以下基线变量:年龄、性别、文化程度、久坐工作、工作时间、生活方式、运动、吸烟、体重指数、冠心病家族史、高血压、高脂血症、糖尿病、脑血管病、心力衰竭、外周血管疾病、慢性肾脏疾病、慢性阻塞性肺疾病、症状、血糖、总胆固醇、甘油三酯、高密度脂蛋白胆固醇和低密度脂蛋白胆固醇。该模型包含了传统和最新冠状动脉疾病预测模型中的所有变量。3-8。
试验组冠心病患病率(单支冠脉病变≥50%)为53.9%(546/1013)。
图3总结了测试数据集的子组中的算法性能。该算法在男性和女性患者中具有相似的性能,而在典型心绞痛、冠心病危险因素较多、≥60 或更复杂病变的患者中性能更好。在改变照片像素的敏感度分析中,算法性能保持稳定(在线补充材料,图S3)。在另一个未包括在开发阶段的额外中心(n = 16)的性能测试的敏感性分析中,AUC值为0.436。
对于连续的危险因素,该算法对年龄的平均绝对误差(MAE)为5.68(95%CI,5.41-5.95),对BMI的平均绝对误差(MAE)为2.59(95%CI,2.45-2.72)(表3)。对于分类危险因素,算法得出性别的AUC值为0.990,高脂血症的AUC值为0.694,糖尿病的AUC值为0.579,高血压的AUC值为0.606,吸烟的AUC值为0.831(表3)。
在试验组中评估算法在预测冠心病危险因素中的性能。
AUC,接收器工作特性曲线下面积;CI,置信区间;MAE,平均绝对误差。
在试验组中评估算法在预测冠心病危险因素中的性能。
AUC,接收器工作特性曲线下面积;CI,置信区间;MAE,平均绝对误差。
在遮盖这七个面部部位后,面颊的AuC下降幅度最大(AuC = 0.0365),其次是额头(AuC = 0.0185)、鼻子(AuC = 0.0178)、眼睛(AuC=0.0160)、嘴巴(AuC = 0.0154)、耳朵(AuC = 0.0148)和下巴(AuC = 0.0062)(图4A)。在11 × 11像素的遮挡区域测试中,我们从训练组中随机选择了10%的患者(n = 5 2 2),成功地获得了2 0 88个热图,识别了算法可能用来进行预测的区域。图4B显示了该算法突出显示的特定面部特征。
冠心病(P <; 0.001)、单支/双支病变(P <; 0.001)和三支病变/LE的患病率呈上升趋势
.