人工智能–疯狂复杂,绝望不足

2021-01-17 05:09:54

Warning: Can only detect less than 5000 characters

Warning: Can only detect less than 5000 characters

1950年B的大规模研究反复证明,吸烟者患肺癌的可能性要比不吸烟者高得多,而且吸烟越多,患肺癌的可能性就越大。但是许多人,包括一些著名的统计学家,都认为这种联系的证据不能被视为因果关系的证据。关键的困难在于,尽管我们可以衡量吸烟者罹患肺癌的比例,但这与能够衡量由于吸烟而患肺癌的吸烟者的比例不是一回事。烟草游说者也许会辩称,吸烟的人也喜欢喝酒,而酒精会导致癌症。统计学家称入侵另一个变量会产生虚假的关联,“令人困惑”。为了消除可能的混杂因素,需要使用不同酒精消费水平的小组,并评估每个人的吸烟危险,从而“控制”混杂变量。试图控制尽可能多的混杂因素,但这并非总是正确的做法。

Pearl通过一个基于辛普森悖论的例子来证明这一点。想象一下,我们正在研究两种用于降低心脏病发作风险的药物的功效,这两种药物均可通过降低血压发挥作用。在预防女性和男性心脏病发作方面,药物A比药物B更有效,但自相矛盾的是,整体而言效果较差。如果我们控制性别,我们将更喜欢药物A。如果我们不这样做,我们会更喜欢药物B。但是我们应该吗?

这里有明显的性别效应:男人使用毒品A的人数多于妇女,使用毒品B的女性人数多于男人。性别决定药物的选择似乎很明显(因此性别是我们应该控制的混杂因素)。但是,如果我们用“高血压”和“低血压”代替标签“男人”和“妇女”,我们就无法提出相同的论据,因为我们不知道血压水平是起因还是原因。选择药物的效果。 Pearl得出的结论是,我们对潜在因果过程的理解告诉我们如何分析数据。我们从不从零开始:在开始估计一个变量对另一个变量的因果影响之前,我们必须具有一个域模型,并对其他变量所起的作用有一些了解。

模型越丰富,我们可以部署的推理就越复杂。法院使用“ but for”检验解决因果关系问题。如果但由于您在超速行驶,我不会遭受这些伤害,那么您就是造成了这些伤害。这项测试涉及反事实推理:我们必须想象一下如果您没有超速行驶的世界。我们可以使用相同的过程从数据中找出原因,将观察到的数量(死于肺癌的吸烟者数量)与反事实数量的估计值(如果不吸烟则可能死亡的人数)进行比较。考虑一项研究,发现肥胖人群中的死亡人数更多,相当于每年超过十万的死亡人数。诱人地说肥胖是这些过度死亡的原因。但是,我们无法通过比较肥胖人群的死亡率和非肥胖人群的死亡率来准确估算肥胖的因果影响。相反,我们需要将其与肥胖并非肥胖的反事实世界中的死亡率进行比较。估计值将主要取决于我们认为可能解释该差异的原因:他们是否运动量更大,饮食是否更好?有些人坚持

......