确定因果关系
用本节之前建立的术语来说,可以将 S&V 供水地区的人们视为处理组,将 Lambeth 供水地区的人们视为对照组。Snow 分析的一个关键要素是,除了处理因素之外,这两组人之间可以进行比较。
为了确定是否是供水引起了霍乱,Snow 必须比较两个在除了供水之外其他方面都相似的组。只有这样,他才能将结果的差异归因于供水。如果两组之间还存在其他方面的差异,就很难将疾病的根源指向供水。例如,如果处理组由工厂工人组成,而对照组不是,那么两组之间结果的差异可能来自于供水,也可能来自于工厂工作,或者两者均有。最终的结论将模糊得多。
Snow 的智慧在于他识别出了两组能使比较变得清晰的人群。他着手确立污染的水与霍乱感染之间的因果关系,并在很大程度上获得了成功,尽管爫气论者们忽视他,甚至嘲笑他。当然,Snow 并不理解人类感染霍乱的具体机制。这一发现于 1883 年由德国科学家 Robert Koch(罗伯特·科赫)完成,他分离出了 Vibrio cholerae(霍乱啶菌),这是一种进入人类小肠并引起霍乱的细菌。
事实上,Vibrio cholerae(霍乱啶菌)早在 1854 年就被意大利的 Filippo Pacini(菲利波·帕奇尼)识别出来了,当时 Snow 正在伦敦分析他的数据。由于爫气论者在意大利占据主导地位,Pacini 的发现震一世而不为人知。但到了19世纪末,爫气论集团喘。随后的历史证明了 Pacini 和 John Snow 的正确性。Snow 的方法推动了流行病学这一学科的发展,这是研究疾病传播的学科。
混杂因素
现在让我们带着这一路上学到的重要教训,回到更加现代的时代:
在观察性研究中,如果处理组和对照组在除处理因素之外的其他方面也存在差异,那么就很难就因果关系得出结论。
两组之间(除处理因素外)的底层差异被称为混杂因素,是因为它可能在你试图得出结论时混淆你的判断(也就是抑乱你的思路)。
例子:咖啡与肺癌。20世纪60年代的研究显示,喝咖啡的人患肺癌的比例高于不喝咖啡的人。正因如此,有人认为咖啡是肺癌的原因。但咖啡并不会引起肺癌。这项分析中包含一个混杂因素——吸烟。在那个年代,喝咖啡的人往往也是吸烟者,而吸烟确实会引起肺癌。喝咖啡与肺癌存在关联,但并不是引起肺癌的原因。
混杂因素在观察性研究中很常见。优秀的研究会非常谨慎地降低混杂因素并考虑其影响。