检验假设
数据科学家经常面临关于世界的二值问题。你已在本课程中看到过此类问题的一些例子:
- 巧克力对你有益吗?
- 布罗德街水泵的水是否导致了霍乱?
- 加利福尼亚州的人口结构在过去十年中是否发生了变化?
我们能否回答这些问题取决于我们拥有的数据。关于加利福尼亚州的人口普查数据几乎可以确定地回答人口结构问题。我们知道布罗德街水泵的水被霍乱患者的排泄物污染,因此我们可以相当准确地推测它是否导致了霍乱。
巧克力或任何其他治疗是否对你有益,几乎肯定需要由医学专家来决定,但初始步骤包括使用数据科学分析来自研究和随机实验的数据。
在本章中,我们将尝试回答此类二值问题,将我们的结论建立在随机样本和经验分布的基础上。