估计
在上一章中,我们开始发展了推断性思维的方法。特别是,我们学习了如何使用数据在对世界的两个假设之间做出选择。但通常我们只是想知道某个事物有多大。
例如,在较早的一章中,我们调查了敌人可能有多少架战机。在选举年,我们可能想知道有多少百分比的选民支持某位候选人。为了评估当前经济状况,我们可能会对美国住户的年收入中位数感兴趣。
在本章中,我们将开发一种方法来“估计”未知的“参数”。请记住,参数是与总体相关的数值。
要找出参数的值,我们需要数据。如果我们拥有整个总体的相关数据,我们可以直接计算参数。
但如果总体非常大——例如,由全美所有住户组成——那么从整个总体收集数据可能过于昂贵和耗时。在这种情况下,数据科学家依赖于从总体中随机抽样。
这就引出了一个推断问题:如何基于随机样本中的数据对未知参数做出合理的结论?我们将通过使用推断性思维来回答这个问题。
基于随机样本的统计量可以是对总体中未知参数的合理估计。例如,你可能想使用样本住户的年收入中位数作为全美所有住户年收入中位数的估计值。
但任何统计量的值都取决于样本,而样本基于随机抽取。因此,每次数据科学家基于随机样本提出一个估计值时,他们都面临一个问题:
“如果样本结果不同,这个估计值可能会有多大差异?”
在本章中,你将学习回答这个问题的一种方法。答案将为你提供估计数值参数和量化估计误差量的工具。
我们将从关于百分位数的预备知识开始。最著名的百分位数是中位数,常用于收入数据的概括。其他百分位数将对我们即将开发的估计方法很重要。因此,我们将首先仔细定义百分位数。