回归推断

到目前为止,我们对变量之间关系的分析完全是描述性的。我们知道如何在散点图中找到最佳直线。这条直线之所以最佳,是因为它在所有直线中具有最小的估计均方误差。

但如果我们的数据只是来自更大总体的一个样本呢?如果在样本中我们发现两个变量之间存在线性关系,那么总体中是否也是如此?会是完全相同的线性关系吗?我们能否预测不在样本中的新个体的响应?

如果我们相信散点图反映了所绘制的两个变量之间的潜在关系,但并未完全确定这种关系,那么这类推断和预测问题就会出现。例如,出生体重对孕天数的散点图向我们展示了样本中两个变量的精确关系;但我们可能会想知道,对于抽样所来自的总体中的所有婴儿,或者对于一般的所有婴儿来说,这种关系是否成立或大致成立。

与往常一样,推断性思维始于仔细审视关于数据的假设。一组假设被称为“模型”。关于大致线性散点图中随机性的假设集合被称为“回归模型”。