统计技术
统计学学科长期以来一直在应对与数据科学相同的基本挑战:如何利用不完整的信息得出关于世界的可靠结论。统计学最重要的贡献之一是提供了一套一致且精确的词汇来描述观测与结论之间的关系。本书延续了这一传统,聚焦于统计学中的一组核心推断问题:检验假设、估计置信度以及预测未知量。
数据科学拓展了统计学领域,充分利用了计算、数据可视化、机器学习、优化和信息获取的成果。高速计算机与互联网的结合,使任何人都能够访问和分析海量数据集:数百万篇新闻文章、完整的百科全书、任何领域的数据库,以及庞大的音乐、照片和视频资源库。
实际数据集的应用程序激发了我们在全书中介绍的统计技术。真实数据往往不遵循规则模式或匹配标准方程。过分关注平均值等简化摘要可能会丢失真实数据中有趣的变异。计算机使我们能够采用基于重抽样的一系列方法,这些方法适用于广泛的不同推断问题,能够利用所有可用信息,几乎不需要假设或条件。尽管这些技术通常被保留给高级统计学课程,但其灵活性和简洁性使其天然适用于数据科学应用。