导论
数据是对我们周围世界的描述,通过观察收集并存储在计算机中。计算机使我们能够从这些描述中推断出世界的属性。数据科学是利用计算从数据中得出结论的学科。有效的数据分析包含三个核心方面:探索、预测和推断。本书为这三者构建了一套统一的方法,同时引入统计思想和计算机科学的基本概念。我们聚焦于一组最核心的技术,它们可以应用于极其广泛的真实场景。数据科学的基础不仅需要理解统计和计算技术,还需要认识到它们如何应用于现实场景。
无论我们想研究世界的哪个方面——无论是地球气候、全球市场、政治民调还是人类心智——我们收集的数据通常都只能提供关于研究对象的不完整描述。数据科学的一个核心挑战就是如何利用这些局部信息做出可靠的结论。
在这一努力中,我们将结合两种基本工具:计算和随机化。例如,我们可能希望利用温度观测数据来理解气候变化趋势。计算机使我们能够利用所有可用信息来得出结论。我们不会只关注某个地区的平均温度,而是将整个温度范围放在一起考量,构建更细致的分析。随机化使我们能够考虑那些不完整信息可能被补全的多种不同方式。我们不会假设温度以特定方式变化,而是学习使用随机化来想象许多可能与我们所观测数据一致的场景。
实施这种方法需要学习计算机编程,因此本书穿插了完整的编程入门介绍,假设读者没有编程基础。有编程经验的读者会发现,我们涵盖了一些典型的计算机科学入门课程中不会出现的计算主题。数据科学还需要对数值量进行仔细的推理,但本书不假设读者具备超越基础代数的数学或统计学背景。你将在本书中看到非常少的公式。相反,技术将以与描述给执行它们的计算机相同的语言——编程语言——来向读者阐述。