什么是数据科学
数据科学是关于通过探索、预测和推断从大规模、多样化的数据集中得出有用结论的学科。探索涉及识别数据中的模式。预测涉及利用已知信息对未知值做出有根据的推测。推断涉及量化我们的确定程度:我们在数据中发现的模式是否也会出现在新的观测中?我们的预测有多准确?我们用于探索的主要工具是可视化和描述性统计,用于预测的主要工具是机器学习和优化,用于推断的主要工具是统计检验和模型。
统计学是数据科学的核心组成部分,因为统计学研究如何基于不完整信息做出可靠的结论。计算是核心组成部分,因为编程使我们能够将分析技术应用于现实世界中产生的大规模和多样化数据集:不仅仅是数字,还包括文本、图像、视频和传感器读数。数据科学包含了所有这些要素,但由于与实际应用的结合,它又超越了各部分之和。通过理解特定领域,数据科学家学会提出恰当的数据问题,并正确解读推断和计算工具所提供的答案。