分类

本章主要作者为 David Wagner

“机器学习”是一类从数据中自动发现模式并利用其进行推断或预测的技术。你已经见过线性回归,它是机器学习的一种。本章将介绍一种新的方法:“分类”。

分类是关于如何从过去的示例中学习进行预测。我们得到一些已经告知正确预测结果的示例,我们希望从这些示例中学习如何在未来做出好的预测。以下是一些实际应用分类的场景:

所有这些都是分类任务。注意,在这些示例中,每个预测都是一个是/否问题——我们称之为“二分类”,因为只有两种可能的预测结果。

在分类任务中,每个我们想要对其进行预测的个体或情境被称为一个“观测”。我们通常有多个观测。每个观测有多个已知的“属性”(例如,亚马逊订单的总价值,或选民的年薪)。此外,每个观测有一个“类别”,即我们关心的问题的答案(例如,欺诈与否,或是否投票给你)。

当亚马逊预测订单是否欺诈时,每个订单对应一个观测。每个观测有多个属性:订单总价值、订单是否运送到该客户以前使用过的地址等等。观测的类别是 0 或 1,其中 0 表示订单不是欺诈性的,1 表示订单是欺诈性的。当客户下新订单时,我们无法观察到它是否欺诈,但我们可以观察到它的属性,并将尝试使用这些属性来预测其类别。

分类需要数据。它涉及寻找模式,而要找到模式,你需要数据。这就是数据科学的用武之地。具体来说,我们假设我们可以访问“训练数据”:一批观测,我们知道每个观测的类别。这些预先分类的观测的集合也称为训练集。分类算法将分析训练集,然后产生一个分类器:一种用于预测未来观测类别的算法。

分类器不需要完美才能有用。即使它们的准确率低于 100%,它们也可能是有用的。例如,如果在线约会网站偶尔做出糟糕的推荐,那也没关系;他们的客户已经预期需要认识很多人才能找到合得来的人。当然,你不希望分类器犯太多错误——但它不必每次都能得到正确的答案。