1 引言

各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。

之前的文章中虽然掌柜已经详细介绍过精确率(Precision)和召回率(Recall)的计算原理与实现,但是并没有介绍在有了准确率(Accuracy)之后为什么还需要精确率和召回率,以及精确率和召回率除了作为一种常见的评价指标来使用还有没有别的用途。在接下来的这篇文章中,掌柜将会首先介绍为什么需要精确率和召回率;然后再以另外一个视角来回顾精确率和召回率;最后再来介绍筛选模型的另外两个诊断工具ROC Curve和Precision-Recall Curve。

2 精确率与召回率

通常来说,之所以会出现新的评价指标很大程度上都是因为原有评价指标在某些特定情况下存在着严重的不足之处。在分类问题中,对于准确率这一评价指标来说,其不足之处就在于当我们面对的是一个正负样例严重不均衡的分类任务时如果仅采用准确率作为评价指标,那模型的预测结果将会严重误导我们的决策。

2.1 准确率弊端

例如现在需要训练一个癌细胞诊断模型,在训练数据中其中负样本(非癌细胞)有10万个,而正样本(癌细胞)只有200个。假如某个模型将其中的105个预测为正样本,100095个预测为负样本。最终经过核对后发现,正样本中有5个预测正确,负样本中有99900个样本预测正确。那么此时该模型在训练集上的准确率为:

Accuracy=99900+5100000+2000.997(1)

但显然,这样的一个模型对于辅助医生决策来说并没有任何作用。因此,在面对类似这样样本不均衡的任务中,并不能够将准确率作为评价模型的唯一指标。此时就需要引入精确率和召回率来作为新的评价指标。

2.2 精确率与召回率原理

虽然在之前逻辑回归的讲解以及文章多分类任务下的召回率与F值中掌柜已经详细介绍了什么是精确率与召回率以及各自的计算方法,但是掌柜下面将会从另外一个视角来介绍精确率与召回率。

假定现在有一个猫狗识别程序,并且假定狗为正类别(Positives)猫为负类别(Negatives)。程序在对12张狗和10张猫的混合图片进行识别后,判定其中8张图片为狗,14张图片为猫。在这8张程序判定为狗的图片中仅仅只有5张图片的确为狗,因此这5张图片就被称为正确的正样本(True Positives, TP),而余下的3张被称为错误的正样本(False Positives, FP)。同时可以得出,此时12张狗中的7张狗被程序误判为了猫,而这7张就被称之为错误的负样本(False Negatives, FN);并且14张被判定为猫的图片中仅有7张为真实的猫,即正确的负样本(True Negatives, TN)。整个结果分布如图1所示[2]。

图 1. 猫狗图片识别结果分布图

如图1所示,整个矩形左边部分为正样本(relevant elements),矩形右边部分为负样本;中间的圆形区域为识别到的正样本(retrieved elements);左边与圆相交的部分为TP,其余部分为FN;右边与圆相交部分为FP,其余部分为TN。

因此,该程序识别正样本狗的精确率为:

Precision=TPTP+FP=55+3=58(2)

识别正样本狗的召回率率为:

Recall=TPTP+FN=55+7=512(3)

同时,精确率和召回率的计算公式还可以通过图2来进行表示:

图 2. 精确率召回率计算原理图

从图2可以看出,精确率衡量的是在所有检索出的样本(程序识别为“狗”)中有多少是真正所期望被检索(真实为狗)出的样本;召回率衡量的则是在所有被期望检索(真实为狗)出的样本中,到底检索出了多少样本。

在这里尤其需要注意的一点是,从图2可以看出在计算召回率时其分母(即TP+FN)是一个定值,这个结论在稍后将会用到。

例如:某一次掌柜在使用搜索引擎搜索掌柜需要的内容时,搜索引擎一共返回了30个搜索页面,掌柜逐一阅读后发现其中只有20个页面与掌柜检索的内容相关。同时,掌柜开天眼后得知其实还存在另外50个与内容相关的页面搜索引擎并没有返回。那么此时该搜索引擎对于掌柜搜索内容结果的精确率就是20/30=2/3,它告诉了掌柜搜索引擎返回的结果中哪些是有效的;召回率就是20/(20+50)=2/7,它告诉了掌柜搜索引擎返回的有效结果在所有有效结果中的占比。

从上面的内容可知,精确率和召回率分别从不同的角度来衡量了一个模型的表现能力,其中精确率衡量的是模型发现正样本相关性的能力,而召回率则是衡量模型在整个数据集中发现正样本的能力,并且可以发现两者的结果都是越大越接近于1越好。

在清楚精确率和召回率的原理之后再来看2.1节中癌细胞的识别模型,则此时有:

  • TP(表示将正样本预测为正样本,即预测正确)为:5
  • FN(表示将正样本预测为负样本,即预测错误)为:195
  • FP(表示将负样本预测为正样本,即预测错误)为:100
  • TN(表示将负样本预测为负样本,即预测正确)为:99900

那么

Accuracy=TP+TNTP+TN+FP+FN=999051002000.997Precision=TPTP+FP=55+1000.05(4)Recall=TPTP+FN=55+195=0.025

从计算结果可以发现,尽管这个癌细胞判别模型的准确率很高,但是从精确率和召回率来看则非常糟糕。

2.3 准确率与召回率区别

介绍到这里可能有朋友会问,在上述问题中既然精确率和召回率都能够解决准确率所带来的弊端,那可不可以只用其中一个呢?答案是不可以。

这里掌柜再次以上面的癌细胞判别程序为例,并以三种情况来进行示例说明:

情况一:将训练集中的所有样本均预测为正样本,此时有TP=200FP=100000TN=0FN=0,则

Accuracy=2001002000.002Precision=200100000+2000.002(5)Recall=200200+0=1.

情况二:将训练集其中的50个预测为正样本,100150个预测为负样本。最终经过核对后发现,正样本中有50个预测正确,负样本中有100000个样本预测正确。此时有TP=50FP=0TN=100000FN=150,则

Accuracy=50+1000001002000.999Precision=5050+0=1.0(6)Recall=5050+150=0.25

情况三:将训练集其中的210个预测为正样本,99990个预测为负样本。最终经过核对后发现,正样本中有190个预测正确,负样本中有99980个样本预测正确。此时有TP=190FP=20TN=99980FN=10,则

Accuracy=190+999801002000.999Precision=190190+200.905(7)Recall=190190+10=0.95

根据三种情况下的表现结果可以知道,如果仅从单一指标来看无论是准确率、精确率还是召回率都不能全面地来评估一个模型。并且,至少应该选择精确率和召回率同时作为评价指标。

此时可以发现,精确率和召回率之间总体上(不是绝对)存在着某种相互制约的关系,即类似于此消彼长的情况。可能模型某些时候取得了较高的召回率但是精确率却很低,也可能是取得了较高的精确率但召回率却很低。所以,在实际情况中我们会根据需要来选择不同的侧重点,当然最理想的情况就是在取得高召回率的同时还能保持较高的精确率。

因此,我们还可以通过一个统一的指标来衡量模型的召回率与精确率,即

F-score=(1+β2)PrecisionRecallβ2(Precision+Recall)(8)

其中用到频率最高的是当β=1时的F1值,即

F-score=2PrecisionRecallPrecision+Recall(9)

因此,上述三种情况对应的F1值分别为0.0390.40.927

所以,对于一个分类模型来说,如果想要在精确率和召回率之间取得一个较好的平衡,最大化F1值是一个有效的方法。

3 Precision-Recall 曲线

在机器学习的二分类问题中,以逻辑回归为例,模型首先输出的是当前样本属于正类别的概率值,然后再根据一个指定的阈值来判定其是否为正类,并且通常情况下该阈值默认为0.5。但是,我们依旧可以根据实际情况来调整这一阈值从而获得更好的模型预测结果。由此,便可以根据阈值的变化来计算得到不同阈值下的精确率和召回率并绘制成一条曲线,而这条曲线就被称为Precision-Recall Curve(PR Curve)。

通过PR曲线,我们便可以清楚地观测到精确率与召回率的变化情况,以此来选择一个合理的阈值。

3.1 Precision-Recall 曲线原理

如图3所示,横纵坐标分别为不同阈值下的召回率Recall和精确率Precision,蓝色图像便是绘制得到的Precision-Recall曲线。

图 3. 二分类Precision-Recall曲线图

对于精确率来说,根据公式(2)可知,阈值越小那么TP+FP就会越大(因为更多的样本会被预测为正类别),整体上(不是绝对)精确率便会降低;同理,如果阈值越大那么TP+FP就会越小,某些情况下预测出的结果可能都是正样本,则精确率总体上便会提高。因此,如果阈值由小变大,那么便会使得FP变小,精确率便也会由小变大[4]。

对于召回率来说,根据公式(3)可知,TP+FN是一个定值(即所有真实正样本的数量),改变阈值并不会使得TP+FN发生改变。这意味着如果降低阈值,那么召回率便会提高或保持不变,因为TP变得更大(或保持不变)了。因此,如果阈值由小变大,那么便会使得TP变小,召回率便会由大变小。

总结起来就是,随着召回率的增大,那么精确率整体上可能会呈下降趋势,如图3所示。因此,Precision-Recall曲线很好地展示了在不同阈值取值下精确率和召回率的平衡情况。同时,从上面的分析可知,最理想的情况便是随着召回率的提升,精确率也逐步保持提升或保持不变。

3.2 AUC计算

虽然通过PR曲线能够有效地观察模型在不同阈值下精确率和召回率的变化情况,但是在不同模型之间却很难进行比较。此时,在基于PR曲线的基础上,可以通过计算曲线下面积(Area Under the Curve, AUC)来得到一个整体的评估值,如图4所示。

图 4. 二分类Precision-Recall曲线AUC图

如图4所示,PR曲线投影至x轴的整个区域就是PR曲线对应的AUC值。从图中可以看出,高AUC也就意味着高精确率和高召回率,AUC的值越大也就意味着模型的效果越好。同时,由于Precision和Recall的取值范围均为[0,1],因此PR AUC的取值范围同样也是[0,1]

由于并不知道PR曲线对应的函数不能用积分进行求解,因此只能采用近似的方法来求得曲线与x轴所围成的面积。对于PR AUC值的计算一般来说有两种方式:矩形规则和梯形规则。

对于矩形规则来说[5],其主要思想是将x轴上连续两个值之间与曲线围成的区域看成是一个矩形,然后依次累加所有矩形的面积得到PR AUC,如图5所示。

图 5. 矩形规则计算原理图

计算公式为:

AP=in(RiRi1)Pi(10)

其中RiPi分别表示第i个阈值对应的召回率和精确率。

从公式(10)的计算过程可以看出,通过这种方法来计算AUC值形式上就相当于是对不同阈值下的精确率进行了加权求和(权重是(RnRn1)。因此在scikit-learn中这一计算结果也称为平均精确率(Average Precision),也就是图4中的AP值。

对于梯形规则来说[8],其主要思想则是将x轴上连续两个值之间与曲线围成的区域看成是一个梯形,然后依次累加所有梯形的面积得到PR AUC[9],如图6所示。

图 6. 梯形规则计算原理图

计算公式为:

AUC=i,jn12(Pi+Pj)(RjRi),(i<j)(11)

其中Ri,Rj分别为x轴上(召回率中)两个连续的点, Pi,Pj为分别为与Ri,Rj对应的精确率。

这里需要注意的是,由于上述两种计算AUC的方法采用了不同的策略,因此最终两者计算得到的结果并不相等。

4 代码实现

下面,掌柜将先来介绍如何通过编码实现不同阈值下召回率和精确率的计算、AUC计算和Precision-Recall曲线的可视化;然后再来介绍如何通过sklearn提供的接口来完成上述过程。以下所有示例代码均可从词仓库[11]中获取!

4.1 指标计算

首先我们需要定义一个预测函数,根据不同的阈值输出不同的预测结果,代码如下:

接着再定义一个函数来计算精确率和召回率,代码如下:

最后,再定义一个函数来整体实现不同阈值下精确率和召回率的计算,代码如下:

在上述代码中,第2行用来从原始y_scores中得到候选阈值,并进行升序处理;第4-8行为依次遍历每个阈值并计算得到相应的精确率和召回率(注意,此时计算得到的召回率是递减的);第10-13行是先找到升序状态下recalls中最后一个元素开始重复的索引,然后再将后续相同的结果去掉,例如recalls=[1.0, 1.0, 0.75, 0.5, 0.25, 0.25, 0.25, 0.0]去重后就会变成recalls=[1.0, 0.75, 0.5, 0.25, 0.25, 0.25, 0.0],当然不去重也可以掌柜这里只是为了得到和sklearn一样的结果;第14-15行则是分别在精确率和召回率中加入初始值,便于后续作图。

之后,我们便可以通过真实标签和预测概率计算得到相应的结果:

上述代码运行后的结果为:

对于AUC值的计算,采用矩形规则可以通过如下代码进行实现:

采用梯形规则的话可以通过sklearn中的sklearn.metrics.auc进行计算。

上述示例的AUC值计算结果为:

4.2 结果可视化

在编码实现各个指标的计算过后,进一步便可以对其进行可视化。下面掌柜以逻辑回归二分类模型为例进行示例。

在上述代码中,第4-7行为导入数据集并添加相应的噪音维度以便更好观察pr曲线(因为原始数据过于简单);第9-10行则是只取其中的两个类别。

进一步,可以通过如下步骤就是进行可视化:

在上述代码中,第3-5行用来训练模型;第6-8行分别用来计算测试集的预测概率、精确率、召回率以及平均精度;第9-12行则是可视化Precision-Recall曲线,其中drawstyle参数的目的是得到阶梯状的可视化结果;第15-16行是通过sklearn中的接口进行可视化。最终两者都将得到如图3所示的结果。

当然,除了二分类场景之外还可以在多分类场景下来可视化每个类别对应的PR曲线,示例代码如下:

在上述代码中,第5行用来将原始标签转化为one-hot编码形式的标签,由于后续计算每个类别所对应的相应指标;第7-11行则是分别对每个类别的Precision-Recall曲线进行可视化。当然,也可以直接借助sklearn中的方法来完成。

最终,可视化后的结果如图7所示:

图 7. 多分类Precision-Recall曲线图

5 总结

在这篇文章中,掌柜首先从一个新的视角回顾了精确率与召回率的概念和原理,并且通过示例详细介绍了准确率的不足之处以及为什么需要用到精确率和准确率;接着介绍了基于精确率和召回率的Precision-Recall曲线的作用与原理;最后,掌柜详细介绍了如何编码实现召回率和精确率中各项指标的计算以及二分类和多分类场景下Precision-Recall曲线的可视化方法。

本次内容就到此结束,感谢您的阅读!如果你觉得上述内容对你有所帮助,欢迎点赞分享!若有任何疑问与建议,请添加掌柜微信nulls8(备注来源)或加群进行交流。青山不改,绿水长流,我们月来客栈见

引用

[1]https://en.wikipedia.org/w/index.php?title=Information_retrieval&oldid=793358396#Average_precision

[2]https://en.wikipedia.org/wiki/Precision_and_recall

[3]https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-classification-in-python/

[4]https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-imbalanced-classification/

[5]https://scikit-learn.org/stable/auto_examples/model_selection/plot_precision_recall.html

[6]https://en.wikipedia.org/wiki/Trapezoidal_rule

[7]https://builtin.com/data-science/precision-and-recall

[8]https://en.wikipedia.org/wiki/Trapezoidal_rule

[9]https://scikit-learn.org/stable/modules/generated/sklearn.metrics.auc.html

[9] 多分类任务下的召回率与F值

[10] 第3章从零认识逻辑回归(附高清PDF与教学PPT)

[11] 示例代码:https://github.com/moon-hotel/MachineLearningWithMe