AI的表现好吗?十种常见的评估指标

发布时间:2020-06-06 | 作者: | 来源:http://www.222sb.com/info_26812.html

AI的表现好吗?十种常见的评估指标

AI的表現好嗎?十種常見的評估指標

有许多方式可以评估一AI是否有效,以分类器为例,常用的指标便有準确率、精确度、召回率等。但是,某项评估指标数值高,就代表分类器表现好吗?如何正确选择评估指标,才能真实反映AI效能呢?以下将以常见的二元分类器为例,讨论如何藉由资料特性、评估目的及对评估指标的了解,正确选择合适的评估指标。

常见评估指标

生活中有许多属于「二元分类」的问题,例如:应该核准或驳回贷款申请?信用卡发卡与否?是否罹患某一疾病?工厂产品是否有瑕疵?涵盖範围之广,跨及各行各业。AI二元分类器的效能,便可藉由分类(预测)结果与实际情形的差距来评估。我们常以混淆矩阵(confusion matrix)列举可能的情形:

AI的表现好吗?十种常见的评估指标

表一、二元分类的混淆矩阵。

上表中,横列为实际情形,直行为预测结果。「阳性」(positive)代表所关注的类别,如「核准」贷款、「有」罹患疾病;「阴性」(negative)则代表与关注类别相对的另一方。TP(true positive,真阳性)与TN(true negative,真阴性),代表预测结果与实际情形相符的案例;相对的,FP(false positive,伪阳性;又称第一型误差,Type I Error)与FN(false negative,伪阴性;又称第二型误差,Type II Error),则是预测结果与实际情形不符的情况。由上表便可衍伸出常用的十大评估指标:

準确率(Accuracy Rate,ACR)

分类器预测正确的笔数佔所有样本的比例。这是最常被选用的指标,尤其在没有特别的关注类别,只是想尽量提升模型预测能力时。公式为:

\[ ACR= \dfrac{TP+TN}{TP+FP+FN+TN(N总样本个数)} \]真阳性率(True Positive Rate,TPR)& 真阴性率 (True Negative Rate,TNR)

前者衡量阳性类别中被正确预测为阳性的比例,又称召回率(Recall);后者则相反,衡量阴性样本的预测準确率,又称明确度(Specificity)。若相较于整体準确率,你特别重视阳性样本的预测好坏,真阳性率会是关键。例如:医生会希望尽量将确实罹病的患者筛选出来(以「确实罹患」为阳性)、银行希望能降低核准贷款予无偿还能力者的可能性(以「无偿还能力之人」为阳性)。公式如下:

\[ TPR= \dfrac{TP}{TP+FN}\]

\[TNR= \dfrac{TN}{FP+TN} \]伪阳性率(False Positive Rate,FPR)& 伪阴性率(False Negative Rate,FNR)

与前者相对,此项在评估各类别预测错误的比率,与真阳性率与真阴性率有互补关係。前者是评估阴性样本中被预测为阳性的比率,后者则相反。

\[ FPR= \dfrac{FP}{FP+TN}=1-TNR\]

\[FNR= \dfrac{FN}{TP+FN}=1-TPR \]阳性预测值(Positive Predictive Value,PPV)& 阴性预测值(Negative Predictive Value,NPV)

此两指标不是以实际类别为分母,而是预测类别,也就是表格中的直行为分母。其中PPV又称为精确度(Precision),用意在衡量预测阳性的样本中,有多少比例实际亦为阳性;后者意义相同,但为阴性。

\[ PPV= \dfrac{TP}{TP+FP} \]

\[ NPV= \dfrac{TN}{TN+FN} \]F1

目的在衡量真阳性率(TPR)与阳性预测值(PPV)间的平衡。

\[ F1= \dfrac{2 \cdot (PPV \cdot TPR)}{PPV+TPR} \]

此指标只有在TPR与PPV相当(平衡)的情况下才会高;若其中一个表现好,另一个表现极差,F1值则会小很多。例如:当实际阳性与阴性比为10:90时,若仅有1样本被预测为阳性且预测正确,余下99个样本皆预测为阴性(但其中仅90例实际为阴性)。此时PPV=100%, TPR=10%,F1仅0.18;相较于PPV=50%、TPR=50%的情况(F1=0.5),F1值小很多。

几何平均评估指标 (Geometric Mean,GM)

目的在衡量真阳性率(TPR)与真阴性率(TNR)两指标间的平衡。

\[ GM=\sqrt{TPR \cdot TNR} \]

当TPR与TNR的值相当且高,GM值会达到高峰;反之,若其中一值高、另一值低,则GM偏低。

接收者特徵操作曲线(Receiver Operating characteristic Curve,ROC)& 曲线下方面积(Area Under the Curve,AUC)

通常,分类器会给每个样本一个分数,分数高代表属于阳性的机率高,反之则相反。我们可以藉由决定不同的切割点(阈值)来划分阳性与阴性,不同阈值会有不同的表现;与前述所有指标不同,此指标不限于单一阈值的表现,而是描绘在不同阈值下,伪阳性率(FPR)与真阳性率(TPR)的关係。

AI的表现好吗?十种常见的评估指标

图二、ROC曲线与AUC示意图。横轴为FPR,纵轴为TPR。

图二中,左下区域代表随着阈值提高,几乎没有样本被分类为阳性,FPR与TPR皆低;反之,右上区域,随着阈值降低,几乎所有样本都被归类为阳性,两指标值皆高。通常我们会用AUC–ROC底下的区块面积来衡量分类器的好坏:越高代表分类器效果越好。AUC本身也带有意义,代表:随机抽取一个阳性样本A跟阴性样本B后,分类器给前者(A)的分数会大于后者(B)分数的机率,所以自然是越高越好。

当资料分布不均

只是,当资料中阳性与阴性案例的比例不均(一般阳性较少,因为会特别关注的通常是如罹病、瑕疵、违约等少数情况),而分类演算法亦未随之调整,分类器将难以抓住阳性与阴性之间的特徵差异、辨认属于少数类别的样本。此外,评估指标的选择也至关重要,否则可能高(低)估分类器的实际效能,误导大众。例如:当95%的资料为阴性时,一律猜测所有样本皆为阴性,分类器的準确率可达95%;然而,若你关注的类别是阳性,此分类器其实毫无效用。如何改善呢?有以下三个方向。

有些评估指标不受资料类别不平衡的影响,例如ROC-AUC,由于它衡量的是 FPR = P ( Classified = 阳性|True class = 阴性 ) 以及 TPR = P ( Classified = 阳性|True class = 阳性 ) 的关係,是已知真实情况下的条件机率,而不是 P(阳性) 及 P(阴性) ,所以在资料类别分布改变时,ROC-AUC并不会改变。另外,因为F1、GM是在最大化两个不同指标的平衡,虽仍会受到资料分布影响,不过程度相对较小。

    调整资料比例

若要让资料类别分布从不平衡到平衡,也可以直接透过随机抽样调整。有两种抽样方式,一种针对少数类别做过取样(oversampling),增加该类别个数;一种则是对多数类别做降取样(undersampling),目的都是要让资料阳性与阴性样本比例为1:1。

    调整分类规则

可以透过调整分类阈值的方式,让阳性样本较容易被侦测出来。一般的决策阈值是0.5;但是,在不平衡资料情况下,阈值可以更改为「只要阳性样本的分数高于它在资料中佔的比例(阳性为少数类别的情况中,阈值会小于0.5),就分为阳性」。换言之,假设阴性与阳性的比例为a:b,若​\( P(+|x)> \dfrac{b}{a+b} \)​即判定为阳性,否则为阴性。当然,也可以自行设定成本係数,带到分类规则中。

正确选择评估指标

综合上述可以得知,要正确评估分类器的效能,不能只从单方面切入,还必须同时考量分类目的、对资料的了解以及评估指标的特性。举例来说,若资料分布不均,则应试图以上述方法改进分类过程;此外,若你的目的是尽量让阳性样本被正确地辨识出来,便应该选择最能突显阳性样本分类效果的真阳性率、精确度、以及衡量两者平衡的F1等指标;最后,你也必须清楚哪些指标不会受资料分布不均影响,将其列入候选指标。

相反的,我们也不应单凭单一指标的数值妄下结论、误判系统优劣,而应参酌前述三项条件。此篇仅简单阐述评估指标间的相关性以及受资料分布影响的程度,在选择评估指标前,若能阅读相关论文或网站,对各指标的用意与限制有更多了解,才能避免误判分类器效能。

参考资料

(本文由教育部补助「AI报报─AI科普推广计画」执行团队编译)