Hey

Machine Learning notes

AUC、ROC详解
AUC:一个正例，一个负例，预测为正的概率值比预测为负的概率还要大的可能性

根据定义：我们最直观的有两种计算auc的方法

绘制ROC曲线，roc曲线下面的面积就是AUC的值
假设共有（m+n）个样本，其中正样本m个，负样本n个，共有m n 个样本对，计数，正样本预测为正样本的概率概率大于负样本预测为正样本的概率记为1，累加计数，然后除以（m n）就是AUC的值

ROC曲线：接受者操作特征（receiveroperating characteristic），roc曲线上的每个点反应着对同一信号刺激的感受性。

横轴：负正类率（false postive rate FPR）特异度，划分实例中所有的负例占所有负例的比例（1-Specificity）

纵轴：真正类率（true postive rate TPR）灵敏度，Sensitivity(正类覆盖率)

2针对一个二分类问题，将实例分成正类(postive)或者负类(negative)。但是实际中分类时，会出现四种情况.

(1)若一个实例是正类并且被预测为正类，即为真正类(True Postive TP)

(2)若一个实例是正类，但是被预测成为负类，即为假负类(False Negative FN)

(3)若一个实例是负类，但是被预测成为正类，即为假正类(False Postive FP)

(4)若一个实例是负类，但是被预测成为负类，即为真负类(True Negative TN)

TP:正确的肯定数目

FN:漏报，没有找到正确匹配的数目

FP:误报，没有的匹配不正确

(1)真正类率(True Postive Rate)TPR: TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例。Sensitivity

(2)负正类率(False Postive Rate)FPR: FP/(FP+TN)，代表分类器预测的正类中实际负实例占所有负实例的比例。1-Specificity

AUC(Area under Curve)：Roc曲线下的面积，介于0.1和1之间。Auc作为数值可以直观的评价分类器的好坏，值越大越好。