首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【机器学习】分类算法评价

不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)...为什么99%的正确率的分类器却不是我们想要的,因为这里数据分布不均衡,类别1的数据太少,完全错分类别1依然可以达到很高的正确率却忽视了我们关注的东西。接下来详细介绍一下分类算法的评价指标。...二、评价指标 1、几个常用的术语 这里首先介绍几个常见的模型评价术语,现在假设我们的分类目标只有两类,计为正例(positive)和负例(negtive)分别是: 1)True positives(TP...预测类别 上图是这四个术语的混淆矩阵,我只知道FP叫伪阳率,其他的怎么称呼就不详了。...,在一定正确率的前提下,我们要求分类器的召回率尽可能的高。

59750
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    损失函数的“噪音免疫力”

    对称噪音(symmetric/uniform noise):所有的样本,都以同样的概率会错标成其他标签; 非对称噪音(asymmetric/class-confitional noise):不同类别的样本...即可以得出结论: 其中为常数,为跟噪音比和类别相关的系数。 由此可以知道,当的时候(即当时),和是线性相关的,故他们的f的最优解也是一样的!而只需要满足对称噪音的噪音比即可。...这相当于,在二分类问题中噪音比不超过50%,三分类问题中噪音不超过66%,十分类问题中噪音不超过90% ,都跟没噪音一样! 2.基于直觉的理解: 推导出上面的结论,我当时也十分的惊讶,居然这么神奇。...②对称噪音 即当一个样本错标时,它被分配到任意一个标签的概率都是相同的。 在这样的情况下,噪音的出现,在某种意义上,相当于一个样本把所有标签都遍历了一遍。...而MAE在测试集上则是缓缓地爬坡,没有明显的下降趋势。 当然,熊掌鱼翅不可兼得,MAE自然也有其缺点,其收敛十分艰难,从图中可以看出,它在训练集上的收敛速度很慢,甚至严重欠拟合。

    1.2K10

    谷歌最新机器学习术语表,AB 测试 、混淆矩阵、决策边界……都在这里了!

    例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。...分类不平衡的数据集 (class-imbalanced data set) 一种二元分类问题,在此类问题中,两种类别的标签在出现频率方面具有很大的差距。...N 表示类别个数。在二元分类问题中,N=2。...例如,下面显示了一个二元分类问题的混淆矩阵示例: 上面的混淆矩阵显示,在 19 个实际有肿瘤的样本中,该模型正确地将 18 个归类为有肿瘤(18 个真正例),错误地将 1 个归类为没有肿瘤(1 个假负例...决策边界 (decision boundary) 在二元分类或多类别分类问题中,模型学到的类别之间的分界线。

    1.1K60

    【官方中文版】谷歌发布机器学习术语表(完整版)

    例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。...分类不平衡的数据集 (class-imbalanced data set) 一种二元分类问题,在此类问题中,两种类别的标签在出现频率方面具有很大的差距。...N 表示类别个数。在二元分类问题中,N=2。例如,下面显示了一个二元分类问题的混淆矩阵示例: ? 多类别分类问题的混淆矩阵有助于确定出错模式。...决策边界 (decision boundary) 在二元分类或多类别分类问题中,模型学到的类别之间的分界线。例如,在以下表示某个二元分类问题的图片中,决策边界是橙色类别和蓝色类别之间的分界线: ?...例如,模型推断出某封电子邮件不是垃圾邮件,而该电子邮件确实不是垃圾邮件。 真正例 (TP, true positive) 被模型正确地预测为正类别的样本。

    1.1K50

    Google发布机器学习术语表 (中英对照)

    例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。...分类不平衡的数据集 (class-imbalanced data set) 一种二元分类问题,在此类问题中,两种类别的标签在出现频率方面具有很大的差距。...N 表示类别个数。在二元分类问题中,N=2。例如,下面显示了一个二元分类问题的混淆矩阵示例: 多类别分类问题的混淆矩阵有助于确定出错模式。...决策边界 (decision boundary) 在二元分类或多类别分类问题中,模型学到的类别之间的分界线。...例如,模型推断出某封电子邮件不是垃圾邮件,而该电子邮件确实不是垃圾邮件。 真正例 (TP, true positive) 被模型正确地预测为正类别的样本。

    77130

    资料 | Google发布机器学习术语表 (中英对照)

    例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。...分类不平衡的数据集 (class-imbalanced data set) 一种二元分类问题,在此类问题中,两种类别的标签在出现频率方面具有很大的差距。...N 表示类别个数。在二元分类问题中,N=2。例如,下面显示了一个二元分类问题的混淆矩阵示例: ? 多类别分类问题的混淆矩阵有助于确定出错模式。...决策边界 (decision boundary) 在二元分类或多类别分类问题中,模型学到的类别之间的分界线。例如,在以下表示某个二元分类问题的图片中,决策边界是橙色类别和蓝色类别之间的分界线: ?...例如,模型推断出某封电子邮件不是垃圾邮件,而该电子邮件确实不是垃圾邮件。 真正例 (TP, true positive) 被模型正确地预测为正类别的样本。

    1.5K80

    Google发布机器学习术语表 (包括简体中文)

    例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。...分类不平衡的数据集 (class-imbalanced data set) 一种二元分类问题,在此类问题中,两种类别的标签在出现频率方面具有很大的差距。...N 表示类别个数。在二元分类问题中,N=2。例如,下面显示了一个二元分类问题的混淆矩阵示例: ? 多类别分类问题的混淆矩阵有助于确定出错模式。...决策边界 (decision boundary) 在二元分类或多类别分类问题中,模型学到的类别之间的分界线。例如,在以下表示某个二元分类问题的图片中,决策边界是橙色类别和蓝色类别之间的分界线: ?...例如,模型推断出某封电子邮件不是垃圾邮件,而该电子邮件确实不是垃圾邮件。 真正例 (TP, true positive) 被模型正确地预测为正类别的样本。

    75460

    分类指标准确率(Precision)和正确率(Accuracy)的区别「建议收藏」

    为什么99%的正确率的分类器却不是我们想要的,因为这里数据分布不均衡,类别1的数据太少,完全错分类别1依然可以达到很高的正确率却忽视了我们关注的东西。接下来详细介绍一下分类算法的评价指标。...而准确率在分类中对应的是某个类别,分子是预测该类别正确的数量,分母是预测为该类别的全部数据的数量。...或者说,Accuracy是对分类器整体上的正确率的评价,而Precision是分类器预测为某一个类别的正确率的评价。...举个例子,google抓取了argcv 100个页面,而它索引中共有10,000,000个页面,随机抽一个页面,分类下,这是不是argcv的页面呢?...按照前面例子,我们需要从一个班级中的人中寻找所有女生,如果把这个任务当成一个分类器的话,那么女生就是我们需要的,而男生不是,所以我们称女生为”正类”,而男生为”负类”.

    4.3K10

    【学术】谷歌AI课程附带的机器学习术语整理(超详细!)

    例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。...---- 分类不平衡的数据集 (class-imbalanced data set) 一种二元分类问题,在此类问题中,两种类别的标签在出现频率方面具有很大的差距。...N 表示类别个数。在二元分类问题中,N=2。例如,下面显示了一个二元分类问题的混淆矩阵示例: ?...---- 决策边界 (decision boundary) 在二元分类或多类别分类问题中,模型学到的类别之间的分界线。...例如,模型推断出某封电子邮件不是垃圾邮件,而该电子邮件确实不是垃圾邮件。 ---- 真正例 (TP, true positive) 被模型正确地预测为正类别的样本。

    85870

    分类评估方法-召回率、ROC与混淆矩阵

    在二分类问题中,我们把样例的真实类别与分类模型预测的预测类别,进行排列组合,正例是类别1,反例是类别0,得到如下4种情形: 真正例(True Positive,TP) 假反例(False Negative...当然了,在实际应用场景中,可能对精确率和召回率有偏重,可以乘以加权权重 \beta 。 推广到多分类任务中,由于混淆矩阵是对应正反两个类别的,而多分类中类别大于2。...比如肺癌数据集中,99个是肺癌样本,1个不是肺癌样本。如果分类模型不管三七二十一,对于输入全部判为肺癌,那它的正确率仍高达99%。 对于这种不平衡的情况,我们需要参考ROC曲线和AUC指标。...也就是对角线越深则越好,可以较好的评估分类模型。 图中可以显示数值或百分比或两者同时显示。...('top') # 设置x轴在顶部 # 设置x轴的刻度和标签只显示在顶部 plt.gca().tick_params(axis="x", top=True, labeltop=True, bottom

    1.7K30

    谷歌开发者机器学习词汇表:纵览机器学习基本词汇与概念

    而一个多类别分类模型将区分狗的种类,其中的类别可以是贵宾狗、小猎兔狗、哈巴狗等等。...但对于一个足球比赛预测器数据集,若其中 51% 的样本标记一队胜利,而 49% 的样本标记其它队伍胜利,那么这就不是一个类别不平衡数据集。...决策边界(decision boundary) 在一个二元分类或多类别分类问题中模型学习的类别之间的分离器。例如,下图就展示了一个二元分类问题,决策边界即橙点类和蓝点类的边界。 ?...正类(positive class) 在二元分类中,有两种类别:正类和负类。正类是我们测试的目标。(不过必须承认,我们同时测试两种结果,但其中一种不是重点。)...其中σ在 logistic 回归问题中只是简单的: ? 在有些神经网络中,sigmoid 函数和激活函数一样。 softmax 为多类别分类模型中每个可能的类提供概率的函数。

    1K110

    Google 发布官方中文版机器学习术语表

    例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。...分类不平衡的数据集 (class-imbalanced data set) 一种二元分类问题,在此类问题中,两种类别的标签在出现频率方面具有很大的差距。...N 表示类别个数。在二元分类问题中,N=2。例如,下面显示了一个二元分类问题的混淆矩阵示例: ? 多类别分类问题的混淆矩阵有助于确定出错模式。...决策边界 (decision boundary) 在二元分类或多类别分类问题中,模型学到的类别之间的分界线。例如,在以下表示某个二元分类问题的图片中,决策边界是橙色类别和蓝色类别之间的分界线: ?...例如,模型推断出某封电子邮件不是垃圾邮件,而该电子邮件确实不是垃圾邮件。 真正例 (TP, true positive) 被模型正确地预测为正类别的样本。

    58110

    干货 | Google发布官方中文版机器学习术语表

    例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。...分类不平衡的数据集 (class-imbalanced data set) 一种二元分类问题,在此类问题中,两种类别的标签在出现频率方面具有很大的差距。...N 表示类别个数。在二元分类问题中,N=2。例如,下面显示了一个二元分类问题的混淆矩阵示例: ? 多类别分类问题的混淆矩阵有助于确定出错模式。...决策边界 (decision boundary) 在二元分类或多类别分类问题中,模型学到的类别之间的分界线。例如,在以下表示某个二元分类问题的图片中,决策边界是橙色类别和蓝色类别之间的分界线: ?...例如,模型推断出某封电子邮件不是垃圾邮件,而该电子邮件确实不是垃圾邮件。 真正例 (TP, true positive) 被模型正确地预测为正类别的样本。

    86730

    福利 | 纵览机器学习基本词汇与概念

    而一个多类别分类模型将区分狗的种类,其中的类别可以是贵宾狗、小猎兔狗、哈巴狗等等。...但对于一个足球比赛预测器数据集,若其中 51% 的样本标记一队胜利,而 49% 的样本标记其它队伍胜利,那么这就不是一个类别不平衡数据集。...决策边界(decision boundary) 在一个二元分类或多类别分类问题中模型学习的类别之间的分离器。例如,下图就展示了一个二元分类问题,决策边界即橙点类和蓝点类的边界。 ?...正类(positive class) 在二元分类中,有两种类别:正类和负类。正类是我们测试的目标。(不过必须承认,我们同时测试两种结果,但其中一种不是重点。)...其中σ在 logistic 回归问题中只是简单的: ? 在有些神经网络中,sigmoid 函数和激活函数一样。 softmax 为多类别分类模型中每个可能的类提供概率的函数。

    1K90

    人工智能领域 700 多个专业术语-谷歌开发者机器学习词汇表

    A 准确率(accuracy) 分类模型预测准确的比例。在多类别分类中,准确率定义如下: ? 在二分类中,准确率定义为: ?...而一个多类别分类模型将区分狗的种类,其中的类别可以是贵宾狗、小猎兔狗、哈巴狗等等。...但对于一个足球比赛预测器数据集,若其中 51% 的样本标记一队胜利,而 49% 的样本标记其它队伍胜利,那么这就不是一个类别不平衡数据集。...交叉熵(cross-entropy) 多类别分类问题中对 Log 损失函数的推广。交叉熵量化两个概率分布之间的区别。参见困惑度(perplexity)。...决策边界(decision boundary) 在一个二元分类或多类别分类问题中模型学习的类别之间的分离器。例如,下图就展示了一个二元分类问题,决策边界即橙点类和蓝点类的边界。 ?

    1.2K80
    领券