机器学习术语表

机器学习术语表:https://developers.google.com/machine-learning/glossary/

机器学习术语表,即机器学习专业词典。

划重点,童鞋们!该表按A-Z字母排列,这里只列出A-C字母的机器学习术语表。需要全文的同学,请翻阅至最下,有福利......

A

A/B 测试 (A/B testing)

一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。

准确率 (accuracy)

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义如下:

准确率=正确的预测数样本总数准确率=正确的预测数样本总数

二元分类中,准确率的定义如下:

准确率=真正例数 +真负例数样本总数准确率=真正例数+真负例数样本总数

请参阅真正例真负例

激活函数 (activation function)

一种函数(例如 ReLUS 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

AdaGrad

一种先进的梯度下降法,用于重新调整每个参数的梯度,以便有效地为每个参数指定独立的学习速率。如需查看完整的解释,请参阅这篇论文。

http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf

ROC 曲线下面积 (AUC, Area under the ROC Curve)

一种会考虑所有可能分类阈值的评估指标。

ROC 曲线下面积是,对于随机选择的正类别样本确实为正类别,以及随机选择的负类别样本为正类别,分类器更确信前者的概率。

B

反向传播算法 (backpropagation)

神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

基准 (baseline)

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

批次 (batch)

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

另请参阅批次规模

批次规模 (batch size)

一个批次中的样本数。例如,SGD 的批次规模为 1,而小批次的规模通常介于 10 到 1000 之间。批次规模在训练和推断期间通常是固定的;不过,TensorFlow 允许使用动态批次规模。

偏差 (bias)

距离原点的截距或偏移。偏差(也称为偏差项)在机器学习模型中以 b 或 w0 表示。例如,在下面的公式中,偏差为 b:

请勿与预测偏差混淆。

二元分类 (binary classification)

一种分类任务,可输出两种互斥类别之一。例如,对电子邮件进行评估并输出“垃圾邮件”或“非垃圾邮件”的机器学习模型就是一个二元分类器。

分箱 (binning)

请参阅分桶

分桶 (bucketing)

将一个特征(通常是连续特征)转换成多个二元特征(称为桶或箱),通常是根据值区间进行转换。例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位,则可以将介于 0.0 到 15.0 度之间的所有温度都归入一个分箱,将介于 15.1 到 30.0 度之间的所有温度归入第二个分箱,并将介于 30.1 到 50.0 度之间的所有温度归入第三个分箱。

C

校准层 (calibration layer)

一种预测后调整,通常是为了降低预测偏差。调整后的预测和概率应与观察到的标签集的分布一致。

候选采样 (candidate sampling)

一种训练时进行的优化,会使用某种函数(例如 softmax)针对所有正类别标签计算概率,但对于负类别标签,则仅针对其随机样本计算概率。例如,如果某个样本的标签为“小猎犬”和“狗”,则候选采样将针对“小猎犬”和“狗”类别输出以及其他类别(猫、棒棒糖、栅栏)的随机子集计算预测概率和相应的损失项。这种采样基于的想法是,只要正类别始终得到适当的正增强,负类别就可以从频率较低的负增强中进行学习,这确实是在实际中观察到的情况。候选采样的目的是,通过不针对所有负类别计算预测结果来提高计算效率。

分类数据 (categorical data)

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。

有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

分类特征有时称为离散特征

数值数据相对。

检查点 (checkpoint)

一种数据,用于捕获模型变量在特定时间的状态。借助检查点,可以导出模型权重,跨多个会话执行训练,以及使训练在发生错误之后得以继续(例如作业抢占)。请注意,本身不包含在检查点中。

类别 (class)

为标签枚举的一组目标值中的一个。例如,在检测垃圾邮件的二元分类模型中,两种类别分别是“垃圾邮件”和“非垃圾邮件”。在识别狗品种的多类别分类模型中,类别可以是“贵宾犬”、“小猎犬”、“哈巴犬”等等。

分类不平衡的数据集 (class-imbalanced data set)

一种二元分类问题,在此类问题中,两种类别的标签在出现频率方面具有很大的差距。例如,在某个疾病数据集中,0.0001 的样本具有正类别标签,0.9999 的样本具有负类别标签,这就属于分类不平衡问题;但在某个足球比赛预测器中,0.51 的样本的标签为其中一个球队赢,0.49 的样本的标签为另一个球队赢,这就不属于分类不平衡问题。

分类模型 (classification model)

一种机器学习模型,用于区分两种或多种离散类别。例如,某个自然语言处理分类模型可以确定输入的句子是法语、西班牙语还是意大利语。请与回归模型进行比较。

分类阈值 (classification threshold)

一种标量值条件,应用于模型预测的得分,旨在将正类别负类别区分开。将逻辑回归结果映射到二元分类时使用。以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”,低于 0.9 的则被归类为“非垃圾邮件”。

协同过滤 (collaborative filtering)

根据很多其他用户的兴趣来预测某位用户的兴趣。协同过滤通常用在推荐系统中。

混淆矩阵 (confusion matrix)

一种 NxN 表格,用于总结分类模型的预测成效;即标签和模型预测的分类之间的关联。在混淆矩阵中,一个轴表示模型预测的标签,另一个轴表示实际标签。N 表示类别个数。在二元分类问题中,N=2。例如,下面显示了一个二元分类问题的混淆矩阵示例:

上面的混淆矩阵显示,在 19 个实际有肿瘤的样本中,该模型正确地将 18 个归类为有肿瘤(18 个真正例),错误地将 1 个归类为没有肿瘤(1 个假负例)。同样,在 458 个实际没有肿瘤的样本中,模型归类正确的有 452 个(452 个真负例),归类错误的有 6 个(6 个假正例)。

多类别分类问题的混淆矩阵有助于确定出错模式。例如,某个混淆矩阵可以揭示,某个经过训练以识别手写数字的模型往往会将 4 错误地预测为 9,将 7 错误地预测为 1。混淆矩阵包含计算各种效果指标(包括精确率和召回率)所需的充足信息。

连续特征 (continuous feature)

一种浮点特征,可能值的区间不受限制。与离散特征相对。

收敛 (convergence)

通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

另请参阅早停法

另请参阅 Boyd 和 Vandenberghe 合著的 Convex Optimization(《凸优化》)。

https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf

凸函数 (convex function)

一种函数,函数图像以上的区域为凸集。典型凸函数的形状类似于字母 U。例如,以下都是凸函数:

相反,以下函数则不是凸函数。请注意图像上方的区域如何不是凸集:

严格凸函数只有一个局部最低点,该点也是全局最低点。经典的 U 形函数都是严格凸函数。不过,有些凸函数(例如直线)则不是这样。

很多常见的损失函数(包括下列函数)都是凸函数:

  • L2 损失函数
  • 对数损失函数
  • L1 正则化
  • L2 正则化

梯度下降法的很多变体都一定能找到一个接近严格凸函数最小值的点。同样,随机梯度下降法的很多变体都有很高的可能性能够找到接近严格凸函数最小值的点(但并非一定能找到)。

两个凸函数的和(例如 L2 损失函数 + L1 正则化)也是凸函数。

深度模型绝不会是凸函数。值得注意的是,专门针对凸优化设计的算法往往总能在深度网络上找到非常好的解决方案,虽然这些解决方案并不一定对应于全局最小值。

凸优化 (convex optimization)

使用数学方法(例如梯度下降法)寻找凸函数最小值的过程。机器学习方面的大量研究都是专注于如何通过公式将各种问题表示成凸优化问题,以及如何更高效地解决这些问题。

如需完整的详细信息,请参阅 Boyd 和 Vandenberghe 合著的 Convex Optimization(《凸优化》)。

https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf

凸集 (convex set)

欧几里得空间的一个子集,其中任意两点之间的连线仍完全落在该子集内。例如,下面的两个图形都是凸集:

相反,下面的两个图形都不是凸集:

成本 (cost)

损失的同义词。

交叉熵 (cross-entropy)

对数损失函数多类别分类问题进行的一种泛化。交叉熵可以量化两种概率分布之间的差异。另请参阅困惑度

自定义 Estimator (custom Estimator)

您按照这些说明自行编写的 Estimator

预创建的 Estimator 相对。

D

数据集 (data set)

一组样本的集合。

Dataset API (tf.data)

一种高级别的 TensorFlow API,用于读取数据并将其转换为机器学习算法所需的格式。tf.data.Dataset 对象表示一系列元素,其中每个元素都包含一个或多个张量。tf.data.Iterator 对象可获取 Dataset 中的元素。

如需详细了解 Dataset API,请参阅《TensorFlow 编程人员指南》中的导入数据。

决策边界 (decision boundary)

二元分类多类别分类问题中,模型学到的类别之间的分界线。例如,在以下表示某个二元分类问题的图片中,决策边界是橙色类别和蓝色类别之间的分界线:

密集层 (dense layer)

全连接层的同义词。

深度模型 (deep model)

一种神经网络,其中包含多个隐藏层。深度模型依赖于可训练的非线性关系。

宽度模型相对。

密集特征 (dense feature)

一种大部分数值是非零值的特征,通常是一个浮点值张量。参照稀疏特征

衍生特征 (derived feature)

合成特征的同义词。

离散特征 (discrete feature)

一种特征,包含有限个可能值。例如,某个值只能是“动物”、“蔬菜”或“矿物”的特征便是一个离散特征(或分类特征)。与连续特征相对。

丢弃正则化 (dropout regularization)

一种形式的正则化,在训练神经网络方面非常有用。丢弃正则化的运作机制是,在神经网络层的一个梯度步长中移除随机选择的固定数量的单元。丢弃的单元越多,正则化效果就越强。这类似于训练神经网络以模拟较小网络的指数级规模集成学习。如需完整的详细信息,请参阅 Dropout: A Simple Way to Prevent Neural Networks from Overfitting(《丢弃:一种防止神经网络过拟合的简单方法》)。

http://jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf

动态模型 (dynamic model)

一种模型,以持续更新的方式在线接受训练。也就是说,数据会源源不断地进入这种模型。

--------我是分割线--------

注:上述内容的黑色加粗字样在原文中其实是有超链接的,但微信只能关联微信文章的超链接,所以Amusi无能为力,有需要的童鞋可以访问原文进行查看,或者下载我提供的资源。

--------我还是分割线--------

该表/词典是Google家整理的,上述链接需要在科学上网的支持下才能浏览。成功打开链接后,可以在页面左下角切换语言,你就多版本的机器学习术语表。如果你不会科学上网,那请继续向下翻......有彩蛋

机器学习术语表:https://developers.google.com/machine-learning/glossary/

原文发布于微信公众号 - CVer(CVerNews)

原文发表时间:2018-03-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

斯坦福兔子 3D 模型被玩坏了,可微图像参数化放飞你的无限想象力

受过训练以对图像进行分类的神经网络具有非凡的意义和惊人的生成图像的能力。诸如 DeepDream,风格迁移和特征可视化等技术利用这种能力作为探索神经网络内部工作...

3581
来自专栏AI科技评论

干货 | YJango的 卷积神经网络介绍

AI科技评论按:本文来源 知乎,作者:YJango,AI科技评论授权转载。 PS:YJango是我的网名,意思是我写的教程,并不是一种网络结构。。 关于卷积神经...

3707
来自专栏MyBlog

Energy-efficient Amortized Inference with Cascaded Deep Classifiers论文笔记

深度神经网络在许多AI任务中取得了卓越的成功, 但是通常会造成高的计算量和能量耗费, 对于某些能量有约束的应用, 例如移动传感器等.

763
来自专栏人工智能头条

数据挖掘十大经典算法

2405
来自专栏机器之心

入门 | 一文了解神经网络中的梯度爆炸

3838
来自专栏大数据文摘

斯坦福深度学习课程第三弹:神经网络与反向传播

31514
来自专栏数据派THU

一文概览图卷积网络基本结构和最新进展(附视频、代码)

来源:机器之心 本文长度为3476字,建议阅读7分钟 本文为你介绍图卷积网络的基本结构和最新的研究进展,并用一个简单的一阶 GCN 模型进行图嵌入。 本文介绍了...

7277
来自专栏大数据挖掘DT机器学习

用交叉验证改善模型的预测表现-着重k重交叉验证

机器学习技术在应用之前使用“训练+检验”的模式(通常被称作”交叉验证“)。 ? 预测模型为何无法保持稳定? 让我们通过以下几幅图来理解这个问题:...

3916
来自专栏PPV课数据科学社区

Come On!决策树算法!

机器学习在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类...

3905
来自专栏AI研习社

如何极大效率地提高你训练模型的速度?

我现在在Unbox Research工作,由 Tyler Neylon创办的新的机器学习研究单位,岗位是机器学习工程师。我刚刚为一名客户完成了一个服装图片分类的...

1965

扫码关注云+社区

领取腾讯云代金券