首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

SFFAI分享 | 邵晨泽:自回归机器翻译【附PPT与视频资料】

而在自回归模型中,翻译结果不一定能与参考译文对齐,如下图所示,此时的交叉熵损失函数就不再能准确模型评估生成结果的质量。...另外,在以交叉熵损失训练的自回归模型中,译文单词生成与评价均为独立的,这使得模型很难捕捉到译文间的序列依赖关系,生成的译文往往不太通顺,并包含很多过翻译、漏翻译的错误。...此时,可仿照自回归模型中的做法,直接运用REINFORCE算法,从模型预测的概率分布中采样出译文Y,以奖赏值r(Y)评估译文的好坏,得到对梯度的无偏估计。...(4) 然而,在这种对梯度的估计方法有很大的方差,会导致训练过程不稳定、提升效果有限。...在自回归模型中,这种缺陷很难被消除,但我们可以利用自回归模型的特性,将损失函数的梯度进行改写: (5) (6) 即损失函数的梯度包含了每个位置上所有可能预测结果的概率梯度与它们对应奖赏值r( )的乘积

1.7K50

【顶刊论文分享】DeepSec:深度学习模型的安全性分析平台

对于攻击者而言,攻击手段的效用意味着能够生成成功攻击的AE的概率。一般来说,成功的AE不仅可以被模型错误分类,而且通常人也不易察觉,且具有较强的鲁棒性。...在将数据输入到DL模型之前,通常都需要对数据进行预处理,这一步骤可能会导致对抗样本的误分类率下降,因此描述对抗样本的鲁棒性也十分重要。...例如可以通过计算错误分类的概率与所有其他类的最大概率之间的差距,从而得到噪声容忍限度(Noise Tolerance Estimation, NTE)来估计。 表2....梯度掩蔽/正则化方法则是从模型梯度的角度出发,例如Defensive Distillation(DD)方法就是通过减少或平滑神经网络梯度的振幅,使防御模型对AE中的扰动不太敏感。...从迭代和迭代攻击的比较结果来看,由于前者会多次迭代以找到最优扰动,因此误分类的概率通常会更高。除MR外,使用其他指标来对攻击方法进行评估也很重要。

87810
您找到你想要的搜索结果了吗?
是的
没有找到

开发者必看:超全机器学习术语词汇表!

例如,一个评估邮件信息并输出「垃圾邮件」或「垃圾邮件」的机器学习模型就是一个二元分类器。...例如,以下为一个二元分类问题的简单的混淆矩阵: 上述混淆矩阵展示了在 19 个确实为肿瘤的样本中,有 18 个被模型正确的归类(18 个真正),有 1 个被错误的归类为肿瘤(1 个假负类)。...类似的,在 458 个确实为肿瘤的样本中,有 452 个被模型正确的归类(452 个真负类),有 6 个被错误的归类(6 个假正类)。 多类别分类的混淆矩阵可以帮助发现错误出现的模式。...F 假负类(false negative,FN) 被模型错误的预测为负类的样本。例如,模型推断一封邮件为垃圾邮件(负类),但实际上这封邮件是垃圾邮件。...Sigmoid 函数(sigmoid function) 把 logistic 或多项式回归输出(对数几率)映射到概率的函数,返回的值在 0 到 1 之间。

3.8K61

福利 | 纵览机器学习基本词汇与概念

例如,一个评估邮件信息并输出「垃圾邮件」或「垃圾邮件」的机器学习模型就是一个二元分类器。...上述混淆矩阵展示了在 19 个确实为肿瘤的样本中,有 18 个被模型正确的归类(18 个真正),有 1 个被错误的归类为肿瘤(1 个假负类)。...类似的,在 458 个确实为肿瘤的样本中,有 452 个被模型正确的归类(452 个真负类),有 6 个被错误的归类(6 个假正类)。 多类别分类的混淆矩阵可以帮助发现错误出现的模式。...F 假负类(false negative,FN) 被模型错误的预测为负类的样本。例如,模型推断一封邮件为垃圾邮件(负类),但实际上这封邮件是垃圾邮件。...Sigmoid 函数(sigmoid function) 把 logistic 或多项式回归输出(对数几率)映射到概率的函数,返回的值在 0 到 1 之间。sigmoid 函数的公式如下: ?

98790

谷歌开发者机器学习词汇表:纵览机器学习基本词汇与概念

例如,一个评估邮件信息并输出「垃圾邮件」或「垃圾邮件」的机器学习模型就是一个二元分类器。...上述混淆矩阵展示了在 19 个确实为肿瘤的样本中,有 18 个被模型正确的归类(18 个真正),有 1 个被错误的归类为肿瘤(1 个假负类)。...类似的,在 458 个确实为肿瘤的样本中,有 452 个被模型正确的归类(452 个真负类),有 6 个被错误的归类(6 个假正类)。 多类别分类的混淆矩阵可以帮助发现错误出现的模式。...F 假负类(false negative,FN) 被模型错误的预测为负类的样本。例如,模型推断一封邮件为垃圾邮件(负类),但实际上这封邮件是垃圾邮件。...Sigmoid 函数(sigmoid function) 把 logistic 或多项式回归输出(对数几率)映射到概率的函数,返回的值在 0 到 1 之间。sigmoid 函数的公式如下: ?

985110

强化学习读后感

其基本元素有: : 有限状态集( ) :状态转移概率 :奖励函数(reward) :折扣因子 在实际的RL交互环境中,还需要定义三个变量: Horizon: 不同 episode(一个探索周期...建立好模型,并得到了一些关系式,问题:如何计算? 评估和优化 利用(2),(3)的关系式递推计算,如下迭代: 即能得到给定策略 下的价值函数。...以上给出了图1的MDP建模过程,并给出了在MDP已知的情况下,如何做策略评估,策略迭代,价值迭代。 但现实世界中MDP模型不存在,或很难给出的情况很常见。 这种情况,可用图5来表示。...此时优化目标为: 结合2.3节的对数技巧,容易得出式(19)的梯度为: 将 展开: 于是多步MDP的策略梯度最终表示为: 最终的梯度公式可以做一个直观认识:对于权重函数的期望(积分),其梯度方向为原始概率对数的导数乘以对应权重...,大概率致使模型崩塌 traning unstatble 为了解决训练不稳定,在线更新问题,John Schulman等人在TRPO中提出了用置信区间和自然梯度 下降来克服训练不稳定问题,并顺势而为,

71810

机器学习术语表

A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。 准确率 (accuracy) 分类模型的正确预测所占的比例。...例如,对电子邮件进行评估并输出“垃圾邮件”或“垃圾邮件”的机器学习模型就是一个二元分类器。 分箱 (binning) 请参阅分桶。...以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。...很多常见的损失函数(包括下列函数)都是凸函数: L2 损失函数 对数损失函数 L1 正则化 L2 正则化 梯度下降法的很多变体都一定能找到一个接近严格凸函数最小值的点。...交叉熵 (cross-entropy) 对数损失函数向多类别分类问题进行的一种泛化。交叉熵可以量化两种概率分布之间的差异。另请参阅困惑度。

79890

用Prophet在Python中进行时间序列预测

Prophet的目的是“使专家和专家可以更轻松地进行符合需求的高质量预测。   您将学习如何使用Prophet(在Python中)解决一个常见问题:预测下一年公司的每日订单。 ...Box-Cox变换 通常在预测中,您会明确选择一种特定类型的幂变换,以将其应用于数据以消除噪声,然后再将数据输入到预测模型中(例如,对数变换或平方根变换等)。...Box-Cox变换是一种数据变换,用于评估一组Lambda系数(λ)并选择可实现最佳正态性近似值的值。...预测 使用Prophet创建预测的第一步是将fbprophet库导入到我们的Python中: import fbprophet 将Prophet库导入笔记本后,我们可以从 Prophet开始: m =...fbprophet.Prophet() 实例化Prophet对象后,就可以将模型拟合到历史数据中了。

1.7K10

机器学习术语表

A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。 准确率 (accuracy) 分类模型的正确预测所占的比例。...例如,对电子邮件进行评估并输出“垃圾邮件”或“垃圾邮件”的机器学习模型就是一个二元分类器。 分箱 (binning) 请参阅分桶。...以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”,低于 0.9 的则被归类为“垃圾邮件”。...最优的逻辑回归模型预测的平均概率等于训练数据的平均标签。 广义线性模型的功能受其特征的限制。与深度模型不同,广义线性模型无法“学习新特征”。 梯度 (gradient) 偏导数相对于所有自变量的向量。...之后,softmax 函数会生成一个(标准化)概率向量,对应于每个可能的类别。 此外,对数有时也称为 S 型函数的元素级反函数。

97620

机器学习常用术语超全汇总

例如,对电子邮件进行评估并输出“垃圾邮件”或“垃圾邮件”的机器学习模型就是一个二元分类器。 分箱 (binning) 请参阅分桶。...以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”,低于 0.9 的则被归类为“垃圾邮件”。...交叉熵 (cross-entropy) 对数损失函数向多类别分类问题的一种泛化。交叉熵可以量化两种概率分布之间的差异。另请参阅困惑度。...最优的逻辑回归模型预测的平均概率等于训练数据的平均标签。 广义线性模型的功能受其特征的限制。与深度模型不同,广义线性模型无法“学习新特征”。 梯度 (gradient) 偏导数相对于所有自变量的向量。...之后,softmax 函数会生成一个(标准化)概率向量,对应于每个可能的类别。 此外,对数有时也称为 S 型函数的元素级反函数。

85510

史上最全《四万字 AI 词典》助力通关AI学习

Analytic gradient(解析梯度):通过数学分析计算得到的梯度。Ancestral Sampling(祖先抽样):从概率模型中抽取样本的方法。...Benchmark(基准):用于评估算法性能或系统性能的标准数据集、指标或测试。Belief network(信念网络):另一种称为贝叶斯网络的概率模型。...Clip gradient(梯度裁剪):在训练神经网络时限制梯度的范围,以防止梯度爆炸或消失。Clique potential(团势):在图模型中,指向团的概率分布。...Cost Function(成本函数):用于评估模型预测与真实值之间差异的函数。Cost matrix(成本矩阵):在分类问题中,表示不同分类错误所带来的成本的矩阵。...Log-likelihood(对数似然):似然函数的对数。Log-linear regression(对数线性回归):一种线性回归模型,其目标变量的对数与预测变量的线性组合相关。

17610

python数据分析-时间序列(一)ARIMA、傅里叶、小波变换、Prophet方法2021.8.19

数据分析与机器学习实战 2、 3、无法登录,加QQ等待中 4、Python大数据与机器学习实战 5、微信二维码扫描输入书号下载代码 6、时间,加入农历的影响 7、时间,假期、调休、周末,节假日 8、梯度下降决策树...10、趋势:拟合趋势,如滑动平均模型、指数平均模型、线性回归。要注意拐点 11、周期:大小周期利用工具和人的经验拆 12、突发事件:随机森林、梯度下降决策树、关联规则等。...25、将数据变平稳,做对数和差分处理。 26、 27、做自相关函数图和偏自相关函数图,确定模型阶次。自相关明显拖尾图,周期12天,偏相关也并非明显截尾,使用ARIMA模型。...1、感觉不妙 2、pip3 install fbprophet失败 3、https://www.pianshen.com/article/34991272773/ 4、 5、 6、 7、 8、看一下数据格式...6、 7、原始序列的单位根检验,和书本不一样,书本P值显著大于0.05判断序列为平稳序列。 8、 9、一阶差分,时序图在均值附近比较平稳的波动。

1.1K20

谷歌最新机器学习术语表,AB 测试 、混淆矩阵、决策边界……都在这里了!

例如,对电子邮件进行评估并输出“垃圾邮件”或“垃圾邮件”的机器学习模型就是一个二元分类器。 分箱 (binning) 请参阅分桶。...以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”,低于 0.9 的则被归类为“垃圾邮件”。...很多常见的损失函数(包括下列函数)都是凸函数: L2 损失函数 对数损失函数 L1 正则化 L2 正则化 梯度下降法的很多变体都一定能找到一个接近严格凸函数最小值的点。...交叉熵 (cross-entropy) 对数损失函数向多类别分类问题进行的一种泛化。交叉熵可以量化两种概率分布之间的差异。另请参阅困惑度。...最优的逻辑回归模型预测的平均概率等于训练数据的平均标签。 广义线性模型的功能受其特征的限制。与深度模型不同,广义线性模型无法“学习新特征”。 梯度 (gradient) 偏导数相对于所有自变量的向量。

1.1K60

独家 | 手把手教你用Python的Prophet库进行时间序列预测

完成这个教程后,你将会学到: Prophet是一个由Facebook开发的开源库,专为单变量时间序列数据的自动化预测而设计; 如何拟合Prophet模型,并使用模型进行样本内及样本外预测; 如何使用通过留出法所划分出的不参与训练的数据集来评估...拟合Prophet模型 想要使用Prophet进行预测,首先我们需要定义和配置一个Prophet()对象,然后通过调用fit()函数并将数据传入该函数,从而对数据集进行拟合。...也就是说,我们可以对那些被当作训练模型时的输入数据进行预测。理想情况下,模型之前就已经见过了这些数据从而能做出完美的预测。 然而,情况并非如此,因为模型在试图对数据中的所有情况进行归纳总结。...手动对预测模型进行性能评估 对预测模型的性能进行客观评估至关重要。 这一目标可以通过留出一部分数据不参与模型训练来实现,例如最后12个月的数据。...模型表现得不错,给出的预测也比较合理。 Prophet库同样提供了一些能够评估模型性能及绘制预测结果的自动化工具,尽管它们在本例的数据上并不是很有效。

9.9K63

人工智能领域 700 多个专业术语-谷歌开发者机器学习词汇表

例如,一个评估邮件信息并输出「垃圾邮件」或「垃圾邮件」的机器学习模型就是一个二元分类器。...例如,考虑一个确定给定邮件为垃圾邮件的概率的 logistic 回归模型,如果分类阈值是 0.9,那么 logistic 回归值在 0.9 以上的被归为垃圾邮件,而在 0.9 以下的被归为垃圾邮件。...上述混淆矩阵展示了在 19 个确实为肿瘤的样本中,有 18 个被模型正确的归类(18 个真正),有 1 个被错误的归类为肿瘤(1 个假负类)。...类似的,在 458 个确实为肿瘤的样本中,有 452 个被模型正确的归类(452 个真负类),有 6 个被错误的归类(6 个假正类)。 多类别分类的混淆矩阵可以帮助发现错误出现的模式。...因为当一个函数有最小值的时候(通常就是这样),梯度下降的各种变化都能保证找到接近函数最小值的点。类似的,随机梯度下降的各种变化有很大的概率(虽然无法保证)找到接近函数最小值的点。

1.2K80

【ICLR2018 最高分论文】利用分布鲁棒优化方法应对对抗样本干扰

然而,最近的研究表明,神经网络很容易受到对抗例子的影响;似乎无法察觉的对数据的干扰会导致模型错误,例如,输出错误的分类。随后,很多研究人员提出了对抗攻击和防御机制。...进行有限维参数化,例如,对时间,支持,或方向偏差的约束集,以及诸如f-散度的概率测量的参数距离,和Wasserstein距离。与对固定分布 ? 提供有效支持的f-散度相比, ?...(a)中的竖条表示用于训练FGM、IFGM和PGM模型的干扰水平和评估半径 ? 。 ?...(a)中的竖条表示用于训练FGM、IFGM和PGM模型的干扰水平和评估半径 ? 。 ? 图7:可视化输入的稳定性。我们举例说明了使模型对数据点进行错误分类所需的最小WRM干扰(最大 ? )。 ?...经验性的评估表明,我们的方法实际上对数据中的干扰是鲁棒的,并且它们优于较少原则性的对抗训练技术。我们的方法的主要好处是其在许多模型和机器学习场景下的简单性和广泛的适用性。

2.9K50

CS224N 课程笔记之二:词向量(下)

1.3 最小二乘目标函数 在 word2vec 中,我们使用 softmax 来计算给定上下文词语 的词语 的概率: 之前的训练都是使用随机梯度下降,如果计算全局的代价函数,则为: 这里使用了...「对数最大似然」(可以理解为 softmax 向量与 one-hot 向量的交叉熵)。...2.4 内在评估调整案例:类比评估 我们可以基于内在评估系统来调整词向量模型的超参数,包括: 词向量维数 语料库大小 语料库来源/类型 上下文窗口大小 上下文对称性 下表给出了不同模型使用不同超参数在类比问题上的表现对比...重新训练后 telly 和 TV 发生了偏移,而 television 没有变化,但决策边界发生了变化,因此导致分类出现了错误。...: 实现时需要分配梯度来更新相应的词向量。

76710

机器学习 | 逻辑回归算法(一)理论

如果事件发生的概率是 ,那么该事件的几率是 ,该事件的对数几率(log odds)或logit 函数是 对于逻辑回归,对数几率(log odd)为: 在逻辑回归模型中,输出 的对数几率是输入...逻辑回归的损失函数 "损失函数"这个评估指标,来衡量参数为 的模型拟合训练集时产生的信息损失的大小,即衡量模型的输出与真实输出的差别。并以此衡量参数 的优劣。...下降的速率 逻辑回归的特点 线性回归对数据的要求很严格,比如标签必须满足正态分布,特征之间的多重共线性需要消除等等,而现实中很多真实情景的数据无法满足这些要求,因此线性回归在很多现实情境的应用效果有限。...算法求解 梯度下降法 评估指标 混淆矩阵:AUC Recall Precision ---- 逻辑回归和朴素贝叶斯区别 朴素贝叶斯 贝叶斯公式 是后验概率, 是似然函数, 在这里是代表“特征...朴素贝叶斯是生成模型,逻辑回归是判别模型;朴素贝叶斯运用的贝叶斯理论,逻辑回归是最大化对数似然,这是两种概率哲学的区别。

1.4K20

Google 发布官方中文版机器学习术语表

A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。 准确率 (accuracy) 分类模型的正确预测所占的比例。...例如,对电子邮件进行评估并输出 “垃圾邮件” 或 “垃圾邮件” 的机器学习模型就是一个二元分类器。 分箱 (binning) 请参阅分桶。...很多常见的损失函数(包括下列函数)都是凸函数: L2 损失函数 对数损失函数 L1 正则化 L2 正则化 梯度下降法的很多变体都一定能找到一个接近严格凸函数最小值的点。...交叉熵 (cross-entropy) 对数损失函数向多类别分类问题进行的一种泛化。交叉熵可以量化两种概率分布之间的差异。另请参阅困惑度。...S 型函数 (sigmoid function) 一种函数,可将逻辑回归输出或多项回归输出(对数几率)映射到概率,以返回介于 0 到 1 之间的值。S 型函数的公式如下: ?

56510
领券