首页
学习
活动
专区
工具
TVP
发布

应兆康的专栏

专栏成员
162
文章
308731
阅读量
63
订阅数
27. 减少方差的技术
如果你的学习算法存在着高方差,则可以尝试下面的技术: • 添加更多的训练数据:这是最简单也是最可靠的一种方式来处理方差,只要你能访问大量的数据并有足够的计算能力来处理它们。 • 加入正则化(L2 正则化,L1 正则化,dropout):这项技术可以降低方差,但却增大了偏差。 加入提前终止(比如根据开发集误差提前终止梯度下降):这项技术可以降低方差但却增大了偏差。提前终止(Early stopping)有点像正则化理论,一些学者认为它是正则化技术之一。 • 通过特征选择减少输入特征的数量和种类:这种技
YingJoy_
2018-06-06
1.2K0
27. 减少方差的技术
• 添加更多的训练数据:这是最简单也是最可靠的一种方式来处理方差,只要你能访问大量的数据并有足够的计算能力来处理它们。
YingJoy_
2018-06-04
1K1
数据规模的增大促进了机器学习的发展
4 数据规模的增大促进了机器学习的发展 深度学习(神经网络)中许多的想法都已经存在了几十年。为什么今天这些想法火起来了呢? 促进机器学习发展的因素主要有两个: • 数据量越来越多. 如今人们在数字设备(电脑,移动设备)上所花费的时间相比以前多得多,这些活动产生了大量的数据,我们可以使用这些数据来训练我们的算法。 • 计算能力的提升. 人类几年前才开始训练神经网络,而且这些神经网络都足够大,可以将现在的大数据作为输入。 具体来说,如果你使用的是传统的机器学习算法(如:逻辑回归),即使你拥有更大
YingJoy_
2018-05-30
7330
开发集和测试集
让我们回到之前关于猫咪图片的例子: 你开发了一个移动APP, 用户可以上传许多不同的图片到你的APP上,你想识别出用户上传的图片中所有包含猫咪的图片。 你的团队下载了很多图片数据集,包含猫咪图片(正
YingJoy_
2018-05-30
6020
10. 用开发集和评估指标来加速迭代
对于一个新问题,事先是很难知道用什么方法解决它是最合适的。即使机器学习经验丰富的研究员也需要尝试许多,才能得到令自己满意的东西。在构建机器学习系统时,我经常会: 首先有一些如何构建系统的想法(idea
YingJoy_
2018-05-30
4720
23. 处理偏差和方差
23. 处理偏差和方差 以下是处理偏差和方差问题最简单的公式: • 如果具有较高的可避免偏差,那么增加模型的大小(如:增加神经网络的隐藏层或者神经元) • 如果是高方差,那么增加训练集。 如果你可以增加神经网络的大小,并且可以无限制的增加数据集,那么你可以在很多机器学习问题上都做得很好。 在实践中,增加神经网络的大小会导致你遇到计算上的问题,因为神经网络规模越大,训练的就越慢了,你也许会竭尽全力去寻找训练集,但是网络上的猫咪图片是有限的。 不同的神经网络架构对于你的问题将会有不同的偏差和方差。最近
YingJoy_
2018-05-30
3090
24. 偏差和方差之间的权衡
24 偏差和方差之间的权衡 你可能听说过“偏差和方差之间的权衡”。在你对大部分学习算法进行修改的时候,有些方法可以减少偏差,但是代价是增加了方差,反之亦然,这就在偏差和方差之间产生了“权衡”。 例如,增加模型的大小(在神经网络中添加神经元/层,或增加输入特征),通常可以减少偏差,但可能会增加方差。另外,增加正则化一般会增加偏差,但是可能会减少方差。 在现代,我们往往能够获得充足的数据,并且可以使用非常大的神经网络(深度学习)。因此,这种权衡比较少,并且现在有更多的选择可以在不增加方差的情况下减少偏差,反
YingJoy_
2018-05-30
7460
25. 减少可避免偏差的方法
25 减少可避免偏差的方法 如果你的学习算法是高可避免偏差的话,你可以尝试以下办法: • 增加模型大小 (如神经元和层数): 该方法可以减少偏差,因为它可以让你更好的适应训练集。如果你发现该方法增加了方差,那么使用正则化方法,它通常可以消除方差的增加。 • 基于错误分析修改输入特征: 假设错误分析启发你去创建额外的特征,以帮助算法消除特定类别的错误。(我们将在下一章进一步讨论)这些新特征可能有助于减少偏差和方差。理论上来说,增加更多的特征可能会增加方差,如果你发现方差增加了,那么使用正则化的方法,它通常
YingJoy_
2018-05-30
7230
为什么使用机器学习
1 为什么使用机器学习 机器学习是很多应用程序的基础,包括Web搜索、垃圾邮件过滤系统、语音识别、产品推荐等等。如果你的团队正在研究一个机器学习的程序,希望本书可以帮助你快速的取得进展。 例子:构建基
YingJoy_
2018-05-09
7382
4. 数据规模的增大促进了机器学习的发展
深度学习(神经网络)中许多的想法都已经存在了几十年。为什么今天这些想法火起来了呢? 促进机器学习发展的因素主要有两个: • 数据量越来越多. 如今人们在数字设备(电脑,移动设备)上所花费的时间相比以前多得多,这些活动产生了大量的数据,我们可以使用这些数据来训练我们的算法。 • 计算能力的提升. 人类几年前才开始训练神经网络,而且这些神经网络都足够大,可以将现在的大数据作为输入。 具体来说,如果你使用的是传统的机器学习算法(如:逻辑回归),即使你拥有更大的数据量,也会出现“高原效应(plateaus)”。也就是说即使你给它更多的数据,它的学习曲线也会变得平坦(flattens out),算法就不会再有很明显的提升了:
YingJoy_
2018-05-09
9204
1. 为什么使用机器学习
机器学习是很多应用程序的基础,包括Web搜索、垃圾邮件过滤系统、语音识别、产品推荐等等。如果你的团队正在研究一个机器学习的程序,希望本书可以帮助你快速的取得进展。
YingJoy_
2018-05-09
6071
深度学习中的优化问题以及常用优化算法
在深度模型中我们通常需要设计一个模型的代价函数(或损失函数)来约束我们的训练过程,训练不是无目的的训练,而是朝着最小化代价函数的方向去训练的。本文主要讨论的就是这类特定的优化问题:寻找神经网络上一组参
YingJoy_
2018-03-21
1.5K0
Python 机器学习库 --- sklearn --- 线性模型
本文介绍了Python机器学习库sklearn中的线性回归模型,包括普通最小二乘法和正规方程法。普通最小二乘法使用最小化均方误差来估计模型参数,而正规方程法使用矩阵分解的方法求解线性方程组。这些方法在数据科学和机器学习领域被广泛应用,可以用于预测、建模和估计未知数据。
YingJoy_
2017-10-25
2.1K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档