前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >十张图解释机器学习

十张图解释机器学习

作者头像
哒呵呵
发布2018-08-06 17:21:16
6120
发布2018-08-06 17:21:16
举报
文章被收录于专栏:鸿的学习笔记
  1. 测试和训练误差:为什么降低训练误差并不总是一件好事。 测试和训练误差是模型复杂性的函数。

.。

2.欠拟合和过拟合:各种阶数M的多项式的红色曲线,拟合由绿色曲线生成的数据集。

3.奥卡姆剃刀:贝叶斯推理表现出奥卡姆剃刀原理了。 这个图给出了为什么复杂的模型会变得不那么可能了。 水平轴表示可能的数据集D的空间。贝叶斯定理奖励模型的比例与他们预测发生的数据有多少有关系。 这些预测通过D上的归一化概率分布来量化。给出模型H i,P(D | H i)的数据的概率被称为H i的证据。 简单模型H1仅仅会产生有限范围的预测,如P(D | H1)所示; 具有例如比H1更多的自由参数的更强大的模型H2能够预测更多种类的数据集。 然而,这意味着H2不像H1那样强烈地预测区域C1中的数据集。假设已将相等的先验概率分配给两个模型。 然后,如果数据集落在区域C1中,则较不强大的模型H1将是更有可能的模型。

4.特征聚合:(1)为什么集体相关特征可能单独看起来会不相关,以及(2)为什么线性方法会失败。

5. 不相关特征:为什么不相关的特征会伤害kNN,聚类和其他基于相似性的方法呢。 左边的图显示了在垂直轴上分离得很好的两个类。右边的图形添加了一个不相关的水平轴,它破坏了分组,并使得许多点是相对类的最近邻。

6.基本函数:非线性基函数会如何将没有线性边界的低维分类问题转化为具有线性边界的高维问题。

7.判别 vs. 生成:为什么判别性学习可能比生成性更容易。 具有单个输入变量x(左图)的两个类的类条件密度的示例以及相应的后验概率(右图)。 注意,类条件密度p(x | C1)在左图上以蓝色显示,对后验概率没有影响。 右图中的垂直绿线显示了给出最小错分率的x中的决策边界。

8.损失函数:学习算法可以被看作是优化不同的损失函数。 支持向量机中使用的'hinge'误差函数的图形以蓝色显示,以及用于逻辑回归的误差函数,以因子1 / ln(2)重新缩放,使得它通过点(0,1),其显示为红色。 还给出了黑色的误分类误差和绿色的平方误差。

9. 最小二乘法的几何性质:9.最小二乘法几何:ESL图3.2。 具有两个预测变量的最小二乘回归的N维几何性质。 结果向量y正交地投影到由输入向量x1和x2跨越的超平面上。 投影y表示最小二乘方预测的向量。

10.稀疏性:为什么Lasso(L1正则化或拉普拉斯先验)会给出稀疏解(即具有更多零的权重向量)?。这里给出了误差和约束函数的轮廓。 蓝色区域是约束区域|β1| + |β2| ≤t和β12+β22≤t2,而红色椭圆是最小二乘误差函数的轮廓。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-12-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档