前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习第2课:强化学习,监督式学习,非监督式学习的区别

强化学习第2课:强化学习,监督式学习,非监督式学习的区别

作者头像
杨熹
发布2018-12-06 10:40:07
1.2K0
发布2018-12-06 10:40:07
举报
文章被收录于专栏:杨熹的专栏杨熹的专栏

图片来源

现在让我们看一下强化学习和其他机器学习方法的对比。

监督式学习中,我们有数据集,还有数据对应的标签。主要的任务是要让预测值尽量接近于这些标签。

监督学习还有一个很重要的特点,就是它的数据要满足独立性。这对于使用SGD等算法,需要对数据进行采样时非常重要。

而在强化学习中却没有这些假设条件: 我们没有数据集,但是我们有一个系统,可以从中取样数据。 我们也没有想要得到的结果标签,因为没有专家告诉我们要做什么。

不过我们可以自己尝试,通过采取一些行动,会有一个评判标准给我们正面或者负面的反馈。 例如在广告点击率这个问题中,我们得到的反馈就可以是用户点击网页后我们得到的钱。

而且不管我们用什么算法,都应该把所有可能的行为都探索一下,以免我们错过了一个最优的方法,甚至从来没有学习过这个方法。

强化学习另一个问题是 agent。 agent 的观察会影响他的决策,他的决策也影响了他的观察。 例如想让他学习骑自行车,如果每次总是向左转,那么就没有办法获得向右转的数据点。

同时还需要非常细心的去探索状态的空间,不然的话就会对问题有错误的解读,无法掌握问题的全局和完整性。


非监督式学习也和强化学习有很大的不同。

虽然都没有专家告诉我们答案,但是非监督式学习在做不一样的事情。

它并没有像强化学习那样去学习一个优化的策略,而是尝试去描述数据, 尝试去寻找一些隐藏的结构,和寻找一个策略是不同的。 就相当于学会如何骑自行车要比懂得自行车的结构简单的多。


虽然说了几点强化学习和监督式学习,非监督式学习之间的区别, 但在解决实际问题时,你会发现它们会混合起来使用,比如说在强化学习中会使用一些监督式学习或非监督式学习。


学习资料: Practical Reinforcement Learning

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.11.05 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档