前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >模仿学习–技术综述[通俗易懂]

模仿学习–技术综述[通俗易懂]

作者头像
全栈程序员站长
发布2022-09-30 17:23:50
2360
发布2022-09-30 17:23:50
举报
文章被收录于专栏:全栈程序员必看

大家好,又见面了,我是你们的朋友全栈君。

  1. 概念: 1)不同于监督学习,强化学习被用于处理复杂的决策任务,但是决策空间巨大,强化学习需要试错,样本的复杂程度较高(sample complexity),限制了强化学习的应用场景; 2)模仿学习,直接从专家样本中进行学习;由于比较高质量的决策行为数据,模仿学习被认为是可以降低样本复杂度的手段之一。 3)难点:决策行为的rewarding难以定义,高质量的决策示例可以确定合理的奖励设定方法。
  2. 局限性: 2.1 数据的可获得性 影子模式可以有效的解决数据的可获得性,但是其中的数据也包括了不值得提倡的司机行为; 2.2 模型的有效性 端到端的特性: 1)可解释性较差;可解释性上刚刚有所进展(可解释机器学习?-文档) 2)难以在中间过程中,接收信息和指令; 2.3 预测能力 不能教Autopilot系统处理无法轻易预测的危险情景。比如,老司机看到飘在前方的塑料袋时会不转向,但自动驾驶系统会;存在识别训练数据相关性问题,它不能通过纯粹观察相关性来建构因果模型,并且无法在模拟中主动测试反事实。
  3. 应用方式: 1)基于规则的规划、控制模块,还是基础的功能实现方案; 2)强化学习、模仿学习,作为规划、控制模块的备份方案,在极端场景下-conner case 或规则无法覆盖的场景,能够有效的实现相应功能模块。
  4. 论文及学习: 1)https://arxiv.org/abs/1812.03079v1; 学习:https://blog.csdn.net/Nick_cloud/article/details/109701213;https://zhuanlan.zhihu.com/p/57275593 2)https://arxiv.org/abs/2111.08575v1

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/192705.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年9月16日 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档