专栏首页杨熹的专栏自动驾驶器环境介绍

自动驾驶器环境介绍

在gym里有个自动驾驶的模拟器,它的任务是把乘客从一个地方接起,在另一个地方放下,在这个过程中 需要小车至少遵守下面三个规则:

在正确的地点下车

尽量用最短的路径

不要出事故

如果要用强化学习来解决这个问题,需要明确state,action,reward是什么:

在这个过程会让小车自己学会判断在每个state要采取什么action,小车会在环境中不断地尝试来找到最优策略,这个学习过程的依据就是reward,如何设置奖励机制呢?

因为希望小车最后达成的是成功地将顾客在正确的位置放下,所以这时的奖励要有很大的正奖励

如果在错误位置将顾客放下,就要有惩罚

当小车在每个state上的方向错误时,会有轻微的惩罚,这样的惩罚会让小车迟到,那么有助于它找到最短路径

state 是指小车可能经过的位置,例如整个环境是个 5x5 的网格,在这个格子上有四个位置可以接送顾客,R, G, Y, B or[(0,0), (0,4), (4,0), (4,3)]

例如有个顾客想从 y 到 r,目的地是4个,顾客的位置是5=4个目的地+1个是在车内,所以小车的状态空间是 5×5×5×4=500 个,之所以相乘,是因为顾客的 pick up 的状态,以及目的地的状态,它们所在的位置会变化的,这就构成了一个组合,组合总数就是相乘的结果。

action 空间有6个,在每个state上面可以向四个方向走,还有接顾客和放下顾客两个。

在网格中的四边是墙,如果小车在四周撞到了墙会得到-1的惩罚,这样让小车学着不要撞墙。

参考资料:

https://www.learndatasci.com/tutorials/reinforcement-q-learning-scratch-python-openai-gym/

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 《提问的艺术》

    《提问的艺术》 for 沟通 练习场景 解决问题,倾听 [What] 从问句开始,而不是阐述或命令 问一些最基本的问题 [How] 封闭式:问具体行动是...

    杨熹
  • Logistic Regression 为什么用极大似然函数

    杨熹
  • 一个美国人眼中的中国崛起

    了解中国的崛起 Martin Jacques: Understanding the rise of China 我们该怎样认识中国? 我们该怎样了解中国? 现在...

    杨熹
  • 黑客与画家的风花雪月,从Switch游戏获得的灵感

    最近刚刚把《火焰纹章:风花雪月》三周目通关,作为战旗游戏来讲,无论是核心玩法还是创新的养成GalGame要素,还有让人唏嘘的剧情,作为战旗类游戏的代表,名副其实...

    张晓衡
  • log4net.SignalR - 日志即时发送客户端页面

    在log4net的配置中,appender是最重要的部分,一般来说,每一种appender都表示一种日志的输出介质,如日志文件、EvengLog、数据库、控制台...

    张善友
  • Mysql 架构和索引

    字段类型选择 慷慨是不明智的 在相关的表中使用相同的数据类型,因为可能进行join 选择标示符:整数通常是最佳选择,尽量避免使用字符串 大致决定数据类型(数字,...

    小小科
  • solr or es 结合弥补mongodb的全文检索功能

    最近将公司的solr集群升级到了最新的6.5版本。 之前用了N年的是3点多的版本,那个时候solr还不支持自带的集群,集群方式都是自己实现的。 公司里用的最多的...

    猿天地
  • Java HashMap进行遍历的几种方式

    Jerry Wang
  • iOS开发之CoreTelephoney框架的应用

          CoreTelephoney框架用来获取手机网络状态以及运营商相关信息。

    珲少
  • python笔记:#006#程序执行原理

    程序执行原理(科普) 目标 计算机中的 三大件 程序执行的原理 程序的作用 01. 计算机中的三大件 计算机中包含有较多的硬件,但是一个程序要运行,有 三个 核...

    _gongluck

扫码关注云+社区

领取腾讯云代金券