首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

【强化学习炼金术】李飞飞高徒带你一文读懂RL来龙去脉

来源: 心有麟熙 作者: Jim 范麟熙 编辑:常佩琦 【新智元导读】斯坦福大学博士生、师从李飞飞教授的Jim Fan(范麟熙)带你一文读懂强化学习的来龙去脉。本文以轻松有趣的方式介绍了强化学习的概念和目的,早期功不可没的宗师泰斗,理解算法所需要的预备知识,还从仿生学和心理学的角度介绍了强化学习的历史背景。 强化学习炼金术 · 背景介绍(上) 欢迎来到《强化学习炼金术》第一讲。手摇芭蕉扇,支起八仙炉,再点上三昧真火。各位炼金术师,你们都准备好了吗? 在这一课里,我会跟大家说说强化学习的概念和目的,早期功不可

09

【学术】强化学习:通过实验,计算机正摸索如何去做程序员从未教给它们的事

在一个简单的计算机模拟中,一组自动驾驶汽车在四车道的虚拟高速公路上进行了一项疯狂的操作。有一半的车辆正试图从右边的车道上移动,而另一半则试图从左侧并道。这似乎是一件很复杂的事情,可能会让自动驾驶汽车变得不那么容易,但实际上,“它们”能精确地控制汽车。 控制汽车行为的软件并不是传统意义上的编程。通过熟练和安全地练习,它们学会了如何并道。在训练过程中,控制软件一遍又一遍的执行操作,每次尝试都会稍微改变一下指令。大多数时候,并道的过程过于缓慢,汽车之间相互干扰。但无论何时,只要并道的进展顺利,系统就会对导致它

05
领券