首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

强化学习从基础到进阶--案例与实践含面试必知必答10:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人

模仿学习(imitation learning,IL) 讨论的问题是,假设我们连奖励都没有,要怎么进行更新以及让智能体与环境交互呢?模仿学习又被称为示范学习(learning from demonstration),学徒学习(apprenticeship learning),观察学习(learning by watching)。在模仿学习中,有一些专家的示范,智能体也可以与环境交互,但它无法从环境里得到任何的奖励,它只能通过专家的示范来学习什么是好的,什么是不好的。其实,在多数情况下,我们都无法从环境里得到非常明确的奖励。例如,如果是棋类游戏或者是电玩,我们将会有非常明确的奖励。但是多数的情况都是没有奖励的,以聊天机器人为例,机器人与人聊天,聊得怎样算是好,聊得怎样算是不好,我们是无法给出明确的奖励的。

00

智能语音扩展数字化服务

广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。语音识别,刚才罗老师也分享了部分内容。语音合成是文字变成语音,这部分我们后面会详细展开。再往后看,声纹识别,在智能车里面有很多的功能需要人的发音媒介来控制命令的时候声纹就很重要。开一个车门,车上有一个小孩,突然哭闹,下一个不合适的指令,你区别不出来这个人,对语音控制来说不合适的。或者有一些不当的操作,可以通过声纹来做,通过声音来做对人的识别和认证的过程。声纹识别其实在未来的应用场景比较热门,实际应用当中遇到大的挑战点是什么?很多其他的生物识别靠人脸或指纹这类比较稳定的特征,可是声纹不稳定,人高兴的时候,第一天晚上唱了卡拉OK,第二天声音哑了,怎么能够在变化比较明显的生物特征上做识别是一个很大的挑战。

05
领券