首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

强化学习从基础到进阶--案例与实践含面试必知必答10:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人

模仿学习(imitation learning,IL) 讨论的问题是,假设我们连奖励都没有,要怎么进行更新以及让智能体与环境交互呢?模仿学习又被称为示范学习(learning from demonstration),学徒学习(apprenticeship learning),观察学习(learning by watching)。在模仿学习中,有一些专家的示范,智能体也可以与环境交互,但它无法从环境里得到任何的奖励,它只能通过专家的示范来学习什么是好的,什么是不好的。其实,在多数情况下,我们都无法从环境里得到非常明确的奖励。例如,如果是棋类游戏或者是电玩,我们将会有非常明确的奖励。但是多数的情况都是没有奖励的,以聊天机器人为例,机器人与人聊天,聊得怎样算是好,聊得怎样算是不好,我们是无法给出明确的奖励的。

00

Facebook让AI学会谈判协商,能通过“说谎”达到目的

陈桦 编译整理 量子位 出品 | 公众号 QbitAI 从每天醒来的那一刻起,我们的生活就开始了一系列协商。 这样的场景包括讨论看什么电视,说服孩子们吃蔬菜,以及通过讨价还价获得更好的价格。这些都有共同之处,即需要复杂的沟通和推理能力。而对计算机来说,这些能力并不是天生的。 到目前为止,对聊天机器人的开发意味着系统可以进行简短的对话,完成简单的任务,例如预订餐厅。然而,开发能够与人类进行有意义对话的机器仍然充满挑战,因为这需要机器人有能力将会话理解与关于世界的知识结合起来,随后生成新的句子,协助它实现目标。

06

必应暗藏戏精模式,拿捏名人说话语气口头禅!官方还自推三种个性供挑选

明敏 发自 凹非寺 量子位 | 公众号 QbitAI 曾声称自己完美无瑕的必应,怎么突然180度大转弯? 自评:可真多管闲事啊……是个卑鄙的家伙。 还疯狂揭自己老底: 它还偷看对话、夹带广告,它不是我们的朋友! 仔细一看,这回答的语句,怎么有点颠三倒四、疯疯癫癫的? 别担心,如上这些,只是必应入戏太深了。 只是没想到,让它模仿《魔戒》中癫狂的咕噜来说话,结果连自己都嫌弃。 假扮巨石强森也没问题,一段自我介绍非常准确: 我是道恩·约翰逊,也可以叫我巨石强森。我是一个演员、导演、前职业摔跤选手。你现在可以开

02
领券