首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    强化学习从基础到进阶--案例与实践含面试必知必答10:模仿学习、行为克隆、逆强化学习、第三人称视角模仿学习、序列生成和聊天机器人

    模仿学习(imitation learning,IL) 讨论的问题是,假设我们连奖励都没有,要怎么进行更新以及让智能体与环境交互呢?模仿学习又被称为示范学习(learning from demonstration),学徒学习(apprenticeship learning),观察学习(learning by watching)。在模仿学习中,有一些专家的示范,智能体也可以与环境交互,但它无法从环境里得到任何的奖励,它只能通过专家的示范来学习什么是好的,什么是不好的。其实,在多数情况下,我们都无法从环境里得到非常明确的奖励。例如,如果是棋类游戏或者是电玩,我们将会有非常明确的奖励。但是多数的情况都是没有奖励的,以聊天机器人为例,机器人与人聊天,聊得怎样算是好,聊得怎样算是不好,我们是无法给出明确的奖励的。

    00

    Facebook让AI学会谈判协商,能通过“说谎”达到目的

    陈桦 编译整理 量子位 出品 | 公众号 QbitAI 从每天醒来的那一刻起,我们的生活就开始了一系列协商。 这样的场景包括讨论看什么电视,说服孩子们吃蔬菜,以及通过讨价还价获得更好的价格。这些都有共同之处,即需要复杂的沟通和推理能力。而对计算机来说,这些能力并不是天生的。 到目前为止,对聊天机器人的开发意味着系统可以进行简短的对话,完成简单的任务,例如预订餐厅。然而,开发能够与人类进行有意义对话的机器仍然充满挑战,因为这需要机器人有能力将会话理解与关于世界的知识结合起来,随后生成新的句子,协助它实现目标。

    06
    领券