专栏首页arxiv.org翻译专栏用强化学习模拟进化 (CS AI)
原创

用强化学习模拟进化 (CS AI)

进化在地球上产生了人类和动物的智慧。我们认为,发展人工类人智能的道路将通过模拟自然界中的进化过程。在自然界中,驱动大脑发展的过程有两个:进化和学习。进化是缓慢的,跨代的,除其他外,它通过改变个体的内部奖励功能来定义个体所学的东西。学习在一个人的一生中起着很快的作用,它能迅速更新代理人的政策,使快乐最大化,痛苦最小化。奖赏函数通过进化缓慢地与适应度函数对齐,然而,随着代理进化环境,其适应度函数也随之改变,增加了奖赏与适应度之间的不一致性。在模拟中复制这两个过程在计算上非常昂贵。这项工作提出了通过进化奖励(EvER)的进化,允许学习通过确保奖励函数与适应度函数的一致性,单枪匹马地推动搜索具有日益进化适应度的策略。在这项研究中,要利用特工一生所经历的整个状态动作轨迹。与此相反,目前的进化算法丢弃了这些信息,从而限制了它们处理顺序决策问题的潜在效率。我们在两个简单的受生物启发的环境中测试了我们的算法,并与最先进的进化算法相比,展示了它在生成更具生存和繁殖基因能力的代理方面的优势。

原文题目:Mimicking Evolution with Reinforcement Learning

原文:Evolution gave rise to human and animal intelligence here on Earth. We argue that the path to developing artificial human-like-intelligence will pass through mimicking the evolutionary process in a nature-like simulation. In Nature, there are two processes driving the development of the brain: evolution and learning. Evolution acts slowly, across generations, and amongst other things, it defines what agents learn by changing their internal reward function. Learning acts fast, across one's lifetime, and it quickly updates agents' policy to maximise pleasure and minimise pain. The reward function is slowly aligned with the fitness function by evolution, however, as agents evolve the environment and its fitness function also change, increasing the misalignment between reward and fitness. It is extremely computationally expensive to replicate these two processes in simulation. This work proposes Evolution via Evolutionary Reward (EvER) that allows learning to single-handedly drive the search for policies with increasingly evolutionary fitness by ensuring the alignment of the reward function with the fitness function. In this search, EvER makes use of the whole state-action trajectories that agents go through their lifetime. In contrast, current evolutionary algorithms discard this information and consequently limit their potential efficiency at tackling sequential decision problems. We test our algorithm in two simple bio-inspired environments and show its superiority at generating more capable agents at surviving and reproducing their genes when compared with a state-of-the-art evolutionary algorithm.

原文作者:João Abrantes

原文地址:https://arxiv.org/abs/2004.00048

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 改进Actor-Critic算法的样本复杂度界(CS LG)

    在强化学习中,actor-critic(AC)算法是一种寻找最优策略的常用方法。AC和natural actor-critic(NAC)算法的有限样本收敛速度是...

    用户7095611
  • 人工智能在欧盟决策中的应用。对公民的输入、输出和输出合法性的影响(CS CY)

    缺乏合法性削弱了欧盟(EU)解决重大危机的能力,并威胁到整个体系的稳定。 通过将数字数据纳入政治进程,欧盟寻求将决策越来越多地建立在健全的经验证明之上。 特别是...

    用户7095611
  • 大脑建模的新思路(CS AI)

    本文描述了一个三层次认知模型的实现细节,该模型在系列论文中有描述。 整个架构现在是模块化的,不同层次使用不同类型的信息。 维护集成层次关系,将集成层次关系放置在...

    用户7095611
  • 人脸识别中的数据不确定性学习(CS AI)

    建模数据不确定性对噪声图像很重要,但很少用于人脸识别。 先锋工作PFE通过将每个人脸图像嵌入建模为高斯分布来考虑不确定性。 这是相当有效的,但是,它只使用现有的...

    时代在召唤
  • Code Forces Bear and Forgotten Tree 3 639B

    B. Bear and Forgotten Tree 3 time limit per test2 seconds memory limit per t...

    ShenduCC
  • Peer Code Reviews Made Easy with Eclipse Plug-In

    Origin Article: Peer Code Reviews Made Easy with Eclipse Plug-In Origin Author: ...

    用户1221057
  • 752. Open the Lock

    思路: 实际上每一位有10种变化情况,总共有4位,所以有4104^{10}种状态,初始从”0000”开始衍变,到target的最短路径可以用BFS来表达。当...

    用户1147447
  • 机器人体验营笔记(一)概要

    版权声明:署名,允许他人基于本文进行创作,且必须基于与原先许可协议相同的许可协议分发本文 (Creative Commons)

    zhangrelay
  • cellranger虽然是10x官方软件也未必得全信它

    也就是说,作者认为,这个10X仪器的单细胞转录组数据走cellranger流程,其实是有一点问题的。

    生信技能树jimmy
  • MotherBoard JCOM to DB9 female By HKL,

    Since there is a project to deploy an x86 VyOS as the router, After I install th...

    hiplon

扫码关注云+社区

领取腾讯云代金券