首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    腾讯paper 模仿学习

    3. 基于分批历史数据的指数加权模仿学习方法 Exponentially Weighted Imitation Learning for Batched Historical Data 这项研究由腾讯 AI Lab 独立完成,主要研究了仅使用成批量的历史数据的深度策略学习。这篇文章中我们主要考虑的是只使用历史数据的深度策略学习。这个问题的主要挑战在于,与大部分强化学习问题不同,我们不再有一个环境的模拟器来进行学习。为了解决这个问题,研究者提出一个单调优势加权的模仿学习算法来从历史数据中学习,并且可以应用到复杂非线性函数近似以及混合动作空间的问题中。这个方法并不依赖用来生成数据的行为策略的知识,所以可以被用来从一个未知的策略生成的数据中进行学习。在一些条件下,该算法(尽管非常简单)可以证明策略提升的下界,并且在实验中的效果超过了其它方法,并有望为复杂游戏 AI 提供更好的模仿学习。论文中也提供了详尽的数值实验来展示所提出的算法的有效性。

    02

    What’s New in ART in Android P

    2. Memory and storage optimization-This will be more helpful to entry level devices(i.e.Android Go devices with less memory and storage) to perform smoothly. CompactDex(new dex format)-To reduce the amount of space and memory consumption by app we have to reduce dex files size by shrinking dex codes. Major part of Dex files consist code item instructions and StringData, so by reducing these sections we can optimize dex size. When 64k Class methods crossed in android code multiple dex file is created that have duplication of some data(i.e.StringData) so in Android P Runtime “Shared data section ” is introduced inside Vdex Container. Dex layout optimizations are also done to improve locality in code.Because During application usage only required parts is loaded into memory so improved locality provide startup time benefits and reduction in memory usage.

    02
    领券