首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

深度强化学习落地方法论算法选择:DQN、DDPG、A3C、PPO、TD3

虽然每年 RL 方向的 paper 满天飞,但真正具有普遍实用价值的突破性工作实在不多,大多数还是在经典框架基础上的改进和扩展。DRL 常规武器库里的存货主要还是老三样:DQN,DDPG 和 A3C,它们是深度学习时代最成熟、最能体现智慧结晶的三个 DRL 框架,你可以在 GitHub 上找到无数相关代码,有 OpenAI,DeepMind 和 Nvidia 这些大公司的,也有个人爱好者的。对于 DRL 初学者,它们是最佳的敲门砖;对于算法研究者,它们是最厚实的 “巨人肩膀”;对于算法工程师,它们是最顺手的试金石。你完全可以把三个框架都放到项目模拟器上跑一跑,看哪个效果好就用哪个。当然,这三个算法框架都有各自的特点和适用 domain,结合对项目的分析,是可以提前评估最合适的算法的。

03
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    .Net Micro Framework导航总贴(新手必看)

    一、什么是.Net Micro Framework 它是一个.Net框架(微型框架),也是一个嵌入式系统OS,可以裸奔在ARM单片机上,也可以运行在别的嵌入式系统上。我们可以用VisualStudio C#开发代码,调用对应各种硬件的类库方法,实现对硬件的控制。 Microsoft® .NET Micro Framework简介 .Net Micro Framework_百度百科 【C#改变世界】谈谈自动化的软硬件及技术选型 .Net Micro Framework可以做什么?在单片机上有什么优势? MF开发板-用途简介 .Net Micro Framework结构和特性【英文】 .Net Micro Framework硬件要求和功用【英文】 二、学习.Net Micro Framework需要准备些什么 学习MF,可以买我们准备好的套装;也可以自己买别家的板子(购买总目录里面有推荐),然后买我们的无限制固件;如果有一定技术,对MF移植有贡献,我们还可以赠送板子;如果兴趣很低,不想掏钱,那就申请试用吧(推广计划)! .Net Micro Framework学习推广及赠送计划 .Net Micro Framework购买总目录(最低46元MF学习板) .Net Micro Framework固件(支持STM32F103ZET6/VET6开发板) 三、拿到开发板后如何下手 MF开发板都是STM32单片机开发板,一般出厂内置的是单片机C程序,我们当然是需要刷入MF系统! 每一块开发板的三个地方是一定要找到的:用于刷固件的COM1、设为系统启动的Boot跳线、用于供电的USB口 不同开发板的这三个位置都不同,特别是探索者二号,COM1是由USB转的,同时具备供电能力。 因为驱动的问题,在64位系统特别是Win8x64上,绝大部分同学都无法刷机成功! 开发板通用刷机教程 老树系列--.NET MF固件部署 MF前传——探索者二号简介 MF前传——雅典娜二号简介 MF前传——探索者一号简介 MF前传——探索者一号液晶屏接线 四、教程与例子程序 开发环境就是Visual Studio 2010 + .Net Micro Framework SDK,据说vs2008也可以,但vs2012不可以! C#工程师学MF不建议学太多单片机知识,知道怎么找针脚接线就好。 老树系列--.NET MF环境的安装 MF干活——点灯神话 MF干活——C#数码管与跑马灯之舞(视频) 老树系列--2.Hello World 你懂的 老树系列--3.LED灯控制 老树系列--数码管显示 MF—探索者二号测试心得—UART MF—探索者二号测试心得—ADC12 五、.Net Micro Framework移植 MF是一座大宝库,还有许多宝藏没有挖掘,我们需要更多人加入移植,让大家可以使用更多的MF功能! .Net Micro Framework移植环境准备 六、更多资料 QQ群:1600838 论坛:http://www.NewLifeX.com/MF/list.aspx 叶帆

    01

    论文研读-用于约束多目标优化的新型双阶段双种群进化算法

    i) mainPop 一旦进入可行区域,在整个演化过程中几乎不会保留任何不可行的解决方案。相比之下,auxPop 可以在整个进化过程中保持不可行的解决方案。即mainPop是以可行性为导向的,主要侧重于探索可行区域。另一方面,auxPop 可以广泛保留不可行的解决方案,从而探索不可行的区域。就搜索空间的探索而言,这两个种群在本质上是互补的。ii) auxPop 中可行解决方案的数量随迭代次数而变化,并且因问题而异,具体取决于可行和不可行区域的几何形状。对于图 7 中的所有问题,我们可以观察到,在切换点之前 auxPop 中可行解的数量变化很小。这是因为当检测到 auxPop 中解的收敛稳定性时,搜索阶段会发生变化。iii) 切换后 auxPop 中可行解的数量有所增加。这是因为 auxPop 开始从不受约束的 PF 向真正的 PF 移动。尽管如此,对于 Type-II、III 和 IV 问题,即图 7(b)-(d) 中的 CTP7、MW7 和 LIRCMOP1,auxPop 即使在演化的后期仍然有许多不可行的解决方案,旨在利用接近真实 PF 的不可行解所携带的有用信息。

    02
    领券