首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签深度强化学习

#深度强化学习

从框架到经典方法,全面了解分布式深度强化学习DDRL

机器之心

AlphaGo 是一个在人机博弈中赢得众多职业围棋手的 agent 机器人。随着 AlphaGo 的突破,深度强化学习(Deep Reinforcement L...

22610

OpenAI Gym 高级教程——深度强化学习库的高级用法

人类群星闪耀时

在本篇博客中,我们将深入探讨 OpenAI Gym 高级教程,重点介绍深度强化学习库的高级用法。我们将使用 TensorFlow 和 Stable Baseli...

23610

【分享NVIDIA GTC大会干货】基于真实世界的数据集的深度强化学习

沧洋

本文的讲座来自于英伟达GTC大会 首先附上原视频链接https://register.nvidia.com/flow/nvidia/gtcspring2023...

10810

深度强化学习整理

算法之名

传智播客 · Java架构师,讲师 (已认证)

强化学习来自于心理学里的行为主义理论,是在环境给予的奖励或惩罚信号的反馈下,逐步形成能获得最大利益的行为策略。与监督学习相比,强化学习不需要事先准备样本集,而是...

10610

J. Chem. Inf. Model. | 双重驱动的深度强化学习用于靶标特异性分子生成

DrugAI

今天为大家介绍的是来自 Hao Liu和 Liang Hong团队的一篇论文。基于深度学习的分子生成模型在新药设计领域引起了广泛关注。然而,大多数现有模型专注于...

35220

MetaGPT( The Multi-Agent Framework):颠覆AI开发的革命性多智能体元编程框架

汀丶人工智能

阿里 · 算法工程师 (已认证)

一个多智能体元编程框架,给定一行需求,它可以返回产品文档、架构设计、任务列表和代码。这个项目提供了一种创新的方式来管理和执行项目,将需求转化为具体的文档和任务列...

69220

深度强化学习经验回放(Experience Replay Buffer)的三点高性能修改建议:随机采样、减少保存的数据量、简化计算等

汀丶人工智能

阿里 · 算法工程师 (已认证)

我们使用 Numpy 库在内存里、使用 PyTorch 库在显存里 创建了一整块连续的空间,对比了 List 和 Tuple 的方案。结果:连续存储空间的明显更...

70240

深度强化学习算法是否需要使用批归一化(Batch Norm) 或归一化,文本带你详解。

汀丶人工智能

阿里 · 算法工程师 (已认证)

这篇文章只说:BN 可以给深度网络带来提升,把它算成是正方已经很勉强。尽管深度强化学习也是一种深度学习,但是我个人认为深度强化学习中 BN 会失效。原因是深度强...

50320

深度强化学习:详解优化器加上REINFORCE算法迭代求解【组合优化】

汀丶人工智能

阿里 · 算法工程师 (已认证)

三张图理解「优化优化器的优化器」加上 REINFORCE 算法迭代求解,到这里就讲完了,感兴趣的可以去读原论文。欢迎来腾讯 QQ 的群 **深度强化学习 Ele...

20820

深度强化学习落地方法论算法选择:DQN、DDPG、A3C、PPO、TD3

汀丶人工智能

阿里 · 算法工程师 (已认证)

虽然每年 RL 方向的 paper 满天飞,但真正具有普遍实用价值的突破性工作实在不多,大多数还是在经典框架基础上的改进和扩展。DRL 常规武器库里的存货主要还...

1.9K20

深度强化学习落地方法论训练篇:PPO、DQN、DDPG、学习率、折扣因子等

汀丶人工智能

阿里 · 算法工程师 (已认证)

为了保证 DRL 算法能够顺利收敛,policy 性能达标并具有实用价值,结果有说服力且能复现,需要算法工作者在训练前、训练中和训练后提供全方位一条龙服务。我记...

1.4K40

小白系列(6)| Q-Learning vs. Deep Q-Learning vs. Deep Q-Network

一点人工一点智能

原文:小白系列(6)| Q-Learning vs. Deep Q-Learning vs. Deep Q-Network

41320

人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF

汀丶人工智能

阿里 · 算法工程师 (已认证)

在大语言模型完成 SFT 监督微调后,下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数,能对当前的状态刻画一个分数,来说明这个...

76201
领券