学习
实践
活动
工具
TVP
写文章
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

写给人类的机器学习 五、强化学习

ApacheCN_飞龙

在监督学习中,训练数据带有来自神一般的“监督者”的答案。如果生活可以这样,该多好!

200

写给人类的机器学习 四、神经网络和深度学习

ApacheCN_飞龙

使用深度学习,我们仍然是习得一个函数f,将输入X映射为输出Y,并使测试数据上的损失最小,就像我们之前那样。回忆一下,在 2.1 节监督学习中,我们的初始“问题陈...

200

【二】gym初次入门一学就会---代码详细解析简明教程----平衡杆案例

汀丶

阿里 · 算法工程师 (已认证)

注释:导入gym库,第2行创建CartPole-v0环境,并在第3行重置环境状态。在for循环中进行1000个时间步长(timestep)的控制,第5行刷新每...

300

【一】gym环境安装以及安装遇到的错误解决

汀丶

阿里 · 算法工程师 (已认证)

镜像源地址可参考:tensorflow安装、常用python镜像源、tensorflow 深度学习强化学习教学

700

tensorflow语法【shape、tf.trainable_variables()、Optimizer.minimize()】

汀丶

阿里 · 算法工程师 (已认证)

【一】tensorflow安装、常用python镜像源、tensorflow 深度学习强化学习教学

700

【三】tensorboard安装、使用教学以及遇到的问题

汀丶

阿里 · 算法工程师 (已认证)

【一】tensorflow安装、常用python镜像源、tensorflow 深度学习强化学习教学

500

【四】-强化学习入门简介---PaddlePaddlle强化学习及PARL框架

汀丶

阿里 · 算法工程师 (已认证)

注意:从环境中获取的状态,有时候叫state,有时候叫observation,这两个其实一个代表全局状态,一个代表局部观测值,在多智能体环境里会有差别,但我们刚...

1400

【一】飞桨paddle【GPU、CPU】安装以及环境配置+python入门教学

汀丶

阿里 · 算法工程师 (已认证)

PARL 的名字来源于 PAddlepaddle Reinfocement Learning,是一款基于百度 PaddlePaddle 打造的深度强化学习框架。

1200

【一】MADDPG-单智能体|多智能体总结(理论、算法)

汀丶

阿里 · 算法工程师 (已认证)

连续动作(赛车游戏中方向盘的角度,油门,刹车控制信息,通信中功率控制,可由policy gradient、DDPG、A3C、PPO算法做决策)和离散动作(围棋、...

400

强化学习(一)模型基础

汀丶

阿里 · 算法工程师 (已认证)

上面的大脑代表我们的算法执行个体,我们可以操作个体来做决策,即选择一个合适的动作(Action)AtAt。下面的地球代表我们要研究的环境,它有自己的状态模型,我...

1000

SQL:基于结构化Q学习的抗体设计

DrugAI

今天给大家介绍的是华为发表在 arxiv 上的预印本《Structured Q-learning For Antibody Design》。作者将用于组合优化的...

5920

使用图生成多任务模型缩小基于靶标和基于细胞的药物发现之间的差异

DrugAI

本文介绍的是由中国科学院深圳先进技术研究所的Fan Hu、Dongqi Wang等人发表在arXiv上的预印文章《Bridging the gap betwee...

3910

KDD 2022 | MolSearch: 基于搜索的多目标分子生成和性质优化

DrugAI

今天介绍一篇由密歇根州立大学Mengying Sun等人于2022年8月在线发表在KDD上的文章。本文基于搜索的方法提出了一个简单而有效的框架,称为MolSea...

6720

Nat. Mach. Intel. | 通过课程学习方法优化分子从头设计模型

DrugAI

本文介绍由瑞典分子人工智能研究所的Atanas Patronov团队发表在Nature Machine Intelligence的研究成果。作者将课程学习应用于...

7020

用概率推理解决强化学习- pyro colab代码

用户1908973

2018:Reinforcement Learning and Control as Probabilistic Inference: Tutorial and...

9320

【阅读】A Comprehensive Survey on Electronic Design Automation and Graph Neural Networks——EDA+GNN综述翻译

小锋学长生活大爆炸

3 CLASSIFICATION OF GRAPH NEURAL NETWORKS

5130

一文读懂对比学习在CV进展

CristianoC

对比学习在计算机视觉的发展历程大概分为四个阶段(1)百花齐放:有InstDisc(Instance Discrimination)、CPC、CMC代表工作。在这...

5540

达观于敬:知识图谱增强下的智能推荐系统与应用

用户10103085

随着互联网技术的迅速发展,尤其是移动互联网的兴起,新产生的信息呈现爆炸式的增长。为了更好地解决信息获取中的信息过载(Information Overload)和...

9420

Nat Mach Intell|基于深度学习和分子模拟加速PROTAC的理性设计

智药邦

近期广州中山大学杨跃东教授,广州生物岛实验室陈红明研究员和星药科技在Nat. Mach. Intell.上联合发表的题为“Accelerated rationa...

8730

JCIM|RJT-RL:一种基于化合物的可逆树表示和深度强化学习的分子设计方法

智药邦

2022年8月12日,东京大学Ryuichiro Ishitani研究团队在Journal of Chemical Information and Modeli...

7130

扫码关注腾讯云开发者

领取腾讯云代金券