腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
机器学习算法原理与实践
专栏成员
举报
129
文章
155466
阅读量
76
订阅数
订阅专栏
申请加入专栏
全部文章(129)
其他(73)
编程算法(41)
机器学习(18)
神经网络(9)
强化学习(9)
决策树(6)
scikit-learn(5)
java(4)
python(4)
监督学习(4)
api(3)
深度学习(3)
人工智能(3)
spark(3)
数据分析(3)
partial(3)
NLP 服务(2)
tensorflow(2)
存储(2)
分布式(2)
图像识别(2)
卷积神经网络(2)
大数据(2)
数据处理(2)
sum(2)
布局(2)
数据挖掘(1)
数据库(1)
游戏(1)
开源(1)
爬虫(1)
numpy(1)
面向对象编程(1)
推荐系统(1)
数据结构(1)
nat(1)
com(1)
layout(1)
搜索文章
搜索
搜索
关闭
强化学习(十九) AlphaGo Zero强化学习原理
神经网络
强化学习
在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。
刘建平Pinard
2019-04-01
1.3K
0
强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)
强化学习
编程算法
在强化学习(十七) 基于模型的强化学习与Dyna算法框架中,我们讨论基于模型的强化学习方法的基本思路,以及集合基于模型与不基于模型的强化学习框架Dyna。本文我们讨论另一种非常流行的集合基于模型与不基于模型的强化学习方法:基于模拟的搜索(Simulation Based Search)。
刘建平Pinard
2019-03-15
1.2K
0
强化学习(十五) A3C
编程算法
强化学习
神经网络
在强化学习(十四) Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C的算法原理和算法流程。
刘建平Pinard
2019-03-05
1.2K
0
强化学习(十七) 基于模型的强化学习与Dyna算法框架
强化学习
编程算法
监督学习
在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。
刘建平Pinard
2019-03-04
1.5K
0
强化学习(十四) Actor-Critic
编程算法
强化学习
神经网络
在强化学习(十三) 策略梯度(Policy Gradient)中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,同时单独对策略函数进行迭代更新,不太容易收敛。
刘建平Pinard
2019-02-22
857
0
强化学习(十三) 策略梯度(Policy Gradient)
强化学习
在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradient),它是Policy Based强化学习方法,基于策略来学习。
刘建平Pinard
2018-12-27
1.2K
0
强化学习(九)Deep Q-Learning进阶之Nature DQN
强化学习
nat
编程算法
游戏
在强化学习(八)价值函数的近似表示与Deep Q-Learning中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learning(以下简称DQN)的改进版,今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015)。
刘建平Pinard
2018-10-11
1.2K
0
强化学习(四)用蒙特卡罗法(MC)求解
强化学习
存储
编程算法
在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型$P$都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法。
刘建平Pinard
2018-08-30
800
0
强化学习(三)用动态规划(DP)求解
强化学习
编程算法
机器学习
在强化学习(二)马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。
刘建平Pinard
2018-08-14
1.1K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档