SeanCheney的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SeanCheney的专栏

专栏成员

192

文章

387496

阅读量

89

订阅数

《Scikit-Learn、Keras与TensorFlow机器学习实用指南（第二版）》第18章强化学习

编程算法缓存深度学习强化学习监督学习

（第二部分：深度学习）第10章使用Keras搭建人工神经网络第11章训练深度神经网络第12章使用TensorFlow自定义模型并训练第13章使用TensorFlow加载和预处理数据第14章使用卷积神经网络实现深度计算机视觉第15章使用RNN和CNN处理序列第16章使用RNN和注意力机制进行自然语言处理第17章使用自编码器和GAN做表征学习和生成式学习第18章强化学习 [第19章规模化训练和部署TensorFlow模型]

2020-02-13

1.8K0

《Scikit-Learn与TensorFlow机器学习实用指南》第16章强化学习（下）

机器学习 tensorflow 强化学习 scikit-learn

在二十世纪初，数学家 Andrey Markov 研究了没有记忆的随机过程，称为马尔可夫链。这样的过程具有固定数量的状态，并且在每个步骤中随机地从一个状态演化到另一个状态。它从状态S演变为状态S'的概率是固定的，它只依赖于(S, S')对，而不是依赖于过去的状态（系统没有记忆）。

2018-12-17

5660

《Scikit-Learn与TensorFlow机器学习实用指南》第16章强化学习（上）

机器学习 tensorflow 游戏强化学习 scikit-learn

强化学习（RL）如今是机器学习的一大令人激动的领域，当然之前也是。自从 1950 年被发明出来后，它在这些年产生了一些有趣的应用，尤其是在游戏（例如 TD-Gammon，一个西洋双陆棋程序）和机器控制领域，但是从未弄出什么大新闻。直到 2013 年一个革命性的发展：来自英国的研究者发起了Deepmind 项目，这个项目可以学习去玩任何从头开始的 Atari 游戏，在多数游戏中，比人类玩的还好，它仅使用像素作为输入而没有使用游戏规则的任何先验知识。这是一系列令人惊叹的壮举中的第一个，并在 2016 年 3 月以他们的系统阿尔法狗战胜了世界围棋冠军李世石而告终。从未有程序能勉强打败这个游戏的大师，更不用说世界冠军了。今天，RL 的整个领域正在沸腾着新的想法，其都具有广泛的应用范围。DeepMind 在 2014 被谷歌以超过 5 亿美元收购。

2018-12-17

4670

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态