机器学习算法与理论-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器学习算法与理论

专栏成员

57

文章

76688

阅读量

28

订阅数

浅读AlphaGo zero

nat 强化学习神经网络存储

这两天花点时间看了发表在《Nature》上的Mastering the Game of Go without Human Knowledge这篇文章，文章号称可以无人类先验知识，仅使用围棋的自身规则进行学习、自助调参，使用一个网络完成训练。然后就可以进行下棋，并成功打败他的哥哥AlphaGo Lee和AlphaGo Fan. 相关数据：训练了3天，进行了4.9百万次对弈。 0.4s计算每次的落子。使用了AlphaGozero 4 TPUs（张量处理单元）。下面说说我从中读到的主要思想：使用强化学习

微风、掠过

2018-04-10

1K0

《白话深度学习与Tensorflow》学习笔记（5）强化学习(reinforcement learning)

深度学习强化学习机器学习 tensorflow

强化学习(reinforcement learning)本身是一种人工智能在训练中得到策略的训练过程。有这样一种比喻：如果你教一个孩子学古筝，他可以躺着，趴着，坐着，用手弹，用脚弹，很大力气弹等等，如果他正确得到要领给他一颗糖表示奖励，如果不对抽他一下。在过程中让他自己慢慢总结规律。模型核心就是训练他的行为策略。 Action：行为，做出的反应，或者输出。 Reward：反馈和奖励，即对行为之后所产生的结果的评价，如果是好的正向的，就给一个正的奖励，负面的就负的奖励（惩罚），其绝对值衡量了好坏的程度。

微风、掠过

2018-04-10

1.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态