首页
学习
活动
专区
工具
TVP
发布

机器学习算法与理论

专栏作者
57
文章
73859
阅读量
28
订阅数
浅读AlphaGo zero
这两天花点时间看了发表在《Nature》上的Mastering the Game of Go without Human Knowledge这篇文章,文章号称可以无人类先验知识,仅使用围棋的自身规则进行学习、自助调参,使用一个网络完成训练。然后就可以进行下棋,并成功打败他的哥哥AlphaGo Lee和AlphaGo Fan. 相关数据: 训练了3天,进行了4.9百万次对弈。 0.4s计算每次的落子。 使用了AlphaGozero 4 TPUs(张量处理单元)。 下面说说我从中读到的主要思想: 使用强化学习
微风、掠过
2018-04-10
9930
《白话深度学习与Tensorflow》学习笔记(5)强化学习(reinforcement learning)
强化学习(reinforcement learning)本身是一种人工智能在训练中得到策略的训练过程。 有这样一种比喻:如果你教一个孩子学古筝,他可以躺着,趴着,坐着,用手弹,用脚弹,很大力气弹等等,如果他正确得到要领给他一颗糖表示奖励,如果不对抽他一下。在过程中让他自己慢慢总结规律。 模型核心就是训练他的行为策略。 Action:行为,做出的反应,或者输出。 Reward:反馈和奖励,即对行为之后所产生的结果的评价,如果是好的正向的,就给一个正的奖励,负面的就负的奖励(惩罚),其绝对值衡量了好坏的程度。
微风、掠过
2018-04-10
1.3K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档