腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
机器学习算法与理论
专栏成员
举报
57
文章
76688
阅读量
28
订阅数
订阅专栏
申请加入专栏
全部文章(57)
其他(11)
机器学习(11)
人脸识别(10)
编程算法(10)
神经网络(9)
深度学习(8)
python(7)
人工智能(5)
图像识别(5)
tensorflow(4)
图像处理(4)
opencv(3)
github(2)
ubuntu(2)
开源(2)
强化学习(2)
面向对象编程(2)
kernel(2)
c++(1)
html(1)
oracle(1)
智能交通(1)
存储(1)
游戏(1)
erp(1)
决策树(1)
udp(1)
anaconda(1)
大数据(1)
安全(1)
数据分析(1)
物联网(1)
数据结构(1)
nat(1)
abstract(1)
methods(1)
sse(1)
搜索文章
搜索
搜索
关闭
浅读AlphaGo zero
nat
强化学习
神经网络
存储
这两天花点时间看了发表在《Nature》上的Mastering the Game of Go without Human Knowledge这篇文章,文章号称可以无人类先验知识,仅使用围棋的自身规则进行学习、自助调参,使用一个网络完成训练。然后就可以进行下棋,并成功打败他的哥哥AlphaGo Lee和AlphaGo Fan. 相关数据: 训练了3天,进行了4.9百万次对弈。 0.4s计算每次的落子。 使用了AlphaGozero 4 TPUs(张量处理单元)。 下面说说我从中读到的主要思想: 使用强化学习
微风、掠过
2018-04-10
1K
0
《白话深度学习与Tensorflow》学习笔记(5)强化学习(reinforcement learning)
深度学习
强化学习
机器学习
tensorflow
强化学习(reinforcement learning)本身是一种人工智能在训练中得到策略的训练过程。 有这样一种比喻:如果你教一个孩子学古筝,他可以躺着,趴着,坐着,用手弹,用脚弹,很大力气弹等等,如果他正确得到要领给他一颗糖表示奖励,如果不对抽他一下。在过程中让他自己慢慢总结规律。 模型核心就是训练他的行为策略。 Action:行为,做出的反应,或者输出。 Reward:反馈和奖励,即对行为之后所产生的结果的评价,如果是好的正向的,就给一个正的奖励,负面的就负的奖励(惩罚),其绝对值衡量了好坏的程度。
微风、掠过
2018-04-10
1.3K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档