腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
杨熹的专栏
专栏作者
举报
302
文章
365102
阅读量
55
订阅数
订阅专栏
申请加入专栏
全部文章
其他
机器学习
神经网络
人工智能
编程算法
深度学习
tensorflow
NLP 服务
强化学习
python
游戏
https
大数据
数据处理
http
网络安全
action
推荐系统
agent
state
java
node.js
html
决策树
数据分析
数据库
企业
存储
机器人
table
云数据库 SQL Server
中文分词
云推荐引擎
网站
爬虫
正则表达式
keras
数据可视化
app
excel
friend
sample
sum
区块链
自动驾驶
数据挖掘
go
bash
scala
bootstrap
android
arm
git
github
搜索引擎
bash 指令
spring
mapreduce
云函数
数据加密服务
短信
腾讯云测试服务
渲染
无人驾驶
卷积神经网络
numpy
监督学习
线性回归
二叉树
flash
kernel
迁移学习
数据结构
adobe
build
com
csv
data
function
google
greedy
image
jobs
join
key
label
list
max
model
paste
pivot
png
probability
relationship
render
target
uber
vi
vr
youtube
zero
笔记
表格
程序员
工具
数学
原理
搜索文章
搜索
搜索
关闭
maxmin 的代码实现
https
网络安全
游戏
在解决石头剪子布这个问题的过程中,我们会用到一个 maxmin 函数,先来看看这个函数的理论基础。
杨熹
2020-03-25
688
0
强化学习基础环境 Gym 简介
游戏
OpenAI Gym 是一个最广泛使用的强化学习实验环境,内置上百种实验环境,比如一些简单几何体的运动,一些用文本表示的简单游戏,或者机械臂的抓取和控制等实验环境。
杨熹
2020-03-20
1.2K
0
Deep Q-Learning 的数据预处理
游戏
Q-Learning 中需要建立一个 Q-table 用来查询每个state所对应的最好的action,但是当 state 空间很大时,如上百万的状态时,这个 Q 表会很大,建立表格和更新表格就很低效,所以有了 Deep Q-Learning 的方法,在DQN 中不会建立Q 表,但是会建立一个 Deep Q Neural Network 来计算每个 state 的每个 action 的近似 Q-values,这样也可以找到最优决策。
杨熹
2020-03-20
679
0
DQN 的代码实现
游戏
算法来自:Volodymyr Mnih,Playing Atari with Deep Reinforcement Learning
杨熹
2020-03-20
1.5K
0
《不会被机器替代的人》:智能时代的生存策略
机器人
短信
游戏
一开始人们以为,高级的脑力劳动不会被替代,比如医生、律师,可是现在医生、律师的活都可以干,而且比人的效率高很多。
杨熹
2018-12-13
533
0
强化学习第5课:什么是马尔科夫决策过程
强化学习
其他
机器人
游戏
它和我们前面讲的决策过程是有一样的结构,只不过它会有更多限制。这里同样也有 agent 和环境,只不过还就多了一个状态,用 s 来表示。状态 state 是 agent 可以在环境中所观察到的东西, 然后 agent 可以选择一个行为,并从环境中获得反馈。
杨熹
2018-12-10
674
0
强化学习第4课:这些都可以抽象为一个决策过程
强化学习
机器人
游戏
这个过程有两步,首先你的代理会观察环境的一些特质,有时是传感器感知到的,有些是输入的用户特征。 然后代理会选择一个行为,将这个行为反馈给环境。 之后代理不仅仅会收到在这个行为下的环境的反馈,同时还以某些方式,影响着环境改变着环境。 例如,你不仅收到了用户是否点击了你的横幅广告的反馈,还影响着你的用户基础。
杨熹
2018-12-07
368
0
用一个小游戏入门深度强化学习
游戏
强化学习
编程算法
机器学习
今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。
杨熹
2018-10-09
1.2K
0
什么是 Q-learning
游戏
编程算法
http
在这个游戏中,agent 从一个给定的位置开始,即起始状态。 在不穿越迷宫墙壁的前提下,在每个状态时,都可以选择上下左右四个方向走一步,或者原地不动, 上下左右这四个动作的每一个都会将 agent 带到网格的一个新的单元格,即新的状态, 在迷宫中有一个网格处有宝箱,这个网格就是目标状态, 此外,在某些网格处还有一些炸弹, 我们的目标是找到一条没有炸弹的路径,以最快的速度从起始状态到达目标状态。
杨熹
2018-10-09
2K
0
【LEETCODE】模拟面试-294.Flip Game II
编程算法
游戏
图:新生大学 You are playing the following Flip Game with your friend: Given a string that contains only these two characters: + and -, you and your friend take turns to flip twoconsecutive "++" into "--". The game ends when a person can no longer make a move
杨熹
2018-04-03
704
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档