腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(121)
视频
沙龙
1
回答
利用
强化
学习
教
机器
人在
到达
终端
状态
前
收集
网格
世界
中
的
物品
machine-learning
、
reinforcement-learning
、
q-learning
、
gridworld
、
sarsa
我
的
问题如下。我有一个简单
的
网格
世界
: https://i.imgur.com/2QyetBg.png 代理从标记为START
的
初始
状态
开始,目标是达到标记为END
的
终止
状态
。但是,代理必须避开标有X
的
障碍,在
到达
最终
状态
之前,它必须
收集
所有标有F
的
项。我还使用Q-Learning和Sarsa实现了它,代理
到达
了结束
浏览 17
提问于2019-02-02
得票数 0
回答已采纳
1
回答
简单自动驾驶rc汽车
的
监督
学习
与
强化
学习
reinforcement-learning
、
supervised-learning
我
的
主要问题是,我应该使用有监督
的
学习
来
教
汽车驾驶,还是应该提供目标和惩罚,并进行
强化
学习
(即,在不撞到任何东西
的
情况下,保持在道路边界内,尽可能快地
到达
B点)?下面是我提出
的
利与弊
的
清单。监督
学习
的
优点:我可
浏览 0
提问于2016-04-10
得票数 13
回答已采纳
2
回答
奖励功能,避免违法行为,尽量减少法律行为,学会赢得
强化
学习
。
machine-learning
、
neural-network
、
deep-learning
、
reinforcement-learning
我目前正在为一个具有以下特性
的
游戏实现PPO:行动空间: 144环境是阶段性
的
(大约25个步骤,视级别而定),以胜负或松散结束。 在某些级别上,随机策略(如果只采取法律行动)可能会导致胜利,在某些级别需要策略。我尝试过不同
的
奖励功能,到目前为止最好
浏览 0
提问于2019-03-08
得票数 3
2
回答
强化
学习
效果
machine-learning
、
reinforcement-learning
我已经开始阅读一些关于
强化
学习
的
文献,我不明白RL应用
的
结果是什么。我将更具体地说明:让我们在连续
状态
空间中有一个时间序列问题,有限
的
动作数,以及策略函数
的
线性逼近器。所以我遵循一个算法来找到最佳策略,在这个特殊情况下,我考虑
的
线性函数
的
最优值。现在我
的
疑问是:所谓
的
最佳策略是在应用算法
的
过程中找到
的
策略,或者我必须获得最终
的
最优值,对于每一段时
浏览 0
提问于2020-05-06
得票数 1
回答已采纳
2
回答
DQN到底是如何
学习
的
?
machine-learning
、
python
、
reinforcement-learning
、
dqn
、
openai-gym
我在gym
中
创建了我
的
自定义环境,这是一个迷宫。我使用DQN模型和BoltzmannQPolicy。它很好地训练了以下变量:与端点
的
距离它能向哪个方向移动?所以我不会给它图像什么
的
。如果我在相同
的
环境(同样
的
迷宫,不改变墙壁
的
位置)训练和测试它,它可以很容易地解决它。但是如果我把它介绍给一个完全不同
的
环境(迷宫),没有训练,它就不知道该怎么做了。我不知道问题是否与我
的
代
浏览 0
提问于2021-02-28
得票数 3
3
回答
Q值
的
无界增加,Q-Learning
中
重复相同动作后
的
经常性奖励
的
结果
machine-learning
、
artificial-intelligence
、
reinforcement-learning
、
q-learning
我正在开发一个简单
的
Q-Learning实现在一个简单
的
应用程序上,但有一些事情一直困扰着我。让我们考虑Q-Learning
的
标准公式让我们假设有一个
状态
K,它有两个可能
的
操作,下一次,我可能(90%
的
情况下)会再次选择A,这将导致Q(K,A)不断增长,这是真的,即使我偶然尝试A',因为它
的
回报可能与A
的
回
浏览 2
提问于2012-10-31
得票数 6
1
回答
我用MLP制作国际象棋引擎
的
方法有什么问题?
machine-learning
、
neural-network
、
mlp
我正在用
机器
学习
制作一个国际象棋引擎,而且我在调试它时遇到了问题。我需要帮助找出我
的
程序有什么问题,我会感谢任何帮助。2000年,我和Elo一起
收集
了300万款游戏,并用自己
的
方法给它们贴上标签。在研究了数百场比赛之后,我发现,可以肯定
的
是,在任何一场比赛
的
最后10轮<
浏览 1
提问于2019-10-26
得票数 1
1
回答
关于改变数据大小
的
深度
强化
学习
machine-learning
、
neural-network
、
reinforcement-learning
、
dqn
我有一个游戏,我想要建立一个模型,将
学习
玩游戏。然而,环境输出是两个列表,表示用户和对手士兵
的
位置和数量。如何处理这件事?
浏览 0
提问于2019-10-10
得票数 2
7
回答
腾讯云AI有哪些应用?
人脸识别
云AI现在已经是极具影响力的话题了,那么腾讯云AI有哪些应用呢?
浏览 1889
提问于2018-09-26
17
回答
教
C++给初中生:在哪里划界线?
c++
我将指导一队高中生参加第一届
机器
人比赛,这里
的
大多数团队都在开发[他们
的
机器
人软件使用C++。对于团队
中
的
许多学生来说,这将是他们对编程
的
第一次介绍。我不会选择C++来
教
高中生编程(例如,Python或Javascript,我认为会更容易),但选择已经设定好了。我想
教
他们正确
的
C++ (即避免混合C/C++方言,即C+),但我也不想用不必要
的
复杂性来吓唬他们。在这方面: 我应该从第一天开始
浏览 0
提问于2011-09-12
得票数 35
回答已采纳
5
回答
一个小团队能否进入.NET
世界
,而他们
中
的
大多数人都在使用OpenSource语言?
team
、
organization
、
wpf
、
qt
我们是一个大约15名员工
的
团队,在一个非IT企业.今天,我们主要开发网站,使用PHP,MySQL等,我们在自己上运行
的
服务器还不到100个。该应用程序高度图形化,并打算在Windows系统上发布。但是我们
的
团队呢?我们能用我们
的
小数目同时处理两个宇宙吗?在dev :设计应用程序期间
浏览 0
提问于2011-10-11
得票数 5
回答已采纳
2
回答
内隐分位数回归网络(IQN)与QR有何不同?
regression
、
reinforcement-learning
、
dqn
在
强化
学习
中
,DQN将简单地输出每个动作
的
Q值。这允许时间差异
学习
:线性内插Q值的当前估计值(当前选择
的
动作)到Q‘--下一个
状态
下最佳动作
的
值。 分位回归网络更进一步,为每个操作输出一系列值。如果用DQN,我们有Q值
的
向量,QR给出Q值
的
子向量。这些Q值在相互比较时(在该子向量
中
)
的
可能性是相同
的
.#,120.5
中
出现
的
概率为
浏览 0
提问于2018-11-07
得票数 11
回答已采纳
7
回答
怎样使用AI提升运维效率?
机器学习
、
devops
、
运维
从内部数据中心到云和融合架构,IT运营在过去十年
中
呈指数级增长,很多IT大公司已经消除了与安装数据中心,服务器相关
的
大量工作,管理网络,存储等。这导致了对DevOps理念
的
更广泛接受 - 节省了时间并提高了性能,缩小了工程师与IT运营之间
的
差距。但是,DevOps还没有真正实现预期,因为工程师仍然必须响应许多有关其基础架构
中
的
问题和事件
的
警报。 但是,如果我们让人类解决新
的
,复杂
的
问题,同时我们让
机器
解决已知
浏览 1713
提问于2018-10-12
4
回答
编程一个聊天
机器
人-理解语言
programming-languages
、
artificial-intelligence
、
natural-language-processing
我希望这是一个可以回答
的
问题。让我给出一些背景:当我想要分析语义时,我应该研究哪些编程语言/框架。我知
浏览 0
提问于2012-01-27
得票数 3
回答已采纳
10
回答
我应该开始
学习
ASP还是“继续”
学习
ASP.NET?
c#
、
asp.net
、
vbscript
、
asp-classic
背景是否值得在去年
学习
ASP.
浏览 1
提问于2010-09-17
得票数 5
回答已采纳
19
回答
合作计数
game
、
king-of-the-hill
你
的
机器
人会和另一个
机器
人对决。你
的
目标?合作数到100。可能
的
结果之前停止计数玩家1:决定数到57两个人都没有得分。玩家1:决定数到100每个球员得到100分。整体
浏览 0
提问于2021-04-10
得票数 28
回答已采纳
18
回答
2011年Ubuntu有哪些新游戏可供使用?
software-recommendation
、
games
我知道还有其他
的
问题,比如"有什么本地游戏可供使用?“,它们经常会有问题,因为它们变成了每一个为Linux发布
的
游戏
的
没完没了
的
列表。将于2011年推出
的
游戏尽可能多
的
信息,尽可能多
的
截图和链接 很少有老游戏,除非他们正在做一个重大
的
更新,以改变游戏非常重要。每个答案一个游戏,添加尽可
浏览 0
提问于2011-03-02
得票数 62
回答已采纳
27
回答
在我
的
固定货币游戏中如何处理"Scrooge McDucks“?
game-design
、
mmo
、
economy
我目前正在做一个非常小规模
的
MMO游戏,计划每台服务器支持大约100名玩家,但是我们
的
经济模式有问题。在某个时间点,这就是黄金数量在游戏中
的
样子。= 玩家A向店主出售价值2金币
的
赃物。店主有0块黄金,所以他从
浏览 0
提问于2018-08-03
得票数 118
回答已采纳
11
回答
我怎样才能防止我
的
收集
和交易游戏作弊?
game-design
、
game-mechanics
、
web
、
anti-cheat
我开发和管理一个网络游戏,用户
收集
和交易虚拟宠物(它完全在线)。这是一个简单
的
游戏,我们定期发布新宠物,用户
收集
它们并随机获取它们,然后用它们来交换他们想要
的
,有些是罕见
的
。我们也做假日活动。问题是,没有什么能阻止人们创建新账户,
收集
一堆免费宠物,然后把它们全部交易到自己
的
主账户,或者至少是稀有的账户。他们还可以将它们全部交换给其他用户,以换取其他网站上
的
东西。我不喜欢这种方式,因为1.编写迷你游戏是一项额外
的
工作,2.众所周知,我们
浏览 0
提问于2021-01-04
得票数 34
回答已采纳
13
回答
低水平编程-这对我有什么好处?
education
、
c
、
assembly
、
low-level
我
的
职位在应用程序开发
中
,我认为可用性是最重要
的
。您编写
的
应用程序将被用户“消耗”。这些应用程序使用得越多,所产生
的
价值就越大。好
的
设计:经过深思熟虑
的
用户界面,可以访问精心设计
的
功能.正确性:如果没有正确
的</
浏览 0
提问于2010-11-30
得票数 35
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
探测机器人哪里都能去
强化学习入门——说到底研究的是如何学习
如何训练一个智能吃豆人?
强化学习最新项目研究进展
SIGGRAPH2018论文:深度强化学习教机器人自己穿衣服!
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券