神经网络强化学习_强化学习:神经网络_强化学习与强化学习深度强化学习：有什么区别？ - 腾讯云开发者社区

、、

在深入学习中，我们可以用损失函数值来评估模型的性能，并通过K倍交叉验证等方法来提高模型的性能。但是，如何设计和优化神经网络在深度强化学习中的应用呢？我们可以用奖励等来评估强化学习算法本身的性能，但是如何保证神经网络在强化学习算法中的应用是好的还是坏的呢？

浏览 0提问于2019-02-08得票数 3

2回答

Python神经网络强化学习

、、、

我想做一个神经网络，利用强化学习在python中进行训练。 X -> [ANN] -> yEstimate -> score! -> (repeat until weights are optimised) 目前我正在使用Scikit--学习，但似乎没有所有的神经网络东西都试图将yEstimate与yTarget相匹配。科学知识有秘密吗?还是有其他我不知道的库来完成这个任务？谢谢!

浏览 6提问于2015-12-24得票数 7

回答已采纳

1回答

您能否将强化学习添加到卷积神经网络中以改进图像分类？

、、

我对机器和深度学习非常陌生。我的疑问是，如何将强化学习添加到使用传统神经网络开发的图像分类器中，以随着时间的推移提高其性能？

浏览 23提问于2020-05-10得票数 0

1回答

我正在使用强化学习教一个人工智能，一个奥地利纸牌游戏，与不完美的信息，称为施纳普森。对于不同的游戏状态，我有不同的神经网络(使用不同的特征)来计算值/策略。我想尝试使用RNN，因为过去的操作对于导航未来的决策可能很重要。然而，当我使用多个神经网络时，我需要不断地将隐藏状态从一个RNN转移到另一个RNN。我不能完全做到这一点，特别是在训练期间，我不知道如何通过时间进行反向传播。我很感谢您的任何建议或链接到相关的论文/博客！我目前正在使用Julia中的Flux，但我也愿意使用Python中的Tensorflow或Py火炬。

浏览 0提问于2021-10-11得票数 1

2回答

基于强化学习的神经网络训练

、、、、

我知道前馈神经网络的基本知识，以及如何使用反向传播算法来训练它们，但我正在寻找一种比我能用来训练神经网络的强化学习的算法。例如，问题是我想用人工神经网络解决的问题。在这种情况下，我不知道应该做什么来控制钟摆，我只知道我离理想的位置有多近。我需要让安在奖惩的基础上学习。因此，监督学习不是一种选择。另一种情况类似于，在这种情况下，反馈被延迟，只限于目标和反目标，而不是奖励。对于第一种情况，我可以想到一些算法，比如爬山或遗传算法，但我猜它们都会很慢。它们也可能适用于第二种情况，但速度慢得令人难以置信，不利于在线学习。我的问题很简单：是否有一个简单的算法来训练带有强化学习的人工神经网络？我主要

浏览 1提问于2012-05-23得票数 67

回答已采纳

1回答

并行Q-学习

、、、、

我正在寻找学术论文或其他可信的来源，侧重于平行强化学习的主题，特别是Q-学习。我最感兴趣的是在进程之间共享Q表的方法(如果每个进程都有自己的进程，则将它们连接/同步在一起)。我也希望对链接/提到的来源中使用的方法进行简要的描述。我应该指出，我使用神经网络(PyBrain)作为近似。

浏览 0提问于2016-01-14得票数 4

1回答

通过强化学习学习权重的神经网络中的行为和奖励是什么？

、

我的目标是预测客户流失。我想利用强化学习来训练一个递归神经网络，它可以预测输入的目标响应。我理解状态在每一次都由网络输入来表示，但我不明白如何表示操作。神经网络是否应该通过一些公式来决定权重的取值？此外，当我们不知道每个输入神经元的目标反应时，我们应该如何创造奖励或惩罚来教导神经网络的权重呢？

浏览 4提问于2016-05-21得票数 0

4回答

神经网络真的被抛弃了吗？

、

我计划使用神经网络来逼近强化学习算法中的值函数。我想这样做是为了对我如何表示状态和行为引入一些概括和灵活性。现在，在我看来，神经网络是正确的工具，但我在这里的能见度有限，因为我不是一个人工智能专家。特别是，最近似乎神经网络正在被其他技术所取代，例如支持向量机，但我不确定这是否是一种时尚问题，或者神经网络是否存在一些真正的局限性，可能会毁灭我的方法。你有什么建议吗？谢谢, 图努兹

浏览 6提问于2011-08-02得票数 6

回答已采纳

1回答

连续强化学习优化

我正在实现连续强化学习(用深度强化学习的连续控制)，但在优化策略-神经网络时遇到了一些问题。按照本文的建议，通过计算和跟踪梯度(梯度上升)，使策略的q值最大化:最大Q(状态，action=policy(状态))。然而，由于Q-神经网络(最初)不是Q(状态，动作)的完全逼近，当政策的作用变得很大/无限时，我遇到了问题。当行动->无限时，Q->无穷大，这意味着策略的权重被优化到非常大或无限大的值。Morover，当政策开始输出接近无穷大的值时，这意味着q-值变得太大，而增强值变得不相关，因为"r + gamma*Q“被非常大的q-值所主导。您推荐的解决方案是什么？我计划将策

浏览 1提问于2017-04-29得票数 2

1回答

作为Q值函数逼近器，如何提高前馈网络的性能？

、、、

我试图在n*n网格世界域中导航代理，使用Q-学习+前馈神经网络作为Q-函数逼近器。基本上，代理应该找到最佳/最短的方式来达到某一终端目标位置(+10奖励)。特工采取的每一步都会得到-1的奖励。在网格世界中，代理也应该避免某些位置(-10奖励，终端状态也是如此)。到目前为止，我实现了一个Q学习算法，它将所有的Q值保存在一个Q表中，并且代理执行得很好。在接下来的步骤中，我想用神经网络代替Q表，在agent的每一步都进行在线训练。我尝试了一个具有一个隐藏层和四个输出的前馈神经网络，表示网格世界(北、南、东、西)中可能的动作的Q值。作为输入，我使用了一个nxn零矩阵，在代理当前的位置上有一个"

浏览 3提问于2016-06-20得票数 0

回答已采纳

1回答

在Keras中，我可以使用任意算法作为网络的损失函数吗？

、、、、

我已经试着理解这个机器学习问题很多天了，它真的使我困惑，我需要一些帮助。我试图训练一个神经网络，它的输入是图像，并生成另一个图像作为输出(它不是一个很大的图像，它是8x8像素)。我有一个任意的fancy_algorithm()“黑匣子”函数，它接收网络的输入和预测(两个图像)，并输出一个浮点数，它告诉网络的输出有多好(计算损失)。我的问题是，我想训练这个神经网络，但使用黑匣子算法产生的损失。这个问题让我很困惑，我做了很多研究，但我没有发现很多，这似乎是强化学习，但同时我不确定，因为它不像一个代理人，但它有某种强化在同一时间。如果你需要更多细节来帮助我，那就直接问吧。提前感谢！

浏览 2提问于2020-05-06得票数 0

回答已采纳

2回答

如何用强化学习来教神经网络棋盘游戏的策略？

、、、

我需要用强化学习来教一个神经网络，一种棋盘游戏的策略。我选择了Q学习作为特例。我想要一个神经网络具有以下结构：层- rows * cols + 1神经元.板上连续字段的输入值(0表示空，1或2表示播放器)，动作(自然数) 层- (??)神经元-隐藏第1层神经元在给定状态下的作用值(浮点) 我的第一个想法是首先创建一个状态、行动和价值观的地图，然后尝试教授神经网络。如果教学过程不成功，我可以增加神经元的数量，重新开始。然而，我很快就遇到了性能问题.首先，我需要从简单的内存Python dict切换到数据库(内存不足)。现在，数据库似乎成了一个瓶颈(简单地说，有许多可能的状态，因此检索操作

浏览 0提问于2016-01-05得票数 8

1回答

我可以在tensorflowjs中使用强化学习吗？

、、、、

我目前正在做一个项目，它需要tensorflowjs创建一个从强化学习算法中学习的神经网络。这有可能做到吗？

浏览 33提问于2019-06-26得票数 1

回答已采纳

1回答

基于Encog的自学习神经网络

、、

神经网络(BP FF)能否自主学习如何控制螺旋桨以避免试飞和稳定？神经网络类型:多层，反向传播前馈，乙状结肠激活。为了简单起见，只采用垂直螺旋桨控制和垂直速度。 İnput:垂直速度。输出:螺旋桨动力(目标只向下，所以只向上推) 由于反向传播神经网络从输出和期望输出的差异中得到误差，它如何在不知道期望输出的情况下教自己(实际上，它需要学习期望的输出)。如果我把错误看作垂直速度(stopped=no错误)，那么它会更合适，但是如何更改Encog的ResilientPropagation或BackPropagation类的错误函数？我是否需要自己编写整个网络课程来实现这种学习？因为没有初

浏览 4提问于2013-09-19得票数 1

回答已采纳

1回答

使用机器学习来玩游戏集

、、

最近我试着制作一个可以玩游戏集的CNN：https://en.wikipedia.org/wiki/Set_(游戏)。然而，在使用我自己的卷积神经网络并尝试重新训练Inception-V3和AlexNet将三张卡片的图片分类为"set“和"notSet”之后，我很快了解到，CNN对于这项任务是没有用的。哪种机器学习算法对玩这个游戏是有用的？支持向量机有效吗？这里有指向我的最后一个问题的链接(有一些代码)和Github，其中包括数据集的示例图像。凯拉斯·瓦尔_acc在培训时保持不变(分配给所有图像的相同标签) https://github.com/Keyan-Rhm/ML

浏览 0提问于2018-02-23得票数 1

1回答

没有隐藏层的NN是否表现为回归？

、、

没有隐藏层的神经网络是否表现为回归？没有隐藏层的NN能说我们什么？例如，如果我们有20个输入和4个输出，而我没有真正的标签，这是否类似于回归？如果它是一个回归，那么它将是一个监督学习，但没有真正的标签！这个澄清里面有什么不对？更多的说明:此外，我有一个dqn (一个深入学习结构的Q-学习方法)！不幸的是，我没有最理想的答案！我正在寻找一种方法来比较我的结果，也许我可以用一个联合国/监督的学习方法来比较，而不是DNN！例如，您可以在没有隐藏层的情况下放置一个DNN，因为它的行为类似于线性回归，那么您可以将每个有监督的学习代替它！由于没有真正的标签，我有问题的培训部分和估计DNN部分与监督

浏览 0提问于2018-08-31得票数 6

1回答

游戏的人工智能反向传播

、、

这个问题没有代码示例，我正在寻找一种如何做到这一点的方法。想象一个神经网络试图学习一个游戏，它有4种可能的输出(它可以做的动作)。如果其他玩家在从神经网络(不好的)移动后获胜或获得优势，您可能会希望进行反向传播，以教它不要进行此移动。所以你需要输入数据?，0，?，？到成本函数。..。但是因为任何其他移动可能是可以的，也可能不是，所以我没有为其他移动输入的值。1，0，1，1不是我想要的。你怎么能只对1个输出做反向传播呢？DeepLearning4J能满足这种情况吗？谢谢你的帮助！ R.

浏览 0提问于2020-01-24得票数 0

1回答

Microsoft CNTK增强学习C++示例

、、、

我目前正在尝试用C++编写一个扮演炸弹人的人工智能，我想用CNTK将其实现为神经网络(强化学习)。该工具包有很多教程和示例，甚至有一个用于强化学习，但它是用python编写的，我不知道。有没有使用CNTK教授强化学习的实用C++示例或教程？我最关心的第一个问题是如何使用CNTK C++ api创建模型。

浏览 2提问于2017-06-06得票数 3

1回答

神经网络与RC船

、

在我开始做任何事情之前，我只是一个理论，我一直对NN感兴趣，并且用它们做了一些较小的控制台项目，但这一次我想在现实生活中使用它们。让我们假设我家里有一个很大的水池--我有一艘装有非常敏感和精确的GPS的小型RC船和一台装有SD卡模块的微型计算机来加载/保存神经网络数据。该船有1倍伺服(控制转弯)和1倍马达前进。我希望这艘船首先学会导航到一个单一的路径点，然后使用该网络在多个路径点之间导航。我正在考虑下面的输入到WPT的距离指向WPT 输出电动机节流阀伺服转向在训练期间，我不知道是应该使用监督方法(rc船，我可以在一开始就控制它)，还是非监督学习

浏览 0提问于2016-06-26得票数 1

2回答

无训练值的神经网络学习

、、

我想知道如何在不提供训练值的情况下训练神经网络。我的前提是，神经网络将用于可以从传感器接收正/负反馈的机器人上。也就是说，为了训练它自由漫游而不撞到东西，当没有碰撞传感器或接近传感器被触发时，就会产生积极的反馈。当碰撞/接近传感器被触发时，就会出现负反馈。如何使用这种方法训练神经网络？我正在用C++写这篇文章

浏览 2提问于2012-01-26得票数 2

回答已采纳

1回答

人工神经网络中的无监督学习

、、、

如果我要用遗传算法训练一个人工神经网络的权重，这是什么类型的学习呢？我相信它是无人监管的但它有名字吗？它似乎可能属于强化学习，但我不太确定。

浏览 4提问于2014-02-23得票数 1

回答已采纳

1回答

什么是强化学习的最佳方式，RNN或其他预测我们必须采取的最佳行动，以实现销售最大化？

、、、

我有一个由几个特性组成的数据集： customerId, actionDay1, SalesDay1, actionDay20, SalesDay20, actionDay30, SalesDay30 行动可以是：打电话电子邮件脸2面没什么销售额:以美元计的销售额我在这里的目标是预测在任何一天(1，20或30)我们必须采取的最佳行动，以销售更多。有些顾客更喜欢电子邮件，有些人喜欢每次打电话，另一些人则不愿被联系购买。每个客户的模式是不同的。我最初的想法是将强化学习应用到这个问题上，但我发现在做正确的环境时遇到了一些困难，同时也发现了奖励功能。在没有数据的情况下，强化学习是有效的

浏览 0提问于2019-07-09得票数 2

1回答

让安学会在吃水游戏中识别有利的状态？

、、

作为大学的家庭作业，我们的任务是创建一个简单的人工智能，它可以使用一个带有α-beta剪枝的极小极大算法来玩一个绘图游戏。我们使用的其他技术取决于我们。在我们的小组中，我们决定使用一个人工神经网络作为评价函数(主要是为了好玩)，这样，随着时间的推移，它将学会识别对人工智能有利或有害的董事会状态。这确实意味着，当涉及到人工智能时，我们是无赖的。这是一个相当简单的前馈神经网络，有50个输入神经元(50个正方形板)，25个单层隐藏神经元，1个输出神经元。输出在-1和1之间变化，较高的值表示对玩家有利的状态，而较低的值则表示糟糕的状态。它使用tanh作为激活函数。我们使用反向传播算法使其学习。

浏览 2提问于2016-02-29得票数 3

1回答

整洁与强化学习的关系是什么？

、、、、

据我所知，train (增强拓扑的NeuroEvolution)是一种利用进化的概念来训练神经网络的算法。另一方面，强化学习是一种机器学习，其概念是“奖励”更成功的节点。这两个领域之间有什么区别，因为它们似乎非常相似？还是从强化学习中衍生出来的整洁？

浏览 2提问于2017-02-18得票数 7

回答已采纳

2回答

在这款棋盘游戏中，什么样的机器学习可以被用来做出更好的人工智能决策？

我正在和一位朋友合作，作为一个挑战，创建一个机器人，可以在一款名为Duelyst的基于浏览器的卡片/棋盘游戏中击败最好的人类玩家。看起来是这样的： 📷 我最初的计划是从底层构建非常基础的机器学习，但他建议我们研究基于这份清单 of JavaScript的机器学习库中的选项。问题是，我们都不太了解机器学习，也不知道我们应该研究哪种类型(很明显，有很多不同的类别/类型)。在通用JS机器学习库列表中的项目有：深度学习聚类聚类分层聚类基于ID3算法的决策树数字神经网络体系结构 K-均值，模糊c-均值快速人工神经网络库 LDA主题建模 Logistic回归/c4.5决策树支持向量机简

浏览 0提问于2017-02-09得票数 4

回答已采纳

1回答

反向传播神经元网络

、、、、

嗨，我现在在玩神经网络。我做了一些本教程的重新实现：，但是有鱼和食物，还有不同的编程语言。但重点是一样的。我有一堆鱼(20条)和一束福斯(40条)。每条鱼都有大脑(神经网络(从现在起使用人工神经网络))。目前，神经网络不使用后备技术，而是接受遗传算法的训练。效果很好。我想通过反向传播来实现学习，并对这两种方法进行比较。问题只存在于反向传播中。我读过一些关于它的文章，但我还不明白如何在这个例子中使用它。我可能只是不明白。我会解释这个问题：现在我有了4个输入的神经网络。LookAt向量lookAt(x，y)，向量到最近的食物closestFood(x，y) =>该向量的值是ANN的输入

浏览 1提问于2016-07-26得票数 0

1回答

用于棋类游戏逼近函数的神经网络

我正在尝试制作一个神经网络来近似一些未知的函数(在我的神经网络课程中)。问题是这个函数有很多变量，但其中许多变量并不重要(例如，在f(x，y，z) = x+y z中，z并不重要)。我如何设计(和学习)网络来解决这类问题？更具体地说，这个函数是一个评估函数，用于一些规则未知的棋盘游戏，我需要通过代理的经验以某种方式学习这个规则。在每次移动之后，分数都会给智能体，所以实际上它需要找到如何获得最大分数。我试图将智能体的邻域传递给网络，但有太多变量对得分并不重要，智能体正在寻找非常局部的解。

浏览 0提问于2012-11-24得票数 0

1回答

有可能训练出“分裂”输出的神经网络吗？

、、、

是否可以将一个神经网络的输出看作两个或多个输出集? 我解释得更多一些(在Q学习的背景下)：假设我在同一个环境中有两个代理，每个代理有不同数量的可执行操作。这两个代理将具有相同的输入向量，其中包含环境变量来选择它们的操作。问题是：我可以使用唯一的神经网络来控制这两种代理吗? 举个例子：代理1有3个可执行动作，而代理2只有2个可执行动作。一个重要的事情是，代理人将必须合作，以获得最大的回报。我能用一个有5个输出的神经网络来选择两种代理的最佳动作吗？就像网络的前3个输出将是第一个代理的Q值一样，另外2个将是代理2的Q值。我的奖励函数将始终基于全局结果，每个代理都不会有特定的奖励。

浏览 0提问于2019-06-05得票数 0

回答已采纳

1回答

利用神经进化构建俄罗斯方块人工智能

、

我计划用人工神经网络创建一个俄罗斯方块人工智能，并在我的高中计算机科学课程中用遗传算法对其进行训练。我对人工神经网络是如何工作的，以及如何用遗传算法实现它有了基本的理解。我已经写了一个基于的工作神经网络，我目前正在研究一种遗传算法。我的问题是：哪个GA模型更适合这种情况(俄罗斯方块)，为什么？我应该用什么作为神经网络的输入？因为目前，我使用的方法是简单地将板(部分)的状态转换为一维数组，并将其输入神经网络？有没有更好的方法？神经网络的大小应该是多少(层数，每层神经元数)？有什么好的信息来源可以帮助我吗？谢谢!

浏览 1提问于2015-10-05得票数 0

1回答

训练前馈神经网络

、

我有一个前馈神经网络，他的目标是学习如何玩一个游戏(例如，连接4)。我想通过和自己玩游戏来训练我的神经网络。我的问题是，我不知道如何训练我的神经网络。如果我有另一个好的算法来决定一个给定的板的最佳移动，在我的脑海中，它会更容易，但我不想使用这种方式。所以，我不知道移动是否是好的一步，我只知道哪一位玩家赢了(神经网络同时扮演两位玩家，但我知道是第一位还是第二位)，以及在比赛中的动作。目前，我在Go中编写了一个程序，它初始化了一个神经网络，可以检查连接4的板是否成功，根据板计算出神经网络的输出，你可以使用神经网络，或者让它自己玩。对我来说，我只需要一个在游戏结束时训练我的神经网络的函数？这就

浏览 1提问于2016-07-06得票数 0

回答已采纳

3回答

每个状态都是终端的强化学习

、

我的问题不是关于强化学习的实施，而是理解当每个状态都是一个终结状态时，RL的概念。我举个例子:一个机器人正在学习踢足球，只是射击而已。奖励是球射门后球与门柱之间的距离。状态是一个包含多个特征的数组，动作是一个具有三维力的数组。如果我们考虑情节性的RL，我觉得这个方法没有意义。事实上，机器人射击并得到回报:每一集都是最后一集。将下一个状态传递给系统是没有意义的，因为算法并不关心它来优化奖励--在这种情况下，我会使用Actor-批评者方法来处理连续状态和操作空间。有人可能会说，一种不同的监督学习方法，如深度神经网络，可能会更好地工作。但我不能肯定，因为在这种情况下，该算法将无法取得良好的结果输

浏览 0提问于2019-02-25得票数 1

回答已采纳

2回答

强化学习算法

、

我想用强化学习机器学习的方法来研究和开发一些应用。我已经熟悉使用监督学习的分类问题。有人能给我推荐一些资料(链接，youtube教程，pdf笔记，.)吗？还是Rstudio中的一些简单脚本(可能使用虹膜数据集)开始学习？谢谢!

浏览 0提问于2021-11-15得票数 0

回答已采纳

1回答

简单游戏的深度强化学习参数与训练时间

、、、、

我想了解深层强化算法是如何工作的，以及在任何特定环境下训练自己需要多长时间。我想出了一个非常简单的环境例子：有一个计数器，它保存0到100之间的整数。计算到100是它的目标。有一个参数direction的值可以是+1或-1。它只是指明了移动的方向。输出神经网络以这个方向作为输入，以两个可能的动作作为输出。改变方向不要改变方向第一个动作只需翻转方向(+1 => -1或-1 =>+1)。第二步行动将保持原来的方向。我使用python作为后端，javascript用于前端。它似乎花费了太多的时间，但它仍然是相当随机的。我使用了4层感知器。训练率为0.001。

浏览 0提问于2017-10-27得票数 2

回答已采纳

2回答

神经网络中的Q-学习而不是学习

、、

我做了一个简单的Tron游戏在C++和一个MLP与一个隐藏层。我已经在这个神经网络中实现了Q-学习，然而，它并没有导致代理赢得更多的游戏时间(甚至在100万次游戏之后)。我将尝试用文字解释我做了什么，希望有人能发现一个错误，这可能导致这个问题。在每个州有四个可能的移动(北，东，南，西)和奖励在游戏结束(-1的损失，0的平局，1的胜利)。我初始化了4个MLP，每个可能的动作一个，有100个输入节点(整个游戏网格10x10)，其中每个点是1如果玩家本身在那里，0如果点是空的，-1如果对手访问过这个点。然后有50个隐藏节点和1个输出节点(我也尝试过一个有4个输出节点的网络，但这也没有帮助)。重量

浏览 2提问于2016-10-19得票数 2

3回答

当问题空间太大时，人工智能如何学会行动

、

我通过实验和榜样学得最好。我正在学习神经网络，我对分类和回归有很好的理解，也有监督和非监督的学习，但我偶然发现了一些我无法平静地弄清楚的东西；如果我想训练一个人工智能来玩一个复杂的游戏，我会想到一些类似RTS的东西(例如。帝国时代、帝国地球等)。在这些类型的游戏中，通常有许多由玩家(单位、建筑物)控制的实体，每个实体都具有不同的功能。似乎人工智能的问题是分类(例如。选择那个单元，以及那个动作)，但是，既然单元的数量是一个变量，那么如何以这种方式处理分类问题呢？我唯一能想到的是做不同阶段的多个网络(一个用于总体策略，一个用于控制这种类型的单元，一个用于那种类型的建筑等等)；但这似乎使问题变得

浏览 0提问于2015-12-11得票数 11

回答已采纳

4回答

设计神经网络

我正在学习神经网络和反向传播。我想我知道网络是如何工作的，从输入、输出、隐藏层、权重、偏差等方面。但是，我仍然不能完全理解如何设计一个适合问题的网络。例如，我想要一个神经网络来学习如何玩跳棋，我该如何将这个问题转化为神经网络设计？干杯:)

浏览 3提问于2013-06-13得票数 33

回答已采纳

1回答

神经网络的替代

、

我最近正在学习人工神经网络，它们的有用性让我很感兴趣。所以我试着做一个简单的游戏(2048年，之前做了很多次，所以这似乎是一个很好的开始。)然而，我已经发现了两个问题。第一种是我编程的方式，没有训练数据集。这似乎是可以解决的，但我还没有找到办法。第二种是神经网络，似乎只能最小化一个错误，而在这个游戏中，你正试图最大限度地获得一个分数。在任何给定的时刻，神经网络都没有最优的设置来检查。我喜欢创造一个人工智能的能力，让它学习最好的策略，而不是我直接教它，这就是为什么我决定尝试这种格式在一开始。那么我的问题是，是否有一种神经网络可以克服这些短暂的错误，或者是一种没有这些问题的编程方法，还是我只

浏览 2提问于2016-04-19得票数 1

回答已采纳

3回答

为什么RL被称为“强化”学习？

、、

我理解为什么机器学习是这样命名的，除此之外，还有监督学习和无监督学习背后的术语。那么，关于强化学习，reinforced是什么？

浏览 63提问于2018-05-28得票数 4

回答已采纳

1回答

如何用分类神经网络训练不良报酬？

、、、

我正试图通过Keras，Python的强化学习来训练一个关于玩Tic脚趾的神经网络。当前，网络获取当前板的输入： array([0,1,0,-1,0,1,0,0,0]) 1 = X -1 = O 0 = an empty field 如果网子赢了一场比赛，它的每一次动作(输出)都会得到奖励。[0,0,0,0,1,0,0,0,0]，如果网输了，我想用坏的奖励训练它。[0,0,0,0,-1,0,0,0,0] 但是目前我得到了很多0.000e-000的精确性。我能训练一个“坏的奖励”吗？或者如果不能用-1来做它，我应该怎么做呢？提前谢谢。

浏览 4提问于2020-01-04得票数 1

回答已采纳

1回答

强化学习的边界

、、、、

我终于开发了一个游戏机器人，学习如何玩游戏蛇与深度Q-学习。我尝试了不同的神经网络和超参数，我找到了一个工作装置，为一组特定的奖励。问题是:当我奖励代理人朝着正确的方向前进时--如果代理人的坐标与食物的坐标相应增加或减少，则奖励积极的奖励--代理人学得很快，获得很高的分数。当我不为此奖励代理人，而只奖励死亡和积极的食物吃，代理人不学习。国家考虑到附近是否有任何危险，如果食物是向上，向下，右或左，以及如果代理人是上，下，右或左。问题是:在强化学习中，奖励正确方向的行为者是“正确的方法”吗？或者被认为是作弊，因为系统需要自己去学习？把食物的坐标作为一种“欺骗”的另一种方式吗？

浏览 0提问于2018-09-20得票数 1

回答已采纳

1回答

用选择的移动反馈来训练分类器，而不是真正的标签。

、

我很难用一句话来描述我想要的东西，这可能就是我在Google上运气不佳的原因。假设我有一个类似于2048年的游戏，其中每个步骤的可能动作都是固定的(超过两个)。我想训练一个选择移动的神经网络，所以我在输出层有4个神经元，并且我的预测值最高。输出矢量归一化(softmax层)。然而，我所拥有的培训数据只是状态，已经采取的行动，以及是否有好的或坏的结果。如果选择的移动是不好的，我不知道其他哪个更好(如果有的话)。我该怎么训练这个？我现在的想法是：好的一步？->选择的动作得到了正的误差(所以预测会上升) 糟糕的移动？->选择的步骤会产生负误差(所以预测会下降) 但我还没有找到支持

浏览 0提问于2015-07-26得票数 3

1回答

强化学习:处理不可量化的反馈系统

、

我正在尝试写一个强化学习算法，为了简单起见，它将预测一个我认为通过n个输入的数字，它们是什么并不重要。所以当算法预测一个数字时，我只会说“非常近”“接近”“精确”“远”“太远” 现在我看过的所有教程都有一个可以量化的结果，他们通常会做均方误差来看看预测中有多少误差。但是这里的反馈是无法量化的。我该如何解决这个问题？仅供参考，我是ML的新手，它没有必要是强化学习。我也尝试过神经网络方法，但即使这样也有类似的问题。

浏览 1提问于2018-05-12得票数 1

2回答

为了编写一个简单的人工智能程序来玩游戏，我需要什么知识？

、、、、

我是B.Sc毕业生。我的课程之一是“机器学习入门”，我一直想在这门课上做一个个人项目。我最近听说了不同的人工智能训练来玩游戏，如马里奥，围棋等。为了训练一个简单的人工智能程序来玩游戏，我需要获得什么知识？对于初学者来说，你推荐什么游戏？这是我目前在机器学习中所知道的- 课程介绍和机器学习。K-最近邻算法和K-均值算法统计推断高斯混合模型(GMM)与期望最大化可能是近似正确的模型，包括泛化界和模型选择。基本的超平面算法:感知器和Winnow。支持向量机(SVM) 核粒促进弱学习者向强学习者学习: AdaBoost 边缘-感知器回归 PCA 决策树决策树修剪与随机林

浏览 0提问于2017-01-04得票数 9

回答已采纳

1回答

强化学习-从原始像素学习

、

萨顿的书把我介绍给了RL。为了进一步了解这些知识，我想探讨一下代理如何从原始像素中学习，并尝试使用H2O实现一个示例。我想使用Java。我应该用的是汽水吗？如何将原始像素流到h2o？例如，如何使用乒乓球游戏使h2o RL代理学习？使用了什么深度学习h2o API？如果答案与h2o有关，我将不胜感激，因为我参考了其他文献来了解RL。更新：但是，我仍然需要弄清楚如何使用Java从游戏中流出图像像素，以帮助h2o RL代理学习。示例主要使用R和Python。

浏览 7提问于2017-05-08得票数 0

回答已采纳

1回答

运算条件算法？

、、、、

为智能体实现实时操作条件反射(有监督的奖励/基于惩罚的学习)的最佳方法是什么？我应该使用神经网络(以及哪种类型)？还是别的什么？我希望特工能够接受训练，像狗一样听从命令。这些命令将以触摸屏上的手势形式出现。我希望智能体能够被训练为遵循一条路径(在连续的2D空间中)，根据命令进行行为更改(由FSM状态转换建模)，并执行操作序列。智能体将处于模拟的物理环境中。

浏览 6提问于2012-11-25得票数 1

回答已采纳

2回答

“强化学习”在监督学习模型中的应用

、、、

是否可以在有监督的模型上使用“强化学习”或反馈回路？我使用监督学习模型(更确切地说是线性回归模型)解决了一个机器学习问题，但我希望通过对预测输出创建一个反馈环来改进结果，即如果算法在某些例子上出错，就告诉算法。据我所知，这基本上就是强化学习的工作原理:该模型从正负反馈中学习。我发现我们可以使用PyBrain实现有监督学习和强化学习算法，但我无法找到两者之间的关联方法。

浏览 2提问于2019-07-11得票数 0

1回答

如何用Q-学习训练神经网络

、、

我只是在没有神经网络的情况下实现了Q-学习，但我仍然坚持用神经网络实现它们。我将给您一个伪代码，显示我的Q-学习是如何实现的： train(int iterations) buffer = empty buffer for i = 0 while i < iterations: move = null if random(0,1) > threshold: move = random_move() else move = n

浏览 2提问于2018-05-17得票数 0

回答已采纳

1回答

基于TD学习的经典反向传播神经网络在棋盘游戏中的应用

、、

我想问一下，在棋盘游戏中使用标准的反向传播神经网络和TD学习方法是否有意义？我的方法看起来是：玩1局。Net有时既是贪婪的策略，也是随机的动作。对于每个存储的游戏位置(从终端-1开始并移动到起始位置)，计算估计的位置值和期望的位置值。 boards_valuesi = boards_valuesi + 0.4 *( boards_valuesi+1 - boards_valuesi ) 利用标准的反向传播算法，从整个游戏结束训练中建立网络训练模式，每次训练速度较小，每次训练1次。 NN.train(模式，iterations=1，N=0.001，M=0.000001)

浏览 2提问于2012-07-04得票数 3

回答已采纳

5回答

让C#和Python为这个机器学习任务进行通信的最佳方法是什么？

、、、、

我正在为一个大学项目开发一个简单的游戏，使用统一。这个游戏利用机器学习，所以我需要TensorFlow来建立一个神经网络( NN )，根据神经网络的预测来完成游戏中的某些动作。特别是我的学习方法是强化学习。我需要监视用C#编码的环境中的状态和回报，并将它们传递给用Python编码的NN。然后，来自Python代码的预测应该被发送回环境到C#代码。可悲的是，我很困惑如何让C#和Python进行交流。我在网上读了很多书，但什么也帮不了我。有人能澄清我的想法吗？谢谢。

浏览 2提问于2018-02-27得票数 1

回答已采纳

1回答