首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >当问题空间太大时,人工智能如何学会行动

当问题空间太大时,人工智能如何学会行动
EN

Data Science用户
提问于 2015-12-11 23:43:50
回答 3查看 1.3K关注 0票数 11

我通过实验和榜样学得最好。我正在学习神经网络,我对分类和回归有很好的理解,也有监督和非监督的学习,但我偶然发现了一些我无法平静地弄清楚的东西;

如果我想训练一个人工智能来玩一个复杂的游戏,我会想到一些类似RTS的东西(例如。帝国时代、帝国地球等)。在这些类型的游戏中,通常有许多由玩家(单位、建筑物)控制的实体,每个实体都具有不同的功能。似乎人工智能的问题是分类(例如。选择那个单元,以及那个动作),但是,既然单元的数量是一个变量,那么如何以这种方式处理分类问题呢?

我唯一能想到的是做不同阶段的多个网络(一个用于总体策略,一个用于控制这种类型的单元,一个用于那种类型的建筑等等);但这似乎使问题变得复杂起来。

有没有机器学习/神经网络学习复杂游戏的好例子(不是特别的RTS,而是更复杂的马里奥)?

EN

回答 3

Data Science用户

回答已采纳

发布于 2015-12-25 11:54:24

这是一个很好的问题,世界各地的许多科学家都在问同样的问题。首先,像帝国时代这样的游戏被认为没有很大的解决空间,没有太多的事情可以做。在马里奥兄弟( Mario )这样的游戏中也是如此。在像Atari游戏这样的简单游戏中学习的问题是由谷歌收购的DeepMind (这里是)解决的。他们使用了强化学习和深度学习的实现。

回到你的问题上。一个真正大的问题是如何模仿一个人每天所做的决定的数量。醒来,吃早餐,洗个澡,离开你的家.所有这些行动都需要一个非常高水平的智力和许多行动来发展。

有很多人在研究这个问题,我就是其中之一。我不知道解决办法,但我可以告诉你我在寻找哪种方式。我遵循马文·明斯基的理论,他是人工智能之父之一。这本书,“情感机器”,讲述了这个问题的一个很好的观点。他建议,创造模仿人类行为的机器的方法不是通过构建一个统一的、紧凑的人工智能理论。相反,他认为我们的大脑包含着在同一时刻为满足不同目标而相互竞争的资源。他们称之为这种思维方式。

票数 4
EN

Data Science用户

发布于 2018-11-15 16:38:15

问得好。这是一个复杂的问题,您使用的方法将取决于问题有多复杂。我们试图解决的任何问题都会有一定程度的复杂性,通俗地定义为“相互作用的事物的数量,或需要考虑的事物的数量。”在有监督和无监督的学习中,我们精确地规定了要考虑的事物的数量。

例如,在多元线性回归中,我们告诉学习算法在拟合模型时要考虑多少个特征(训练集中的列数)。同样的情况也适用于无监督的学习;使用了一个定义良好的具有明确数量的特性的培训集(在这种情况下没有标签)。

你所面临的是一种不适合分类或回归的情况,因为你不能精确地确定“要考虑的事情”的数量。正如您所说,您的问题空间非常大。另一种思考这一问题的方法是学习模型所需的培训集;对于您来说,想象该培训集的外观有多难呢?在你的情况下很难。我的集合中的列到底包含哪些内容?

这就是为什么像自动驾驶汽车、Atari和AlphaGo这样的应用程序不使用分类或回归。不可能知道训练集会是什么样子。您可以尝试,但是您的模型将无法可靠地做出强有力的预测(在本例中是移动的)。你需要考虑多少事情才能建立一个道路状况模型?

这就是为什么第三种机器学习,强化学习,存在的原因。它不是使用预先指定的培训集,而是使用尝试和错误。通过不断地挖掘它的环境,它可以学习一个长期有效的政策。

因此,对于较小的问题空间,我们有机会定义训练集,我们使用有监督和无监督的机器学习。对于较大的问题空间,很难定义训练集,我们使用强化学习。当然,您也可以对上述所有方法进行有趣的组合,但它仍然可以归结为复杂性。

票数 1
EN

Data Science用户

发布于 2021-03-10 02:21:25

这个问题问得太久了,我认为现在应该得到更好的答复。一般来说,对于强化学习,这个问题被称为“稀疏奖励问题”。媒体文章介绍了这个问题和一些解决方案,但是您可以通过进行搜索找到更多的解决方案。

我将不再讨论解决这个问题的算法的细节,而是向您介绍解决这个问题的几个成功的关键应用程序,以及简短的一般描述:

AlphaStar,Deepmind

StarCraft II和帝国时代几乎完全一样,AlphaStar在这场比赛中击败了世界上最好的一些球员。

在这里,他们为玩游戏的认可机构创建了一个比赛系统,并产生了不同的游戏风格和策略,供认可机构遵循。然后,他们使用一种遗传算法对顶级认可机构进行修改,使他们能够慢慢改进,从而确保最好的人工智能能够对抗所有不同类型的人工智能。

OpenAI五,OpenAI

(这里有一个冷夹,显示OpenAI 5比DOTA的顶级玩家更聪明。)

OpenAI 5扮演的是DOTA的游戏,这几乎和英雄联盟的游戏完全一样。在这里,他们预先编程了一些更多的决策树选项,这些选项将极大地改变游戏,比如英雄们购买的物品,但随后让AI选择其余的选项。(不过,请注意,预先制作的构建选项意味着您可以使用不明白/没有预料到一些英雄+物品的组合来对抗它。)

为了让这五个不同的英雄一起玩,他们让同一个人工智能的拷贝控制每一个英雄,并奖励每个认可机构的团队做得有多好,以及每个英雄的表现。这使得训练可以从个人水平开始,然后最终扩展到小组赛。

OpenAI 5模型也很不错,因为它相当通用。他们使用相同的训练过程来创建达克,它可以在手中操作一个立方体。

总体

除了这两个,我没有看到太多的其他认可机构玩复杂的游戏,有许多不同的选择采取行动。我的猜测是,它需要大量的计算能力,而OpenAI和Deepmind是唯一具有这种计算能力的。这篇文章认为这可能是由于计算机科学家经常使用的树表示法。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/9346

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档