人工智能的分支：多智能体学习简介

文章来源：企鹅号 - 我是天边飘过一朵云

多智能体学习（Multi-Agent Learning，MAL）将机器学习技术引人多智能体系统领域，研究如何设计算法来创建动态环境下的自适应智能体。强化学习（reforcement learning）是多智能体学习领域广泛研究的技术。单智能体的强化学习在马尔科夫决策过程（Markov Decision Processes，MDP）的框架内能被较好地描述一些独立的强化学习算法（如Qlearning）在智能体所处环境满足马氏性且智能体能够尝试足够多行动的前提下会收敛至最优的策略。尽管马尔科夫决策过程为单智能体学习提供了可靠的数学框架，但对多智能体学习却并非如此。

在多个自适应智能体相互作用的情况下，一个智能体的收益通常依赖于其他个体的行动，学习环境不是静态的。此时每个智能体面临一个目标不断变化的问题——单个智能体需要学习的内容依赖于其他智能体学到的内容，并随之改变。因此，有必要对原有的马尔科夫决策过程框架做相应的扩展，包括马尔科夫博奔和联合行动学习机等。在扩展中，学习发生在不同智能体的状态集和行动集的积空间上。因而当智能体、状态或行动的数量太大时，这些扩展面临积空间过大的问题。此外，共享的联合行动空间也未必可用。比如在信息不完全的情况下，智能体未必能观察到其他智能体的行动。如何处理复杂的现实问题，如何高效地处理大量的状态、大量的智能体以及连续的策略空间，已经成为目前多智能体学习研究的首要问题。多智能体学习需要建立在可扩展规模的理论之上。

在可扩展的框架下，多智能体学习算法能够适应各种规模的智能体系统。到目前为止，多智能体学习领域通常处理的都是比较简单的问题，或采用初级的实验性场景，或取自博弈论并且只包含很少的（一般为两个）学习智能体。此外，多智能体学习领域需要关注更多更加复杂、更加实际的应用，如地面和空中交通管控、分布式监测、电子市场、机器人营救和机器人足球赛、智能电网等一系列实际应用场合都是多智能体学习的用武之地。

发表于: 2019-04-242019-04-24 19:49:54
原文链接：https://kuaibao.qq.com/s/20190424A0K14G00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

人工智能的分支：多智能体学习简介

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐