DeepMind新型AI训练技术与大脑的关系

AiTechYun

发布于 2020-02-20 16:46:34

4680

发布于 2020-02-20 16:46:34

文章被收录于专栏：ATYUN订阅号

DeepMind前段时间发表了一篇论文，详细阐述了一种新开发的强化学习，有希望解释人类大脑中的奖赏通路是如何运作的。据《新科学家》报道，这种机器学习训练方法被称为“分布强化学习”，其背后的机制似乎合理地解释了大脑神经元是如何释放多巴胺的。

神经科学和计算机科学有着悠久的历史。早在1951年，马文·明克斯就利用奖惩制度创造了一个能够破解迷宫的计算机程序。明克斯的灵感来自于生理学家伊万·巴甫洛夫的研究，巴甫洛夫证明了狗可以通过一系列的奖惩规则来学习。Deepmind的这篇新论文通过应用一种强化学习来深入了解多巴胺神经元可能如何发挥作用，从而为神经科学和计算机科学相互交织的历史增添了新内容。

无论何时，当一个人或动物要做某件事时，大脑中负责释放多巴胺的神经元群就会预测这一行为的回报。一旦这个行为被执行，并且这个行为的结果(奖励)变得明显，大脑就会释放多巴胺。然而，这种多巴胺的释放是根据预测误差的大小来衡量的。如果奖励比预期的更大或更好，就会触发更强烈的多巴胺激增。相反，较差的奖励会导致多巴胺释放减少。这与强化学习算法的运作方式非常相似。

2017年，DeepMind的研究人员发布了一种常用强化学习算法的增强版本，该学习方法能够提高许多强化学习任务的性能。DeepMind团队认为，新算法背后的机制可以用来更好地解释多巴胺神经元在人脑中的运作方式。为了研究多巴胺神经元的工作方式，DeepMind与哈佛大学合作，研究老鼠多巴胺神经元的活动。

研究人员让老鼠执行各种任务，并根据掷骰子的方式给它们奖励，记录它们的多巴胺神经元是如何激活的。不同的神经元似乎预测不同的潜在结果，释放不同数量的多巴胺。一些神经元预测的奖励低于实际奖励，而另一些神经元预测的奖励高于实际奖励。在绘制出预测奖励的分布之后，研究人员发现预测的分布与真实的奖励分布非常接近。

这表明当做出预测并调整预测以更好地与现实匹配时，大脑确实利用了分配系统。该研究可以为神经科学和计算机科学提供信息，支持使用分布强化学习作为一种方法来创建更先进的人工智能模型。除此之外，它还可能对我们的大脑如何运作奖赏系统理论产生影响。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-01-29，如有侵权请联系 cloudcommunity@tencent.com 删除

强化学习