大脑也在用分布式强化学习?DeepMind新研究登上《Nature》
分布式强化学习是智能体在围棋、星际争霸等游戏中用到的技术,但 DeepMind 的一项研究表明,这种学习方式也为大脑中的奖励机制提供了一种新的解释,即大脑也应用了这种算法。这一发现验证了分布式强化学习的潜力,同时也使得 DeepMind 的研究人员越发坚信,「现在的 AI 研究正走在正确的道路上」。
多巴胺是人们所熟悉的大脑快乐信号。如果事情的进展好于预期,大脑释放的多巴胺也会增多。
在人脑中存在奖励路径,这些路径控制我们对愉悦事件的反应,并通过释放多巴胺的神经元进行介导。例如,在著名的巴布洛夫...