DeepMind高管回答:Alpha zero 的强化学习是否真的不要训练数据?

在MIT的达沃斯讨论会上,DeepMind 的联合创始人Mustafa Suleyman 被问到Alpha zero 的强化学习是否真的证明可以不要训练数据?除了游戏还有什么应用?

DeepMind 的联合创始人Mustafa Suleyman 非常坦诚地说:alpha zero 只是在三个前提条件成立的情况能够工作:

可预测环境(围棋规则);

清晰奖励系统(输赢);

无变数(variability) ;

Mustafa Suleyman还表示,他们正在探索在游戏之外的应用,但是初步预测这不会是很容易的,因为真实世界比游戏复杂很多,他预测会需要3-5年时间。

他也提到:alpha zero 本身并不能带来AI对于数据的需求,但是他觉得在数据生成和模拟上的进步(比如说用真实语音合成、人脸合成、甚至类似Grand theft auto来做自动驾驶的模拟)是有可能在未来自动产生可补充的数据。

免责申明:本站所有内容均来自网络,我们对文中观点保持中立,对所包含内容的准确性,可靠性或者完整性不提供任何明示或暗示的保证,请仅作参考。若有侵权,请联系删除。

文章来源:全球人工智能

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180125B0ZG6400?refer=cp_1026

扫码关注云+社区