首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepMind高管回答:Alpha zero 的强化学习是否真的不要训练数据?

在MIT的达沃斯讨论会上,DeepMind 的联合创始人Mustafa Suleyman 被问到Alpha zero 的强化学习是否真的证明可以不要训练数据?除了游戏还有什么应用?

DeepMind 的联合创始人Mustafa Suleyman 非常坦诚地说:alpha zero 只是在三个前提条件成立的情况能够工作:

可预测环境(围棋规则);

清晰奖励系统(输赢);

无变数(variability) ;

Mustafa Suleyman还表示,他们正在探索在游戏之外的应用,但是初步预测这不会是很容易的,因为真实世界比游戏复杂很多,他预测会需要3-5年时间。

他也提到:alpha zero 本身并不能带来AI对于数据的需求,但是他觉得在数据生成和模拟上的进步(比如说用真实语音合成、人脸合成、甚至类似Grand theft auto来做自动驾驶的模拟)是有可能在未来自动产生可补充的数据。

免责申明:本站所有内容均来自网络,我们对文中观点保持中立,对所包含内容的准确性,可靠性或者完整性不提供任何明示或暗示的保证,请仅作参考。若有侵权,请联系删除。

文章来源:全球人工智能

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180125B0ZG6400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券