据美国著名杂志《连线》(WIRED)网站2015年11月报道,Google开源机器学习系统TensorFlow表明人工智能的未来依赖于数据,而不是软件。
Google在11月宣布开放其人工智能搜索引擎的源代码,CrowdFlower的创始人兼首席执行官Lukas Biewald认为这不是免费软件运动的胜利,而是数据的胜利。他认为当谈到人工智能时,真正的价值不在于软件或算法,而在于使它变得更加聪明所需要的数据。
(1)让机器更加聪明
TensorFlow是一种基于深度学习的人工智能系统。通过将数据输入到巨大神经网络连接的机器中,可以让系统执行任务,如辨别图片、识别口语词汇和理解自然语言。如果将猫的图片输入到神经网络中,可以教会系统识别猫;如果将对话数据输入到机器中,可以教会系统进行对话。
驱动这些神经网络的算法并不是新鲜的,它们可以追溯到二十世纪八十年代。新颖的是,由于互联网的存在,运行这些算法所需要的处理能力和海量数据已变得可获取。为了教会系统辨别一只猫,需要大量的机器和大量的猫的图片。
云计算兴起以后,可以向像Amazon和Microsoft这样的公司租用巨大的处理能力,人们都可以访问巨大的机器阵列。但像Google和Facebook这样的大公司却拥有最富有的数据。通过数十亿用户使用他们的服务,他们可以获得富有的信息宝库,如文字、图片、视频和语音。两家公司都在努力地建构强大的人工智能软件,但是他们真正的竞争优势来自于掌握大量高质量的数据,可以使用这些数据教会软件像人类一样“思考”。
(2)人才需要数据
虽然Google已经开源其人工智能引擎非常重要的一部分,但是至少到现在它还保留了另外一部分。在竞争环境中,人才是至关重要的。虽然驱动这种技术的算法是陈旧的,但是它们在以快速的步伐演变,并进入到越来越多的领域;同时这种演变是被一些非常聪明的人所驱使。这是Google公司开源TensorFlow的一个原因。如果公司以外的人可以使用它的软件,Google可以更加容易地把人才纳入到公司。
还有另一个原因,Google可以吸引顶尖的深度学习研究人员:它的数据。这对Facebook和其他互联网巨头也是同样如此的。近些年,机器学习领域的许多顶级研究人员已经加入这些公司,包括加拿大多伦多大学教授Geoff Hinton(现就职Google公司),美国纽约大学教授Yann Lecun(现就职Facebook公司)和斯坦福大学教授Andrew Ng(现就职百度公司)。
Biedwald认为如果从事学术研究,人们不能获得这样丰富的数据。对于学术界和创业公司来说,做真正有意义的机器学习工作是很难的。因为他们不能接触到Goolge或Apple相同种类的数据集。Apple公司通过服务产生了大量的数据,但科研人员认为Apple可能处于劣势,因为站在隐私的立场上,它严格限制工程师使用数据。但像Google和其他公司一样,Apple不仅已经并购了深度学习初创公司,还吸引了人工智能方面的人才。但毋庸置疑的是,人工智能的未来不能没有数据。