正确看待神经网络成功,需要深挖其背后的理论背景和工程背景,为什么神经网络和深度学习在几十年前失败,如今成功了?
大的原因有两个,一点是大数据,一点是高性能计算。大数据就不赘述了,由于 GPGPU 等高性能运算的兴起,又使得我们可以在可控制的时间内,以天为单位甚至更短以小时为单位的时间内进行高速计算,从而使得训练复杂网络可以实现。
GPGPU,简称通用计算技术,是一种让显卡来参与原本由CPU担任计算任务的技术。
很多技术也有历史年头了,比如很多AI模型用到的ReLU层,早在2001年神经科学的文献中就有提及过。
2009年李飞飞ImageNet 数据库奠定了大量标注数据的基础。
2010年开始,IDSIA 的 Dan Ciresan 首次用 GPGPU 进行物体识别。2011年,北京ICDAR 大会上神经网络在中文离线识别上大放异彩。
一定程度上说,神经网络的成功也是一个水到渠成的过程。2012年就是“渠成年”AlexNet 模型在图像识别领域的成功是理所当然的里程碑。
AlexNet 模型提升了整个业界对机器学习的认可。以前,很多机器学习算法都处在“也就差不多能做 Demo ”的程度,但是 AlexNet 模型的效果跨过了很多应用的门槛,造成了工业界兴趣泼天,甚至从人工写代码进化到自动写代码,最开始的 自动机器学习(AutoML )系统停留在用大量算力暴力搜索模型结构的水平,但是更高效的 AutoML 技术也在不断产生。
传统的 AI 框架都是手写高性能代码,但是AI模型如此多变,新的硬件平台层出不穷,究竟应该如何进一步提升软件效率。这是算法和算法的底座AI框架,再看计算。
高性能计算是计算的火车头,高性能计算并不仅限于 GPU ,在 CPU 上的大量向量化计算,分布式计算这些都和60年代就开始兴起的 HPC 领域的研究成果密不可分。
之前,一台计算机,几个 GPU ,训练实验室里的模型跑跑还可以。
之前,在互联网大厂,尤其是大数据、互联网业务中,机器学习所使用的技术架构,不是HPC的架构。但是,当深度学习起来之后,他们使用的架构就趋同了。互联网大厂针对大数据与人工智能的深度学习集群架构,从高性能计算的架构里面借鉴了很多东西。比如,双剑合璧的CPU+GPU异构计算,是先出现在HPC领域的,因为深度学习本身的计算特点,高度并行,计算密集,用异构非常适合。
深度学习解决了感知的问题,也不算万能的,同时也要看到还有很多传统的非深度学习算法,比如说 Q-learning 和增强学习算法,一起支撑起了整个系统。
并且,深度学习的复杂网络偏爱大数据,在数据量非常小的时候,往往无法取得很好的效果。
互联网大厂盘踞网络流量入口和大数据的洗礼,抢占AI高地。
之前,在互联网大厂,尤其是大数据、互联网业务中,机器学习所使用的技术架构,不是HPC的架构。
深度学习起来之后,用的架构就趋同了。互联网大厂针对大数据与人工智能的深度学习集群架构,从高性能计算的架构里面借鉴了很多东西。例如CPU+GPU异构计算是先出现在HPC领域的,因为深度学习本身的计算特点,高度并行,计算密集,用异构非常适合。(完)
《亲爱的数据》出品
领取专属 10元无门槛券
私享最新 技术干货