编辑:木青
AI不是围城——外面的人依然想冲进去,但里面的人不想逃出来,而是思索如何呆得更久。
但企业难找“城门”,如何让AI与自身业务更好的结合,实现落地亦是一大难题,即使已经入局的AI明星初创公司也并非全能选手。
据英特尔预测,2020年,推理与训练周期比率超过5:1,“大规模推理”时代将至。这一时代的来临将有助于打破AI落地瓶颈,而这一过程仍有不少难题需要解决,例如:
这家51岁的老牌芯片大厂正在用AI技术矩阵解决这些难题。
2020年推理与训练周期比率超过5:1,“大规模推理”时代将至,可打破落地瓶颈
AI迎来第三次浪潮后,以深度学习为代表的人工智能已经进入应用阶段。
深度学习分为训练和推理两个阶段。
训练阶段需要大量的算力和数据,并且对数据吞吐量要求很高;而推理方面,通常在数据量方面要求没有那么高,但需要的是尽可能快的响应和能耗效率优化。
按照英特尔预测,到2020 年,推理周期和训练周期之间的比率将从深度学习初期的 1:1 提高至超过 5:1。也就是说,在人工智能领域,推理的比重将会越来越重要。
英特尔称这一转变为 “大规模推理”。
事实上,让人工智能落地更多是推理层面的工作——根据真实世界中的少量数据,迅速地提供正确的答案。
如果未来推理将占用近 80% 的AI 流程,硬件架构就成为AI落地的重中之重。
而做大规模推理,CPU平台具有较大优势,用户学习门槛低、部署速度快的同时还能保证低风险。
今年4月,第二代英特尔至强可扩展处理器全面上市,针对企业落地AI的需求,特意嵌入了新技术:
英特尔公司执行副总裁兼数据中心事业部总经理孙纳颐展示新一代英特尔至强处理器的晶圆
但没有一种方案能解决所有问题,AI并非“一策万能”。除硬件外,根据不同推理需求,英特尔提供不同的软件,对深度学习推理进行大量的软硬件调优。
传统行业实现AI落地的主要目的之一通常是提升工作效率,物流行业的巨头——韵达就计划用机器视觉技术来提升快件测量的效率与质量。
英特尔AnalyticsZoo平台提供的图像分类技术在其中发挥了作用——利用内置的图像识别模型,AI 应用首先能够提取出待测量的快件轮廓,进而通过平台提供的TensorFlow等深度学习框架,结合至强可扩展处理器提供的算力,完成从模型训练、模型重定义到模型推理的AI处理全流程,最终获得准确的大小件测量数据。
除了传统行业外,互联网公司目前也试图用AI增强自身业务,爱奇艺将AI与云计算结合,构建了创新的Jarvis深度学习云平台。
平台的成功很大程度上在于提升深度学习推理效率。除至强可扩展处理器提供的强劲算力外,还基于英特尔架构处理器的技术特性,对平台的深度学习推理进行了大量的软、硬件调优,包括利用 OpenVINO执行的系统级优化。
来自爱奇艺的测试数据显示,OpenVINO的引入,帮助Jarvis平台将实时弹幕显示的推理速度提升达5倍左右。
AI并非一策万能,创新“三明治”结构呈现混合技术路径优势
如今,深度学习虽然火爆,但实现人工智能的途径并非只有这一条,同时也要考虑是否试用。
在一些行业的AI落地过程中,例如金融的一些应用,要求结果是可追溯的,这种情况下单使用深度学习并不可取,需要选择其他路径。
深度学习、一般的机器学习和基于规则的学习都是目前AI领域的主流技术路径,下图为这三种AI技术路径的优势与局限性:
现阶段主流AI技术路径的优势、适用场景和局限性总结 来源:英特尔
人工智能、机器学习及深度学习的关系示意图 来源:英特尔
可以看出,每种AI技术路径都有其局限性,所以在现实场景中,这些技术路径可基于不同特性来实现互补。
例如,在AI技术进行银行卡反欺诈中,如果只使用一般的机器学习,将出现对序列化交易特征学习能力不足;而只使用深度学习,则会出现单笔交易内特征学习能力有限。
在这样的场景下,两大技术融合才是更好的解决路径:区别于传统的分类器方法或单一的RNN方法,银联电子商务与电子支付国家工程实验室和众安科技,以及英特尔公司共同提出了GBDT→GRU→RF三明治结构欺诈侦测模型架构。
融合了一般的机器学习和深度学习的三明治结构欺诈侦测模型架构
这种混合路径,对于底层硬件设施的性能有着很高的要求,尤其是对各类AI技术的兼容性。
“三明治”这一创新模型选择了基于英特尔至强处理器的CPU平台——CPU架构对目前几乎所有的AI主流技术、乃至新涌现的技术都有出色的兼容性,同时辅之各个层面的加速与优化。
GPU难发挥长处,什么才能支撑“深度森林”的计算方案?
CPU不仅能在AI主流技术上能发挥优势,一些高校的创新技术也能基于此实现加速和优化。
同时,促进AI落地需要更早、更准确地对人工智能、深度学习领域的创新项目进行支持。这些项目往往对强劲计算力有着很高的要求。
来自南京大学机器学习与数据挖掘研究所(简称LAMDA 团队)的周志华教授与他的团队,提出了“深度森林”:一种基于树的方法,来拓展深度学习的体系。
在设置可类比的情况下,新方法 gcForest 取得了和深度神经网络相当甚至更好的结果,而且更容易训练,小数据也能运行,更重要的是相比神经网络,基于树的方法不会存在那么困难的理论分析问题。
周志华和冯霁在论文里写道,“我们认为,要解决复杂的问题,学习模型也需要往深了去。然而,当前的深度模型全部都是神经网络。这篇论文展示了如何构建深度树(deep forest),为在许多任务中使用深度神经网络之外的方法打开了一扇门”。
深度森林 gcForest 模型结构
从一颗幼苗发展成一片森林,则需要硬件基础设施这一“土壤”作为支撑。深度森林需要并行地在多棵树上执行任务,而这些任务更多是需要进行决策计算。
在这方面,GPU很难发挥其长处,周志华的团队选择从两个方面进行加速:一是通过分布式计算技术做出更大模型,二则是通过硬件加速来提高它的可扩展性——拥有众核、高频能力的英特尔架构处理器更有助于应对深度森林多任务并行处理的需求。
实现加速后,英特尔从硬件基础设施方案出发,优化深度森林相关的算法与模型设计,帮助其实现产业落地。
此前测试显示,深度森林在召回率和准确率方面表现优秀。基于此可以推断,在套现欺诈行为的检测任务上,深度森林可以助力金融企业构建更优异的反欺诈风控解决方案。
芯片巨头+AI明星初创公司:分级存储助力算法研发
事实上,即使AI从实验室里走出来了,那些已入局的明星AI初创公司也不是十八般武艺样样精通。
不少AI初创公司都更专注于算法软件方面的研究,在计算、存储方面的等硬件设备上相对薄弱。
今年2月,地平线完成6亿美元的B轮融资,成为全球估值第一的AI芯片初创公司,地平线曾透露,未来主战场将是智能驾驶和AIoT。
但在利用深度学习研发AI芯片和算法的过程中,地平线面临着海量的数据处理需求。尤其是自动驾驶领域,每天的路面数据量高达4TB。另外,这些数据通常是以几十KB大小的小文件形式存在。
当地平线需要利用这些数据进行深度学习所需的数据处理与训练时,对存储系统的IOPS性能有着非常严苛的要求。
然而传统HDD机械硬盘的IOPS性能并不理想,而全固态盘模式虽然IOPS能力强,但成本很高,这对存储容量的扩展造成了限制。
分级存储是缓解性能与容量这对矛盾的有效手段。
英特尔傲腾固态盘+HDD构建的分级存储模式
在金山云EPC存储集群采用的分级存储方案中,非活动数据存放在HDD硬盘组成的存储池,而活动数据则被置放在由英特尔傲腾固态盘DC PDC P4800X构成的缓存区中。
一项测试数据表明,这款固态盘的 IOPS最高可达 500,000,同时读取响应时间低于30微秒,并可承受最高2GB/秒的随机写入压力,适用于大数据、高并发的应用场景。
数据才是AI最核心要素,大数据分析处理如何无缝过渡到AI应用?
除了毫无AI基础的传统企业,以及AI技术强大的公司和高校,还有一部分企业处于“尴尬”的中间地段。
那些已经拥有大数据分析处理基础的公司如何无缝对接到AI应用呢?
英特尔认为,在AI三大支柱中——数据、算力和AI算法中,数据才是AI最核心的要素,对于那些想要平滑过渡到AI应用的企业来讲,如何“释放数据红利”是更实际的选择。
毕竟,2018年底有调研显示:全球超过一半的数据创建于过去两年,但其中只有不到2%的数据经过了分析。
而在让人工智能走出实验室需要一条数据分析流水线,但在这条线上,20%的任务是深度学习,但80%都是在做数据收集、数据存储、数据管理、数据清理、数据预处理。
因此,当一家企业已有大数据分析基础时,想要启动AI应用构建时无需从零开始,而是要充分利用既有的数据基础,部署AI应用。
英特尔提供的分布式深度学习库BigDL,以及大数据分析+AI的平台AnalyticsZoo可以帮助已有数据基础的企业更高效地实现AI应用。
其中,AnalyticsZoo提供了统一的数据分析+ AI平台,可将Spark,TensorFlow和BigDL程序无缝集成到一个统一的数据分析流水线中;然后,整个流水线可以透明地扩展到Hadoop/ Spark集群,以进行分布式训练或推理。
美的 / KUKA的工业检测平台就是一个建立在Analytics Zoo之上的端到端数据分析流水线,这条流水线可将Spark,BigDL和TensorFlow程序无缝集成,从而构建并部署基于大数据的深度学习的,包括分布式训练和推理,以及低延迟在线服务在内的应用程序。
改弦更张绝非最佳选择,借助合适的平台、从大数据分析处理平滑过渡到AI应用,对企业来讲是更合算的选择。
无论是面对企业还是高校,英特尔正致力成为一个为所有AI落地问题提供支撑与加速的公司——让AI真正问世。