腾讯大数据能力和经验的开放将会让行业体会到数据的价值

导读:6月22日,腾讯“云+未来”峰会进入到各专场的环节。来自腾讯技术工程事业群(TEG)的领导及员工作为演讲嘉宾参加了政企、AI大数据、开发者3个专场,并向行业合作伙伴介绍了TEG在该领域的沉淀和探索。TEG数据平台部负责人蒋杰为AI大数据专场致辞,来自TEG数据平台部的智能学习组及海量计算组组长、T4专家黄明发表了演讲。以下为现场内容的整理报道。

TEG数据平台部负责人蒋杰提到,在过去的一年里面腾讯云开放了腾讯数智方略1.0产品,这个产品包含了腾讯10年的大数据能力和经验。开放出来给政府或企业进行部署,能够帮助大家避免初涉的问题。在这过程中,腾讯大数据的能力也在不断的提升。就在去年,腾讯大数据参加了具有全球计算奥运大会之称的Sort Benchmark全球排序竞赛,夺得GraySort和MinuteSort的冠军,刷新了4项世界纪录,腾讯大数据的运算能力达到世界级水平。今年腾讯大数据将继续抱着开放的心态,在腾讯云上把轻量的数据服务能力、实时的多维分析能力、EMR的托管服务能力开放出来。更为重要的是,腾讯的智能服务、数字营销服务这样的重量级服务也会一并开放,让整个行业真正感受到数据的价值。

演讲主题:DI-X:腾讯云上的深度学习平台

演讲嘉宾:TEG数据平台部智能学习组及海量计算组组长、T4专家黄明

大家好,今天由分享的是由腾讯TEG数据平台部和腾讯云联袂合作的打造的产品,DI-X。这是腾讯云上的深度学习平台,对腾讯云升级为AI云有着重要的意义。

今天是AI大数据的专场,大家都知道在过去两年,人工智能得到了迅猛的发展,这主要是因为三个要素:第一个是大数据,从2010年—2015年,互联网行业有了丰富的大数据积累,这给人工智能提供了一个充分的训练数据。第二个是大计算,在过去两年,基于GPU的计算能力突飞猛进,给人工智能提供了一个非常好的加速器。第三个就是深度学习,在2015年到2017年,各种深度学习的框架、算法和模型纷纷涌现,改变了人工智能的派系格局和研究的方向。基于这三个要素,在过去两年期间,人工智能得到了迅猛的发展。

参考这三大要素,我们来对标一下腾讯云的产品。 首先腾讯云有COS,这是一款比较经典的产品,目前它的存储量已经达到了1000P+,这是非常可观的数字,大数据我们已经有了。其次我们有GPU云服务器,这是我们今年刚刚推出的产品,在上面用户可以进行GPU的申请,获得一个单机实例,并进行GPU的计算,这样大计算我们也有了。那接下来就是深度学习平台了,我们推出了DI-X,通过它把COS和GPU连接到一起,打通这两个产品,形成合力。

我们来看一下DI-X这个平台的架构。首先我们可以看到DI-X是接入到COS存储的,在上面有丰富的用户数据,包括各种各样的文本、图片、语音和视频。而在DI-X的底层,我们通过GaiaStack这个资源管理器,对底层的CPU、GPU、内存和硬盘进行统一化的管理。在上面是框架层,我们结合了三大框架,包括TensorFlow、Caffe和Torch,基本可以满足大部分用户的需求。再上一层是算法层,目前我们集成了RNN、LSTM、CNN、DBN这几类,在上线之后,我们会根据用户的反馈做进一步的丰富。再上面是模型层,用户对数据计算之后会产生一系列的模型,包括图形模型、语音模型、时序模型、视频模型和NLP模型等等,这些我们会在DI-X里面进行一个统一的管理。整体基于这个平台,我们给上层的用户,包括其它中小企业提供更好的AI服务,包括图像识别、语音识别、精准推荐、实时风控等等。

有些用户可能会觉得,有了COS和GPU之后,我们其实并不需要这样一个DI-X平台,用户也可以在上面玩深度学习,有一个平台反而会束手束脚。那DI-X到底会带来什么样的变化呢?接下来,我从6个方面来介绍一下DI-X带来的变化,包括资源、框架、调度、调参、模型和预测这6个方面。

首先我们来看一下资源,如果没有DI-X的话,它的资源申请是一个用户到实例的级别,在GPU云服务器上,现在有两个类型,一个是G2,一个是G2large,用户申请之后是要按月付费的,这是一个比较粗的力度。有了DI-X之后,我们现在是基于GaiaStack,它使用docker和Kubernates的技术,能够对GPU底层的资源进行优化和管理,这样分配资源的粒度就按照工程和GPU卡数的关系来分配的,它的粒度更细,也更灵活,而且后续也可以做到按照运行时长来收费。

第二部分我们看看框架,在没有DI-X的情况下,从运行一个实例到跑出一个算法,如果是没有经验的人折腾一两天是很正常的事情。我们可以看到,在整个的过程,包括了系统准备、Docker安装,安装Cuda、安装深度学习框架、对接COS存储,也就是需要把你的代码和COS存储做一个对接,当这些打通了之后,算法规程师才可以上传算法,然后启动一个脚本,把这个任务运行起来。这个过程中只有一个是红色的,只有这一步是算法工程师是擅长的,其它几步对工程能力弱的人来说都无疑是很难的,分分钟会可能卡住走不下去,而且这都是重复性的事情,A用户做了,B用户还要继续做,他们的工作不能被复用。

有了DI-X,这个事情就非常简单了,基于一个可视化的拖拽过程,用户只需要拖一个组件出来,然后设置一下参数,包括算法参数和资源参数,点一下运行就可以了,省去了大量重复的劳动,目前我们支持Caffe、TensorFlow和Torch三个组件,算法方面我们也支持这样的方式,让用户做到即拖即用,释放一个算法工程师的生产力。

第三方面我们看一下调度,如果没有DI-X的话,用户可能写完了一个算法之后,调试好了,它需要定期运行。很传统的做法是用一个CronTab或者它的增强工具,这个工具是很灵活的,它有很复杂的配置语法和条件,配合一些奇怪的需要的脚本,其实它是能做很多事情的。但它的缺陷也是很明显的,就是它的可维护性是非常差的,需要人工大量的干预。为此我们DI-X在调度上有4种驱动方式,除了正常的手工驱动之外,我们还支持定时驱动、重调驱动和参数驱动这三种方式,每种方式都有良好的调试界面可调节,用户可以自主设置三种驱动方式的并发度,让用户得到一个最大的便利性。

第四是调参。我们刚刚留意到有一种调度方式就是叫参数,这是为了深度学习的调参功能,在DI-X之前,用户需要写脚本,进行各种各样的参数调节,通过多种循环来进行参数的组合,然后传给具体的任务,达到调参的目的,但是这种方式其实是风险比较高的,对于写脚本的人来说,对他的能力有一定的高要求。而且一旦习惯了这种方式,很多人就会对平台有一个奇怪的要求,希望我们平台DI-X可以去支持一个组件,在这个组件里面写一个循环来调Caffe、TensorFlow或者Torch,这是非常危险的方式,会让系统形成一些黑洞,这是不好的。为此di-x增加了一个自动化的调参工具,它有4个步骤,第一个是它能够进行多参数的循环组合,第二是它会预生成实例,因为参数形成组合之后,它会有很多的组合产生,这时候是预生成的,当系统的并发度满足条件的情况下,我们才会进行这个参数的真实替换,并且生成多实例并发运行。

这里我们举一个简单的例子,在机器学习中是非常简单的,类似于超参数调节的东西,它有两个参数,第一个是数字型的,第二个是字符串型的,DI-X提供这样的功能,经过这样调参之后,可以方便用户进行比较。这是DI-X目前的自动化调参,后续我们会针对深度学习的超参数调节进一步优化。

第五个模型。在DI-X之前,其实用户训练完了之后会有一个模型文件的生成,Caffe、TensorFlow和Torch都有自己的格式。用户为了把这个模型进行一个同步和上线,其实有一种最常见的方法就是用SCP,在不同的用户之间SCP来,SCP去,在这里面它没有版本的管理,同时它也依赖具体运维人员的靠谱程度,决定模型的命运,包括它如果覆盖错了,有可能一个效果好的模型,就会被效果差的模型覆盖掉,这时候效果是非常难以把控的。

为此我们推出了一个模型的概念,在DI-X中对模型进行了针对性的设计,我们把这个设计叫做小尾巴,目的就是把一个模型具像化,在一个深度学习算法里面,它的左边有一个小尾巴,里边有一个小沙瓶,在算法模型运行的过程中,这个小烧瓶不停地冒泡泡,代表它是在运行,在炼丹,这在机器学习中是一个非常常见的名词比喻。当算法结束之后,这个小烧瓶也就满了,代表机器学习过程完成了。这是一个把模型从抽象到具像的过程,当这个模型训练完之后,它有丰富的行为,我们可以把这个模型进行收藏、导出和分享。收藏模型之后,这个模型就会被收到个人模型这里,成为一个模块,它可以被拖拽出来到画布,而分享模型,你可以把它分享给你想要合作的同事,你的模型就会出现在他的共享模型里面,他也可以直接把它拖拽出来使用。

第6个就是预测。其实就是一个训练和预测分离。我们知道深度学习里面,预测是一个非常重要的概念,模型训练完之后只是走了第一步,模型的使用,也就是预测才是更加重要的一个工作。目前我们这样一个模型拖拽出来之后,它会变成一个圆圆的一个大节点,可以对数据进行Offline的预测(推理),关于模型的在线预测(online-inference)功能,我们正在加紧上线中。

那综合以上6点,我们来看一个di-x预发环境的线上任务流:第一个是六边型数据节点,它会去检查COS路径上的数据在不在,并将路径传递给下一个节点作为输入;第二个是长方形的算法节点,带着一个模型训练的小尾巴,跑完之后,它的输出继续传给下一个节点;第三个是圆形的模型节点,它是之前训练好模型,用于对上游节点的数据,进行直接批量的预测,得到最终的结果;整体上看,这是一个多元素的任务流,有点复杂,但是相当灵活。门槛不高,用户熟悉了之后,很容易上手。

整体来看,DI-X是一个融合了深度学习的框架、算法、模型训练、模型推理和协作的一站式深度学习平台,在它上面可以完成一个深度学习的闭环,直接对之前存储在COS上的数据快速的进行挖掘,而得到的模型又能够快速的部署,降低人工智能的门槛。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

神经形态计算成为大脑仿真最佳平台之一

科研人员利用一个名为SpiNNaker的神经形态计算机开展大脑仿真实验,取得的效果与利用传统超级计算机进行仿真获取的最佳效果不相上下。

412
来自专栏TEG云端专业号的专栏

谈谈服务器运营领域的机器学习

本文我们来谈谈近几年机器学习在服务器运营领域的一些实践。

3938
来自专栏AI科技评论

Facebook 所谓的“人工智能母体”FBLearner Flow 究竟是如何工作的?

Facebook昨天第一次正式介绍了FBLearner Flow,一个可以为全公司员工管理机器学习模型的机器学习软件。换句话说,这是一个可以自己制造人工智能的人...

4107
来自专栏Java技术

简单聊一下推荐系统的基本要素!

其中,前三者是和机器学习没有任何关系的,但却是推荐效果最好的三种方式。一般说来,这部分内容应该占到总的推荐内容的80%左右,另外20%则是对长尾内容的个性化推荐...

653
来自专栏PPV课数据科学社区

不要担心没数据!史上最全数据集网站汇总

本文将为您提供一个网站 资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。

643
来自专栏量子位

TensorFlow产品经理:机器学习如何改变未来十年的软硬件?

王瀚宸 编译自 South Park Commons博客 量子位 报道 | 公众号 QbitAI 最近,Google Brain员工,TensorFlow产品经...

2915
来自专栏机器学习算法全栈工程师

【干货收藏】不要担心没数据!史上最全数据集网站汇总

本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。

4885
来自专栏大数据文摘

深度 | 探索实物与VR间重量转换的方法

1024
来自专栏机器之心

体量大十倍,Facebook开源史上最大星际争霸AI研究数据集

选自arXiv 机器之心编译 参与:李泽南、黄小天 在 AlphaGo 征服围棋之后,即时战略游戏《星际争霸》已经成为各家科技巨头与大学的下一个目标。Faceb...

3516
来自专栏数据派THU

【干货】完结篇:英特尔中国研究院院长吴甘沙演讲全文

本文共17500字,建议阅读时间20分钟 本文为清华大数据产业联合会"技术•前沿"系列讲座的第一讲,主讲人为英特尔(中国)研究院院长吴甘沙。 内容摘要 1、领先...

1939

扫码关注云+社区