【业界】创建深度学习数据平台时,你需要考虑的五个因素

AiTechYun

编辑:nanan

随着AI应用程序和深度学习算法的成熟,许多组织正在制定计划,以弄清楚它们将如何从数据中提取差异化竞争优势。

事实上,在过去的5-10年里,许多公司都在收集数据,因为他们知道有一天他们可能需要这些数据,但却没有相关的计划。我们现在正处于广泛采用深度学习的尖端,以最终将所有这些数据货币化。

不管数据是如何获得的,它都是这些新兴程序的基础——因此,应该在一开始就仔细评估数据平台,以确保即使基于现有体系结构,未来的计划也会取得成功。这需要前瞻性思考——在当前的处理需求和数据源可能只是生产实例的一小部分的情况下,如何在生产中部署深度学习程序。如果现在不制定这些计划,那么当预计重大突破时,企业将面临落后于竞争对手的风险。在部署时,必须重新架构整个深度学习基础设施,这将使公司远远落后于未来计划的竞争对手。

为了确保最终的成功,在创建和开发深度学习数据平台时,企业和研究组织应该考虑五个关键领域,以确保更好的答案、更多的价值和更快的扩展能力:

1.浸透你的AI平台

在GPU上启用深度学习计算系统的前期投资可能被认为是理所当然的,但后备存储系统对于每天最大化答案至关重要。正确的存储平台将确保GPU周期不会因应用程序等待存储响应而保持空闲状态。对存储系统的影响根据应用程序行为而有很大不同:从数据仓库区域快速填充时,启用GPU的内存数据库的启动时间较短。GPU加速分析需要大量线程数——每个线程都可以低延迟访问小块数据。基于图像的深度学习分类,对象检测和分割可以从高流量带宽,随机访问以及大多数情况下的快速内存映射调用中受益。

典型的AI计算系统内置4到8个GPU以及高端网络,通常具有多个Infiniband端口,通过RDMA(远程直接内存访问)I / O协议,可实现数百Gbps(千兆位每秒)的低延迟带宽。这意味着任何正在考虑的存储系统都应该利用支持RDMA的网络,如Infiniband,这些网络不需要CPU,高速缓存或上下文切换来完成工作,从而极大地减少了延迟并实现了更快的消息传输速率并消除了应用程序等待时间。

2.构建大规模的摄取能力,以应对将来数据的未来扩展

将数据收集到一个中央存储库将成为创建深度学习模型的关键因素,而深度学习模型一旦准备好就可以运行使用。将数据收集到这个存储库中,需要快速地从各种来源获取信息。对于存储系统来说,最重要的是编写性能,并大规模地处理来自分布式数据源的大型并发流。富有成效的AI实现不仅是获取数据洞察力的手段,而且还可以收集越来越多的数据,以帮助不断改善的任何模型。选择的存储系统必须具有高度平衡的I/O,执行速度与读取速度一样快。为了满足所有的数据采集需求,开发了用于增强和改进采集的数据源,同时提供了机器学习计算平台。

3.灵活且快速地访问数据

在涉及AI存储平台时,灵活性涵盖了多种因素。最后,通过神经网络应用程序,通过摄取、转换、拆分和其他方式操作大型数据集,同样也可以导入到深度学习中。不管选择何种数据格式,对于进入AI的组织来说,灵活性也意味着良好的性能。考虑到存储平台应该支持强大的内存映射文件性能和快速的小文件访问,在各种结构化和非结构化数据之间移动时非常有用。

随着支持人工智能的数据中心从最初的原型设计和测试转向生产和规模,灵活的数据平台应该能够在多个领域中的任何一个领域进行扩展:性能,容量,摄取能力,Flash-HDD比率和数据科学家的响应能力。这种灵活性还意味着在不中断的情况下扩展名称空间,消除数据副本和增长阶段的复杂性。

4.从小事做起,但在规模上做到简单而经济

可伸缩性不仅可测量性能,还可用于可管理性和经济性。成功的AI程序应该以少量TB(兆兆字节)的数据为起点,但不需要对环境进行架构,就可以轻松地扩展到多个PB (千万亿字节,属于较高级的存储单位)。

经济性扩展的一种方法是根据工作负载优化存储介质的使用。虽然Flash应该一直是AI训练数据的媒体,但在Flash中存储数百个TB或PB数据可能变得不可行,但许多替代方案都无法达到规模。混合模型经常受到数据管理和数据移动的限制,并且松散耦合的体系结构将全闪存阵列与独立的基于HDD的数据湖相结合,为有效地管理热数据提供了复杂的环境。

AI平台架构师应该考虑为AI设计的紧密集成的横向扩展混合架构。从flash部署,然后根据需求选择缩放策略; 或者仅使用闪存进行缩放,或者与深度集成的HDD池结合使用。在这里,集成和数据移动技术是关键,确保为用户选择最透明的解决方案。

5.与了解整个环境的供应商合作,而不仅仅是存储

向AI应用提供性能至关重要,而不是存储能够以多快的速度推出数据。选择的存储平台供应商必须认识到,集成和支持服务跨越了整个环境,不仅仅是存储,而是更快地交付结果。考虑到AI计算平台的强大处理能力——每个系统都类似于迷你超级计算机,供应商必须提供高性能的解决方案,以满足最苛刻的数据规模工作流程,并随着AI需求的发展与你紧密合作。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-03-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

王昊奋:大规模知识图谱技术

9625
来自专栏游戏开发那些事

【Unity3d游戏开发】unity3D OnTriggerEnter和OnCollisionEnter的一点个人心得(转载)

  此文为转载,因为最近在做U3D,有一些概念弄得不是很清楚,看到这篇博客讲的不错,就转载过来了,方便自己随时查看。

1522
来自专栏FreeBuf

关GPS也没用:手机电池电量会暴露你的行踪,定位准确率高达90%

电池电量也会泄露手机位置信息?是的,这并不是天方夜谭。安全研究人员已经实现了一种方法,通过智能手机电池消耗精确获得的你的位置信息。 或许有的朋友会说,只要我关...

19610
来自专栏AI研习社

如何设计与实现 SuperScript 交互式会话引擎(附PPT)

SuperScript 是一款开源的交互式会话引擎,它带有弱AI、自然语言理解、简单易用和灵活可扩展的特点。SuperScript 也是目前开源领域内最优秀的聊...

5658
来自专栏企鹅号快讯

如何用Python脚本玩微信《跳一跳》游戏

大家在玩游戏的过程中,有没有觉得这款游戏似曾相识呢?该游戏通过按压屏幕事件的长短来控制小人跳跃的距离,这种方式与【Flappy Bird】的玩法非常相似,只要可...

3386
来自专栏小狼的世界

[每天五分钟,备战架构师-11]数据库系统

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。

1432
来自专栏Crossin的编程教室

爆款游戏《贪吃蛇大作战》的 Python 实现

感觉游戏审核新政实施后,国内手游市场略冷清,是不是各家的新游戏都在排队等审核。媒体们除了之前竞相追捧《Pokemon Go》热闹了一把,似乎也听不到什么声音了。...

4077
来自专栏新智元

机器人,给我来一瓶82年的农夫山泉

1392
来自专栏腾讯技术工程官方号的专栏

大型DCI网络智能运营实践

? 9月14-15日,GOPS全球运维大会上海站圆满举行,为期两天的运维盛宴,为各位运维人带来了相互交流和学习的绝佳平台,来自腾讯技术工程事业群(TEG)网络...

1472
来自专栏软件开发 -- 分享 互助 成长

浅谈保证软件工程质量的一些心得体会

Itwolf原创博客,转载请标明出处,谢谢

3279

扫码关注云+社区

领取腾讯云代金券