前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【BDTC 2015】大数据基础设施分论坛:解读大数据系统、平台与基准测试标准

【BDTC 2015】大数据基础设施分论坛:解读大数据系统、平台与基准测试标准

作者头像
CSDN技术头条
发布2018-02-11 15:13:58
9750
发布2018-02-11 15:13:58
举报
文章被收录于专栏:CSDN技术头条CSDN技术头条

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。

2015中国大数据技术大会第二天的大数据基础设施分论坛中,来自阿里云、Hulu、北京忆恒创源、阿里巴巴、企事录以及中科院计算所的技术专家分享了大数据基础设施从设计、搭建到平台测试标准各个方面的技术关键点、实际问题和解决方法。

阿里云的高级技术专家李超

首先,来自阿里云的高级技术专家李超通过双11活动讲解了阿里如何构建自己的大数据平台。他首先讲解了阿里云大数据的发展史,接下来讲解了今天的阿里巴巴大数据平台到底能做什么事情,第一点最重要就是海量处理能力,这个离线计算平台支持SQL、MR、MPI、BSP算法平台。单个集群规模上线达到一万台,存储有800PB的数据,有100万以上的JOB数,响应速度做到100个毫秒级别,导出速度达到100万。除了海量数据处理能够,平台还可以提供数据整合能力,包括大数据的整合,把集团内部各个业务的数据整合在自己的平台,现在已经达到800PB的数据量,相互之间可以流转,包括结构化半结构化非结构化的数据,用统一的数据进行整合。还有数据交换能力,完全可信的数据交换平台,多层次的数据交换,还有数据管理能力,包括原数据管理,数据质量管理,数据标准管理。接下来李超讲解了大数据平台里面三个比较重要的计算框架,一个是ODPS,第二个ADS实时数据分析,第三个StreamSQL,离线实时计算。前面两个已经在阿里云官网有云服务提供,后面一个处于准备当中。此外,阿里云的伏羲系统今年打破了sort benchmark的4项世界纪录,而ODPS和ADS系统的底层,都是基于伏羲分布式调度。李超也从技术上讲解了如何用377秒将100TB的数据做出排序。

Hulu公司的资深研发主管梁宇明

Docker 技术越来越得到了很多开发者的青睐,而YARN对于多数爱好者来说还是一个比较新的平台。来自Hulu公司的资深研发主管梁宇明为大家讲解了如何把Voidbox用在YARN中。他的演讲题目是《Voidbox - Docker On YARN在Hulu的实践》。

Voidbox是什么?可以做什么呢?梁宇明说, 在一个集群中,你把不同的应用在同一个计算的集群中共同的运行起来,这时候其实需要一个很好的调度系统,在开源的社区一般情况下大家就用Voidbox。为了把更多的应用,在全部的基础框架之上,用户构建一些Voidbox。

在集群中的很多部署问题,用户可以写完打包到同一个集群去,利用Voidbox就可自动匹配,类似于虚拟机提供复杂环境得包的能力,提供一个相对比较好的资源隔离。Yarn作为资源调度系统实现了资源调度,VoidboxAPI使得用户把复杂的东西统一到Yarn上去。

梁宇明介绍说:“我们之所以选择Voidbox有两个原因,第一个对应用程序可以进行很好封装,可以屏蔽环境的依赖。把这些复杂环境封装更好的打包在里面这是第一点。第二点本身CPU有很好隔离,在新版本中做到一定对网络比较好的隔离,这一点是可以提供的,这些隔离基于在一个程序之中,通过设置不同的队列,你可以把不同的任务分到不同业务运行,你可以把不同运用程序支持不同队列当中去,不同队列支持不同的机器。”

北京忆恒创源科技有限公司研发经理/架构师,闪存系统负责人吴忠杰

在大数据时代,海量数据的存储会是一个大问题,闪存(SSD)以其速度快,容量大而得到了高速发展,是存储领域的一颗新星。但是,如何通过闪存来提高整个系统的存储和读取效率,并提高系统的可靠性?来自北京忆恒创源科技有限公司研发经理/架构师,闪存系统负责人吴忠杰讲解了《闪存存储技术应对大数据挑战》的主题报告,他从传统存储遇到的问题,到今天SSD的研发应用与最新产品,以及如何通过软件技术来提高闪存应用的可靠性。尤其是NVMe SSD产品的推出进一步提升了IO性能,缩短了CPU和IO之间的“剪刀差”差距。NVMe SSD作为一种高速存储介质在大数据环境中应用,还需要解决传统存储软件层面的很多问题,需要创新性的采用新的架构和方法,充分发挥高速存储介质的性能,与此同时还要保证数据可靠性,兼顾与现有应用的融合。FlashRaid是一款针对NVMESSD数据保护和卷管理系统。它有三个特点,第一个解决数据保护问题,第二不仅仅跟忆恒创源生产的平台绑定的,它是绑定可以在英特尔平台运行。第三个是卷管理的系统,你可以不用它的数据保护也可以仅仅用它卷管理的功能。在FlashRaid发布之前,NVME驱动跟数据库、文件系统直接对话,缺少存储管理,用一块盘可以,但是盘多了没有办法管了,有了FlashRaid之后,实际上FlashRaid就架构在NVME驱动之上,它可以等于NVME管理器和RAID数据保护两大功能。

阿里巴巴技术保障部高级专家肖德芳

对于大数据应用来说,服务器是一个非常重要的基础平台产品,显然市场上通用的服务器产品对大型互联网公司做大数据是不现实的。这其中有很多原因,来自阿里巴巴技术保障部高级专家肖德芳做了主题为《大数据服务器技术探索与实践》的报告,讲解了阿里针对天蝎服务器做的产品创新和实践。

肖德芳从系统的介绍天蝎服务器的前世今生、创新架构、技术标准,阐述了其技术演进,对模块化设计、网络设计、能耗设计、制冷设计等产品特点,最后共享了天蝎服务器在阿里巴巴的应用实践。

由于阿里的服务器数量超级多,最初在设计计算单元、存储单元与服务器能耗的时候,遇到了很多挑战,这其中包括需要将很多数据做冷热分离,另外可以通过数据压缩技术,降低数据量,这样可以让服务器的存储空间降低。在服务器的运维方面,如何提高运维效率,也是设计服务器系统必须考虑的问题。由于这些问题是BAT厂商都遇到的,所以大家找服务器厂商成立了天蝎服务器联盟。现在天蝎服务器从1.0发展到了3.0,现在主要应用的是2.0,未来的3.0希望做两个维度扩展,一个机柜内部通过一些池化方式,节点之间建立高速互联的通道,不局限现在以太网的作用,节点之间延迟个带宽能够降低,带宽做到几十G的带宽。所以,未来整机柜服务器在大数据领域应用会越来越广泛。

企事录联合创始人李明宇

接下来,来自企事录联合创始人李明宇为大家带来题目是《海量小文件与超大文件并存情况下的存储系统评估与调优》的演讲。也就是在大数据的存储中,海量数据中有小文件,也有超大文件,但是,两者的存储方式是不同的,如果用相同的存储方法,会让系统的效率降低。因为在大数据存储技术领域,人们常常认为诸如HDFS、GFS这样的系统比较适合存储超大文件或者大数据集,而OpenStack Swift和TFS这样的存储系统比较适合海量小文件存储。但是在一个企业中,常常会同时存在既有一些超大文件,又有海量小文件要存储,对于这种情况,搭建和维护两个存储系统分别进行大文件和小文件的存储显然是不经济甚至是痛苦的。李明宇通过深入的分析和演示,让大家了解到超大文件存储和海量小文件存储的性能评价指标是不同的,调优方向也是不同的,但是两者并不矛盾。他还以OpenStack Swift为例,讲解一个存储系统如何很好地在这两类负载共存的情况下达到良好的性能,而且这种调优是不需要改变源代码的。

中科院计算所研究员、博士生导师詹剑锋

最后一个上台演讲的是来自中科院计算所研究员,中国科学院大学岗位教授、博士生导师詹剑锋,他也是从评测测试的角度来讨论大数据的应用环境。虽然今天大数据已经逐渐被用户所接受,并且开始了应用。但是大数据的平台如何评价,大数据工具又如何评测,这是用户很关心的问题。尤其是基于开源的大数据系统,多数开发者更希望得到这方面的技术支持。詹剑锋讲解了《BigDataBench:开源的大数据基准测试标准》。BigDataBench是一个由中科院计算所主导的大数据基准评测标准,目前在国际学术界和产业界得到较广泛应用。詹剑锋介绍了创建这个标准最初是如何思考的,以及遇到哪些阻力。

首先是系统太复杂了。大数据中有流,有图片有仓库,系统管理太多太复杂,第二点运用太多样。包括硬件也是这样,另外数据管理里面这个领域非常多,技术管理非常多,离线分析。另外是开放问题,软件栈不断的增长,每天有很多新的软件栈。

詹剑锋介绍了现有版本BigdataBnech的概况。现在新的版本是3.2的版本,有15个真实的数据集,提供相应的工具,有些工具没有完全实现,你可以把数据放大,现在五个领域,社交、多媒体等。BigdataBnech现在有五个应用领域,搜索引擎、社交网络、电子商务等。詹剑锋最后还讲了一个案例的具体应用情况。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-12-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CSDN技术头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档