译文|Airbnb助力Hadoop SQL查询引擎!

Airbnb是Hadoop在国内的一个公开资源数据开发和SQL查询工具。它的出现,能给Facebook Presto云技术的发展注入一剂强心剂吗?

7个你不知道的关于Linux的事实

数据驱动型旅游公司Airbnb于周四对外宣布,将把其内部开发的工具Airpal作为公开资源,这一举措将给Facebook开发的Presto在Hadoop SQL查询功能锦上添花。

PrestoFacebook于2013年末作为公开资源赠给Apache的一项内存Hadoop SQL查询技术。Airpal则是基于这项技术的数据发掘与SQL查询交互界面。Airbnb当初发明Airpal是因为Airbnb需要一个便捷的数据分析工具,这个工具也应该满足企业用户的需求,而不仅仅是公司那23个人的数据小团队。

Airbnb产品经理James Mayfield在接受InformationWeek电话采访时表示:“Airpal减少了查询障碍。我们有想利用数据集的营销和调研团队,但是他们必须要通过数据科学小组才能得到想要的答案。我们花了10个月的时间生产出了这个东西,现在有500多个用户呢。”

Airpal跟Presto查询引擎一样,也使用SQL,但是企业用户并不都能理解这种查询语言。Mayfield表示,Airpal为用户提供了数据用户界面和浏览历史,这样的话,就算是没有接受过专业训练的人也能很快学会查询语言。

他还说道:“人们可以先看看数据,然后可以利用一下别人之前已经输入的查询语言。很多从来没有写过SQL语言的人都已经开始运用数据集了。”

一直到18个月前,Airbnb一直都利用亚马逊的云端,主要是用它的Redshift数据库服务来做高速数据分析。Hive是Hadoop的组成部分,而且一直都是Airbnb历史交易信息的唯一真实数据来源,但是Airbnb放弃了Redshift,开始采用Presto,这样就避免了许多浪费时间的筛选、转换和下载工作。

Airbnb软件工程师Andy Kramolisch告诉InformationWeek:“把数据放进Redshift是个极其痛苦的过程,再加上提取转化加载,我们的工作量会翻一倍的。由于我们还要在世界上不同国家工作,不同的语言文字有时会让数据库崩溃的。”

Hadoop能够识别多种数据,而不仅仅限于SQL语言。Airbnb在亚马逊的云端基础设施上运行Hadoop的Cloudera分布,但是这家公司最近决定不用Cloudera Impala了。

Kramolisch表示:“我们考察了一下Impala,发现要把它搭建起来实在是太困难了。Impala是基于C语言的,而且偶们的研发人员对Java更熟悉一些。”

另一个原因是,Airbnb所有数据都是以RC文件的形式储存的,而Impala则用的是Parquet文件形式。

Mayfield表示:“我们在做的一件非常重要的事情的是让一切变得简洁。我们的数据转换工作越多,需要维护的独立系统越多,我们就需要更多的研发人员和维护成本。所以我们要让这些东西尽量简洁。”

Airbnb认为,Airpal缺乏以下性能,使非数据专家也能够使用:

· 搜索和查找表格

· 分列元数据、分区、模式和样本行

· 在一个易读的编辑器编写查询

· 通过Web界面提交查询

· 跟踪查询进展

· 通过浏览器返回结果

· 基于查询的结果创建新表

· 保存所有查询记录和搜索用过的工具。

· 转眼间,Airpal还与蜂巢、HDFS、卡夫卡、卡桑德拉、MySQL、Postgresql,和JDBC数据源等联合。Airbnb公司表示, 绑定到LDAP工具还包括访问控制功能,所以你可以限制用户看到查询记录和相关表格。

现在,Airpal建立了一个更广泛的社区,该社区具有很多新的特性,并不断壮大。包括Facebook、Qubole,宝贝数据,Netflix,DropBox等在内的诸多企业瞬间也加入了大数据行列。

“我们已经取得了一些令人惊异的进步,数据科学家可以得到更多更快的结果,” Facebook开放源码项目负责人詹姆斯·皮尔斯在Airbnb公司的一份声明中说道, “Airpal将成为一个前端查询引擎。”

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2015-05-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员的知识天地

三年前端程序员应对阿里电话面试,过程心惊胆战!

看到这条消息,说真的,心里真的很高兴,老鸡冻的,但潜意识告诉我,我现在能力肯定过不了,于是自己就怂了,回了我不行之类的话,然而,HR叫我试试,于是我想到心理上一...

19010
来自专栏安智客

安全身份认证协议与FIDO

DC010(DEFCON GROUP 010)作为全球安全圈最神秘最前沿的顶级黑客大会DEFCON授权认证的官方GROUP,致力于传播DEFCON GEEK...

20750
来自专栏点滴积累

我的奋斗——从印刷工人到地理信息大数据系统程序员

       首先声明本文不存在任何工作歧视,每个人只要找到适合自己并且自己喜欢的岗位都是在为社会主义为人类的发展做出自己的贡献。        2011年从湖...

454100
来自专栏我是攻城师

Hadoop生态系统在壮大:十大炫酷大数据项目

43170
来自专栏祝威廉

天天在做大数据,你的时间都花在哪了

那么延生出来,我们有没有想过大数据本身? 大数据到底是在做什么,为什么我做了这么多年的大数据,总是做不完呢?

14430
来自专栏知晓程序

想找份好工作?这 4 款小程序,让你 offer 拿到手软

小程序体验师:陈丹阳 对于在校大学生来说,提前为自己找份实习/工作,积攒职场经验,能有效缓解临毕业没工作的焦虑。

11330
来自专栏CSDN技术头条

盘点开源机器人技术界的人气明星

本文介绍了一些最受用户欢迎的开源机器人技术,包括ROS,Gazebo,Poppy Humanoid,iCub及Jasmine等。 ? ROS ROS(Robot...

25080
来自专栏非著名程序员

程序员平时该如何学习来提升自己的技术

自从运营了公众号以来,应该说分享了不少的技术干货和人生感悟,也应该帮助了不少程序员和开发者。最近发现了一个问题,就是经常有开发者私聊我说:我遇到了一个什么什么问...

223100
来自专栏CSDN技术头条

Google I/O大会,炫酷产品汇总

北京时间5月19日凌晨,一年一度的谷歌 I/O大会正式拉开帷幕,带领观众及开发者共同瞻望即将到来的工具及技术。 Daydream VR ? 基于Daydrea...

239100
来自专栏量子位

不,你根本不需要ML/AI,有SQL就够了

17920

扫码关注云+社区

领取腾讯云代金券