首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

译文|Airbnb助力Hadoop SQL查询引擎!

Airbnb是Hadoop在国内的一个公开资源数据开发和SQL查询工具。它的出现,能给Facebook Presto云技术的发展注入一剂强心剂吗?...7个你不知道的关于Linux的事实 数据驱动型旅游公司Airbnb于周四对外宣布,将把其内部开发的工具Airpal作为公开资源,这一举措将给Facebook开发的Presto在Hadoop SQL查询功能锦上添花...Presto是Facebook于2013年末作为公开资源赠给Apache的一项内存Hadoop SQL查询技术。Airpal则是基于这项技术的数据发掘与SQL查询交互界面。...Hive是Hadoop的组成部分,而且一直都是Airbnb历史交易信息的唯一真实数据来源,但是Airbnb放弃了Redshift,开始采用Presto,这样就避免了许多浪费时间的筛选、转换和下载工作。...Hadoop能够识别多种数据,而不仅仅限于SQL语言。Airbnb在亚马逊的云端基础设施上运行Hadoop的Cloudera分布,但是这家公司最近决定不用Cloudera Impala了。

73290
您找到你想要的搜索结果了吗?
是的
没有找到

Hadoop上时实类SQL查询系统对比

以前只用过Hive与impala两个类SQL查询系统,最近又将Hortonworks开源的Stinger与Apache的Drill做了些调研。累死累活搞了一天的资料,头都大了。...由于调查时间比较短(一天的时间都头晕眼花了,再长点估计我就要过劳死了),所写之处难免会有差错,欢迎大家指正 总体来说虽然impala、stinger、drill三个系统都是类SQL实时查询系统,但是它们的侧重点完全不同...目前来说只有impala比较成熟(人家标称要使用CDH版本Hadoop,如果要使用apache的,要做好测试的心里准备)。 其它两个系统还都处理孵化状态,但是前景非常不错。...impala主要是为hdfs与hbase数据提供实时SQL查询。它是根据google的dremel论文实现的一套分布式系统,自用户提交的SQL开始都是基于自身的分析器与执行器。...它的数据接口都是插件化,理论上支持各种查询语言,SQL自然也不例外,不过目前这个系统还是Apache的一个孵化项目,很多功能尚未完成与稳定。但是可以预见,这个系统如果完成是很有影响力的。

55320

将R与Cloudera Impala集成,以实现Hadoop上的实时查询

介绍 Cloudera Impala支持Hadoop数据集上的低延迟交互式查询,这些数据集可以存储在Hadoop分布式文件系统(HDFS)或Hadoop的分布式NoSQL数据库HBase中。...Impala的想法是使用Hadoop作为存储引擎,但远离MapReduce算法。相反,Impala使用分布式查询,这是一种从大规模并行处理数据库继承而来的概念。...该解决方案将提供在Hadoop数据集上运行的快速交互式查询,然后可以在R内进一步处理或使数据可视化。...其他选择是使用Hue(Cloduera的Hadoop用户体验产品),这是一个基于Web浏览器的UI,提供查询编辑器以及能够针对Pig,Hive或Impala运行查询的其他功能。...环境中提供实时的交互式查询

4.3K70

hadoop(1):hadoop概述

---- hadoop概述 hadoop是 Doug Cutting 在 Lucene 之后的一个项目 主要用于 计算 是一个 开源,可靠,可扩展 的分布式计算框架 主要有 hdfs 也就是...,只是时间会长很多 yarn 分布式资源调度 当然,hadoop1 和 hadoop2 的一些名词有变化 但是,对应的实现,是没有太大区别的 好处是,可以多台机器同时处理,通过心跳去及时获取计算结果...---- hadoop的场景 一般可以用于 日志分析 海量数据的计算 复杂算法 搜索引擎 dsp获取的个人数据以及为行为分析提供数据 对应的hadoop生态圈 ?...核心 Hadoop Common 很多项目都有common模块 常用的基础,都放在里面 Hadoop HDFS hadoop的 dfs(Distributed File System)分布式文件系统...Hadoop MapReduce 分布式离线并行计算框架 也就是核心想法(先Map,再reduce) Hadoop YARN 新的MapReduce框架, 任务调度,资源管理 ---- hdfs相关

95130

hadoop的简介_hadoop体系

一、概述 Hadoop起源:hadoop的创始者是Doug Cutting,起源于Nutch项目,该项目是作者尝试构建的一个开源的Web搜索引擎。...三、对hadoop的理解简述 hadoop是用于处理(运算分析)海量数据的技术平台,并且是采用分布式集群的方式。 hadoop有两大功能: 1)提供海量数据的存储服务。...四、hadoop三大核心组件 1)HDFS:hadoop分布式文件系统海量数据存储(集群服务)。 2)MapReduce:分布式运算框架(编程框架),海量数据运算分析。...3)Ambari Ambari提供一套基于网页的界面来管理和监控Hadoop集群。让Hadoop集群的部署和运维变得更加简单。...从而可以让开发人员快速地加载业务系统数据库中的数据到Hadoop中综合其他日志数据进行分析,并能方便地将分析结果导出到关系型数据库中以便查询分析和数据可视化。

92340

Hadoop学习笔记】——Hadoop基础

Hadoop初识 ----   随着数据量的急剧增加,遇到的两个最直接的问题就是数据存储和计算(分析/利用)。   ...Hadoop应用场景 ----   简单认识了什么是Hadoop,再来了解一下Hadoop一般都适用于哪些场景。   Hadoop主要应用于大数据量的离线场景,特点是大数据量、离线。...1、数据量大:一般真正线上用Hadoop的,集群规模都在上百台到几千台的机器。这种情况下,T级别的数据也是很小的。...大量的小文件使用Hadoop来处理效率会很低。   ...Hadoop常用的场景有: ●大数据量存储:分布式存储(各种云盘,百度,360~还有云平台均有hadoop应用) ●日志处理 ●海量计算,并行计算 ●数据挖掘(比如广告推荐等)

88030

Hadoop实战_hadoop 项目实战

hadoop 实战练习(二) 引言: 哈哈,时隔几日,坏蛋哥又回来了,继上一篇hadoop实战练习(一),坏蛋哥准备继续写一个实战练习实例。苏格拉底曾说:所有科学都源于需求。...码字不易,如果大家想持续获得大数据相关内容,请关注和点赞坏蛋哥(haha…) 文章目录: 文章目录 hadoop 实战练习(二) 一 项目需求分析 二 项目实现思路 三 具体实现代码讲解 3.1...如果你对hadoop还不是很熟悉,那么可以先看下我的思路,如果理解了,那么就请自己一个人来独立复现代码哦(相信坏蛋哥这么做是为你好,什么东西都是当你能随心所欲的用于起来了,那么就代表你学会了)。...(sTime+"\t"+startPage+"\t"+ lTime+"\t"+lastPage+"\t"+distance+"\t"+count)); } } 四 总结 上面的全部代码可以在后台回复【hadoop...参考文献: Hadoop documention 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

2.2K50

【开发环境】安装 Hadoop 运行环境 ( 下载 Hadoop | 解压 Hadoop | 设置 Hadoop 环境变量 | 配置 Hadoop 环境脚本 | 安装 winutils )

/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz 官方下载速度很慢 ; 这里提供一个 Hadoop 版本 , Hadoop 3.3.4 + winutils , CSDN...解压 Hadoop 完成后 , Hadoop 路径为 D:\001_Develop\052_Hadoop\hadoop-3.3.4 三、设置 Hadoop 环境变量 ---- 在 环境变量 中 ,...设置 HADOOP_HOME = D:\001_Develop\052_Hadoop\hadoop-3.3.4 系统 环境变量 ; 在 Path 环境变量中 , 增加 %HADOOP_HOME%\bin...%HADOOP_HOME%\sbin 环境变量 ; 四、配置 Hadoop 环境脚本 ---- 设置 D:\001_Develop\052_Hadoop\hadoop-3.3.4\etc\hadoop...; 七、验证 Hadoop 安装效果 ---- 然后在命令行中 , 执行 hadoop -version 验证 Hadoop 是否安装完成 ; C:\Windows\system32>hadoop -

1.4K30

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券