五年前,Cloudera向全世界分享了一个愿景,将通过一个新的SQL引擎Apache Impala(全球第一个也是Hadoop之上最快的MPP SQL引擎)将数十年关系型数据库研究的经验转移到Apache Hadoop平台之上,参考:
问题导读 1.Cloudera 提供了那些产品和工具? 2.Cloudera Navigator的作用是什么? Cloudera 提供一个可扩展、灵活、集成的平台,可用来方便地管理您的企业中快速增长的多种多样的数据。业界领先的 Cloudera 产品和解决方案使您能够部署并管理 Apache Hadoop 和相关项目、操作和分析您的数据以及保护数据的安全。 Cloudera 提供下列产品和工具: CDH — Cloudera 分发的 Apache Hadoop 和其他相关开放源代码项目,包括 Imp
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
Impala提供了多种访问方式如impala-shell、beeline、JDBC以及ODBC等方式,关于beeline、JDBC的连接方式可以参考Fayson前面的文章《如何使用java代码通过JDBC连接Impala(附Github源码)》和《如何使用Beeline连接Impala》,本篇文章主要介绍如何在Linux上安装及配置Impala ODBC驱动。学习本章知识前你还需要知道《如何使用HAProxy实现Kerberos环境下的Impala负载均衡》和《如何使用HAProxy实现Impala的负载均衡》。
Beeline是HiveServer2提供的一个新的命令行工具,基于SQLLine CLI的JDBC客户端。Beeline有两种模式:嵌入和远程模式。嵌入模式类似于运行Hive CLI,而远程模式可以通过thrift连接。支持连接Hive、MySQL、Oracle、Impala等。本篇文章主要讲述如何使用Beeline连接Impala。
Cloudera Impala支持Hadoop数据集上的低延迟交互式查询,这些数据集可以存储在Hadoop分布式文件系统(HDFS)或Hadoop的分布式NoSQL数据库HBase中。Impala的想法是使用Hadoop作为存储引擎,但远离MapReduce算法。相反,Impala使用分布式查询,这是一种从大规模并行处理数据库继承而来的概念。因此,Impala支持类SQL语言的查询(与Apache Hive相同),但可以比Hive更快地执行查询,将它们转换为MapReduce。您可以在之前的文章中找到有关Impala的更多详细信息。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 Fayson在2018年的1月26日介绍了《CDH5.14和CM5.14的新功能》,今天6月15日,Cloudera正式发布了CDH5.15。从5.14到5.15,差不多等待了4个半月的时间,本次更新比以往晚了快2个月的时间。当然Cloudera在中间发布了CDH6的Beta版,参考《Cloudera En
Fayson在2018年的6月15日介绍了《CDH5.15和CM5.15的新功能》,今天11月29日,Cloudera正式发布CDH5.16.1。从5.15到5.16,差不多等待了5个月,当然Cloudera在期间还发布了CDH6正式版,随后发布CDH6.0.1,参考《Cloudera Enterprise 6正式发布》。我们注意到这次CDH新版本的发布,没有5.16.0而直接是5.16.1,具体原因未知。
前面Fayson介绍过《如何使用HAProxy实现Impala的负载均衡》,在Kerberos环境HAProxy的配置与非Kerberos环境下是一样的,只是在Impala的配置上需要做一些修改,接下来本篇文件主要讲述如何在Kerberos环境下使用HAProxy实现Impala的负载均衡。
作者简介:黄权隆,Cloudera研发工程师,Apache Impala PMC & Comitter,毕业于北大计算机系网络所数据库实验室,曾就职于Hulu大数据基础架构团队,负责大数据系统的维护和二次开发,主要负责Impala和HBase方向。现就职于Cloudera,专注于Impala开发。
在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。 Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(Christophe Bisciglia)、埃姆·阿瓦达拉(Amr Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。 首先来看下Cloudera的技术框架
在前面Fayson介绍了在Python2的环境下《如何使用Python Impyla客户端连接Hive和Impala》及《Python3环境通过JDBC访问非Kerberos环境的Hive》,本篇文章Fayson在Python3的环境下使用Impyla访问非Kerberos环境下的Impala以及将获取到的结果集转换为Pandas的DataFrame。
北京时间2018年12月19日,Cloudera正式发布Cloudera Enterprise 6.1.0,昨天Fayson的文章介绍了《0487-CDH6.1的新功能》,因为本次更新内容较多,特意将CDH和Cloudera Manager的更新分开两篇文章来介绍,本文Fayson主要介绍Cloudera Manager6.1的新功能。
在使用Java代码访问只启用了Sentry的Impala集群,即集群未启用认证比如LDAP或者Kerberos,会出现获取JDBC连接hang死的现象,具体示例代码如下:
访问Impala的方式很多(如:impala-shell、ODBC、JDBC、Beeline),也可以通过Hue的来访问。关于Beeline方式连接Impala可以参考前面的《如何使用Beeline连接Impala》,本篇文章主要讲述如何使用JAVA代码通过JDBC的方式连接Kerberos和非Kerberos环境下的Impala。
自从Dremel出来以后,跟风的行动就开始了。狗狗出品,必有跟屁虫,必有抄袭者,更有炒作的。Cloudera最开始宣传的时候,在2012年,它们做的一个新系统叫Impala,是Dremel的开源版。当然,其他两家批发商也没闲着,MAPR搞了个Drill,Hortonworks也许最忽悠也许最实际,说我们只需要改善 Hive就好,没必要搞其他飞机。 这个事情后来的发展,当然是Hortonworks继续搞它的HIVE,MapR现在天天叫着Drill是Dremel的开源实现。而Cloudera很早之前就悄悄的
在之前的文档中介绍了如何用CM接管无CM以rpm方式安装的CDH5.10.0,本文档同样会介绍如何使用Cloudera Manager来接管一个无Cloudera Manager管理的CDH集群,只不过这次的版本是CDH6.2.0。
在实际工作当中,因为impala的查询比较快,所以可能有会使用到impala来做数据库查询的情况,可以通过java代码来进行操作impala的查询。
Cloudera于7月31日宣布正式发布CDH6.3,此版本提供了许多新功能,改进了可用性,性能提升以及对更现代的Java和身份管理基础设施软件的支持(Free IPA)。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面Fayson介绍了在Kerberos和非Kerberos环境下使用JAVA通过JDBC访问Hive和Impala《如何使用java代码通过JDBC连接Hive》和《如何使用java代码通过JDBC连接Impala》,本篇文章Fayson主要介绍如何在Kerberos环境下使
在前面的文章Fayson介绍了《如何使用java代码通过JDBC连接Hive(附github源码)》和《如何使用java代码通过JDBC连接Impala(附Github源码)》,本篇文章主要介绍在集群集成了OpenLDAP和启用了Sentry后使用Java通过JDBC访问的区别以及在beeline命令行如何访问。
Fayson在之前的文章中介绍过《CDH网络要求(Lenovo参考架构)》,《如何为Hadoop集群选择正确的硬件》和《CDH安装前置准备》,而我们在搭建Hadoop集群时,还一件很重要的事就是如何给集群分配角色。
本篇文章主要介绍在Cloudera Manager 界面中Impala 查询详细界面显示无法检索此查询的详细信息问题的原因和解决办法
Cloudera从CM6.3版本开始,引入了Red Hat IdM来做整个集群的认证,Red Hat IdM对应的软件为FreeIPA,在本文中描述如何使用FreeIPA来做CDP-DC集群的认证。关于FreeIPA服务器搭建参考<使用FreeIPA对Linux用户权限统一管理>。之前的文章包括<使用FreeIPA为CDP DC7.1集群部署安全>,<CDP-DC中为CM集成FreeIPA提供的LDAP认证>,<在CDP-DC中Ranger集成FreeIPA的LDAP用户>,<CDP-DC中Hue集成FreeIPA的LDAP认证>。
在部署CDH集群时,可能使用tar包或者rpm包的方式安装的集群,但是在部署时并没有采用Cloudera Manager来对集群进行管理,在使用过程中,集群数据量日益增长,组件慢慢变多,因此想将现有的集群使用Cloudera Manager来进行管理,本文档将介绍如何使用Cloudera Manager来接管一个无Cloudera Manager管理的CDH集群。
因为CDH5中的Parquet版本为1.5,而CDP7中的Parquet版本为1.10,我们在从CDH5升级到CDP7后,无论是原地升级还是迁移升级,都可能会碰到一个问题,以前在CDH5中使用Hive/Impala生成的低版本Parquet文件还能继续在CDP7中使用吗。本文主要描述将CDH5中的Parquet文件传输到CDP7环境中,使用CDP7中的Hive,Impala,Spark确认能否继续访问这些文件。
在CDH集群中所有节点/opt/cloudera/anaconda3部署了Python3的安装包,如下描述:
简介: impala属于Cloudera,基于内存的,可用户实时的交互式查询。Cloudera建议Impala集群内存最少128G,Impalad与DataNode运行在同一节点上
在前面Fayson介绍了在Python2的环境下《如何使用Python Impyla客户端连接Hive和Impala》,本篇文章Fayson主要介绍在Python3的环境下使用Impyla访问非Kerberos环境下的Hive以及将获取到的结果集转换为Pandas的DataFrame。
继《impala入门,从基础到架构!!!》之后,本篇博客,小菌为大家带来impala 的安装部署!
以上三种方法也可以只使用于关键数据,具体使用哪种方法,可以根据自己集群的规模和数据量大小具体选择。
Cloudera在北京时间2019年3月30日正式发布了Cloudera Enterprise 6.2.0,此版本包括了许多新功能,可用性改进以及性能提升。Cloudera Enterprise 6.2.0同时也包括很多组件版本的更新,如下:
随着Hadoop平台的流行,越来越多的开发语言访问Hadoop平台的组件,比较常见的Java、Scala、Python、R等。在前面的多篇文章中Fayson介绍了Java和Scala访问Hadoop各个组件的方法。对于偏分析类的Python和R语言访问集群的Hive和Impala比较多。本篇文章Fayson主要介绍如何使用Python3访问Kerberos环境的Hive和Impala。
以前只用过Hive与impala两个类SQL查询系统,最近又将Hortonworks开源的Stinger与Apache的Drill做了些调研。累死累活搞了一天的资料,头都大了。为了纪念我那逝去的脑细胞,特将这些信息整理出来。
在主节点使用命令:systemctl stop cloudera-scm-server 停止服务
继之前的文章讲述如何在Redhat中配置R环境和如何在Redhat中安装R的包及搭建R的私有源后,那我们如何使用R连接CDH集群中的Hive和Impala进行数据分析呢?本文档主要讲述如何使用R连接Hive和Impala,并分别通过命令行和CDSW进行演示。
Cloudera Manager是一个用于管理、配置和监控CDP私有云基础集群和Cloudera Runtime服务的应用程序。
------Impaladbeeswax_port21000Port on which Beeswax client requests are served by Impala Daemon 被 impala-shell, Beeswax, Cloudera ODBC 1.2 驱动 用于传递命令和接收结果。参见 Configuring Impala to Work with ODBC 了解详细信息hs2_port21050Port on which HiveServer2 client requests
上次写了CDH安装测试总结,由于那个博客篇幅略长, 但是主要集中在第二章,所以单独把CDH安装、卸载这块的内容拉出来在一篇记录一下。
作者:Eric Lin (林晨辉), Cloudera高级售后技术支持工程师。毕业于Monash大学计算机科学, Sir John Monash的奖学金获得者。曾就业于数据收集公司如Hitwise(现为Experian的子公司)和Effective Measure,担任高级工程师,负责设计,开发和管理用于采集, 处理和报告网络数据的平台(基于PHP,Java和CDH)。现任职Cloudera, 担任高级售后技术支持工程师,主要擅长解决在CDH生态系统中出现的各种疑难杂症。
这是CDH/HDP/Apache Hadoop迁移到CDP系列的第一篇博客,如对迁移感兴趣,请关注该系列博客。
在将 Impala 工作负载从 CDH 平台迁移到 CDP 之前,您必须了解 CDH 和 CDP Impala 之间的语义和行为差异以及需要在数据迁移之前执行的活动。
北京时间2018年12月19日,Cloudera正式发布Cloudera Enterprise 6.1.0,上次发布CDH6.0是8月30日,差不多过去了3个多月的时间,参考Fayson之前的文章《Cloudera Enterprise 6正式发布》。从CDH6.0到CDH6.1是一次minor version的更新,但更新内容较多,在开始接下来的细化功能讨论前,我们先看看几项重点更新的内容:
Cloudera Labs在2016-06-27宣布打包了Apache Phoenix项目,版本为4.7.0,并基于CDH5.7.0。安装依旧是大家熟悉的Parcel方式,下载地址为:http://archive.cloudera.com/cloudera-labs/phoenix/parcels/1.3/
在前面Fayson的文章《Hadoop SQL客户端工具之Dbeaver安装及使用》和《0468-如何使用DBeaver访问Kerberos环境下的Hive》。本篇文章Fayson主要介绍如何使用DBeaver访问Kerberos环境下的Impala。
八月再见,九月你好,今天是九月一日,新学年开始,Cloudera正式发布CDP Base 7.1.8和Cloudera Manager 7.7.1。这个版本引入了诸多新功能,比如通过EC提升Ozone的存储效率,Cloudera Manager的HA,多NameNode支持,全面支持Impala4.0,Hive性能提升,HDFS/Schema Registry血缘功能的增强,改进Ranger RMS,以及实时平台的全面增强。 1.平台支持增强 1.新的操作系统支持 CDP Private Cloud Ba
批处理层主用由Hadoop来实现,负责数据的存储和产生随意的视图数据。
Tableau是桌面系统中的商业智能工具软件,可以基于不同的数据源生成漂亮的图表。Cloudera与Tableau是互相认证的合作伙伴,在Tableau的数据源配置界面可以直接找到“Cloudera Hadoop”,从而让你很方便的进行安装配置。
以前写过一篇文档讨论MPP DB的发展,《MPP DB 是 大数据实时分析系统 未来的选择吗?》,当时主要是想讨论下Greenplum数据库是否合适做数据存储,以及实时查询。文章我主要提的MPP DB短板是扩展性和对并发的支持,从目前Pivotal公司主推的HAWK,已经可以清楚的看到,业界主流的思路是SQL onhadoop,用传统引擎的高性能加上hadoop 存储的鲁棒性,来构建大数据实时分析。 一、为什么SQL on hadoop会流行? SQL其实也是一种DSL,将复杂的数据操作抽象成几个关键字(i
领取专属 10元无门槛券
手把手带您无忧上云