首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
960
文章
2322513
阅读量
704
订阅数
0871-6.3.2-如何基于CDH6环境编译Hudi-0.9.0并使用
1.文档编写目的 Apache Hudi是一个Data Lakes的开源方案,是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi 是一个丰富的平台,用于构建具有增量数据管道的流式数据湖,具有如下基本特性/能力: Hudi能够摄入(Ingest)和管理(Manage)基于HDFS之上的大型分析数据集,主要目的是高效的减少入库延时。 Hudi基于Spark来对HDFS上的数据进行更新、插入、删除等。 Hudi在HDFS数据集上
Fayson
2022-03-21
2.6K0
0518-如何在Impala中使用UDF获取SessionId
Hive在UDF中获取sessionId可以直接使用提供的java API,但是该UDF如果移植到Impala中是无法获取到Impala连接的SessionId的,要想获取Impala的SessionId,需要用C++来编写。
Fayson
2019-11-27
9910
0535-5.15.0-Oozie中创建Ssh Action指定ssh端口号
考虑到服务器的安装,有些系统管理员会将服务器默认的SSH端口修改其它端口,这时在Hue上创建Oozie Ssh Action的WorkFlow时无法指定服务器的SSH端口号,导致Ssh Action执行失败。本篇文章Fayson主要介绍如何让Oozie的Ssh Action支持端口指定。
Fayson
2019-11-27
1.5K0
Impala查询卡顿分析案例
作者简介:黄权隆,Cloudera研发工程师,Apache Impala PMC & Comitter,毕业于北大计算机系网络所数据库实验室,曾就职于Hulu大数据基础架构团队,负责大数据系统的维护和二次开发,主要负责Impala和HBase方向。现就职于Cloudera,专注于Impala开发。
Fayson
2019-11-06
2.9K0
你为什么还在用存储过程?
存储过程(Stored Procedure)是在大型数据库系统中,一组为了完成特定功能的SQL 语句集,它存储在数据库中,一次编译后永久有效,用户通过指定存储过程的名字并给出参数(如果该存储过程带有参数)来执行它。存储过程是数据库中的一个重要对象。
Fayson
2019-07-09
8530
0650-6.2.0-通过UDF实现Hive&Impala的中文拼音排序
由上面两张图可以看出,在Hive和Impala中排序都失败了,没有按照期望中的中文对应的拼音进行排序。
Fayson
2019-06-17
1.8K0
0645-6.2.0-为什么我在CDH6上使用Spark2.4 Thrift失败了
Fayson在前面的文章中介绍过什么是Spark Thrift,Spark Thrift的缺陷,以及Spark Thrift在CDH5中的使用情况,参考《0643-Spark SQL Thrift简介》。
Fayson
2019-06-04
3.3K0
0598-6.2.0-如何基于FTP的方式访问CDH中HDFS文件系统
访问HDFS的方式很多,常用的有命令行方式、通过Hadoop提供的API访问、也可以通过挂载NFS的方式访问,在前面的文章Fayson也都有介绍过。本篇文章Fayson主要介绍使用FTP的方式来访问HDFS,这里介绍一个开源的小工具hdfs-over-ftp,简单易用的实现了基于FTP的方式对HDFS上文件进行上传和下载等功能。本篇文章Fayson主要介绍如何基于C6编译hdfs-over-ftp工具,并进行安装部署及验证。
Fayson
2019-04-28
1.7K0
0588-6.1.0-命令行动态指定MapReduce运行参数无效问题分析
在本地完成MapReduce程序的开发后,打包提交到服务器上,然后在命令行使用hadoop jar命令运行,并在运行时动态的指定参数(如:Map和Reduce的内、资源池等参数)。通过在命令行添加“-D mapreduce.job.queuename=资源池名”的方式来指定。本篇文章Fayson主要讲述动态指定MapReduce作业参数无效问题分析。
Fayson
2019-04-28
1.1K0
0539-5.15.0-HBase-Spark无法在Spark2编译通过问题解决
在Spark2代码中使用hbase-spark依赖包访问HBase时,编写的代码无法完成编译,在编译的过程中提示如下错误:
Fayson
2019-03-07
1.6K1
非Kerberos环境下Kafka数据到Flume进Hive表
前面Fayson讲过《如何在Kerberos环境使用Flume采集Kafka数据并写入HDFS》,本篇文章主要讲述如何在非Kerberos环境下将Kafka数据接入Flume并写入Hive表。本文的数据流如下:
Fayson
2018-03-29
2.1K1
如何使用java命令从非集群节点向CDH集群提交MapReduce作业
在前面文章Fayson讲过《如何使用hadoop命令向CDH集群提交MapReduce作业》和《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》,但有些用户需要在非CDH集群的节点提交作业,这里实现方式有多种一种是将该节点加入CDH集群管理并部署GateWay角色,可以参考Fayson前面的文章《如何给CDH集群增加Gateway节点》,还有一种方式就是使用java命令向CDH集群提交MR作业。本篇文章主要讲述如何使用java命令向CDH集群提交MapReduce作业
Fayson
2018-03-29
9770
CM启动报InnoDB engine not found分析
将/tmp目录权限修改为777,重启mysql和cloudera-scm-server服务
Fayson
2018-03-29
1.1K0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档