首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏成员
974
文章
2436772
阅读量
707
订阅数
0874-7.1.7-如何在CDP集群为Spark3集成Iceberg
1.文档编写目的 Iceberg是一种开放的数据湖表格式,您可以借助Iceberg快速地在HDFS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。本篇文章主要介绍如何在Apache Spark3环境下集成Iceberg并使用,Iceberg使用Apache Spark的DataSourceV2 API来实现Data Source和Catalog。Spark DSv2是一个不断更新迭代的API,在不同的Spark版本中支持的程度也不
Fayson
2022-04-08
1.6K0
0863-如何使用Docker在Windows下快速构建Impala4.0环境
历经15个月,Apache Impala 4.0终于发布了!本次发布一共包含700多个JIRA,新增了很多特性,包括但不限于:
Fayson
2021-10-11
1.8K0
0856-7.1.4-如何使用spark-shell操作Kudu表
Kudu从 1.0.0 版本开始通过Data Source API与Spark 集成。kudu-spark使用--packages选项包含依赖项。如果将Spark与Scala 2.10 一起使用,需要使用 kudu-spark_2.10 。从 Kudu1.6.0开始不再支持Spark 1,如果要使用Spark1与Kudu集成,最高只能到Kudu1.5.0。
Fayson
2021-07-28
1.2K0
0800-5.16.2-如何禁用Hue中Oozie的部分Action
在CDH集群中是通过Hue中的Oozie来进行作业调度的,同样Oozie也支持多种调度Action。为了防止业务用户使用存在风险的Action(如:Shell Action可以通过编写Shell命令获取操OS的信息问题),现需要将Hue中部分存在风险的Action禁用,本篇文章主要介绍如何禁用Hue中Oozie的部分Action。
Fayson
2020-08-20
1.4K0
0762-5.16.2-Impala查询HBase表字段顺序不正确异常分析
按照官方文档在Hive中建表关联HBase,然后在Hue中用Impala查询,查询结果中字段的顺序与在Hive中的建表顺序不一致,Hue中使用Impala查询出来的字段顺序是按照字母排序的。
Fayson
2020-04-24
7230
PySpark启动过程解密
作为数据工程师,你可能会碰到过很多种启动PySpark的方法,可能搞不懂这些方法有什么共同点、有什么区别,不同的方法对程序开发、部署有什么影响,今天我们一起分析一下这些启动PySpark的方法。
Fayson
2020-02-24
1.7K0
一步一步理解Impala query profile(一)
作者:Eric Lin (林晨辉), Cloudera高级售后技术支持工程师。毕业于Monash大学计算机科学, Sir John Monash的奖学金获得者。曾就业于数据收集公司如Hitwise(现为Experian的子公司)和Effective Measure,担任高级工程师,负责设计,开发和管理用于采集, 处理和报告网络数据的平台(基于PHP,Java和CDH)。现任职Cloudera, 担任高级售后技术支持工程师,主要擅长解决在CDH生态系统中出现的各种疑难杂症。
Fayson
2019-12-16
2.9K0
0547-CM Server和Agent服务停止脚本说明
在前面的文章《0520-如何使用非root用户启动CM的Server和Agent服务》中,Fayson介绍过在CDH5中,无论是Cloudera Manager Server还是Agent服务都无法配置为其他用户来启停,只能通过root用户来管理。这里假设我们有root用户或者有sudo(ALL)权限的普通用户,但我们依旧不想通过系统自带的system或者systemctl来操作这2个服务,而是直接操作CM Server和Agent的脚本文件。本篇文章Fayson主要说明CDH5和CDH6版本中cloudera-scm-server和cloudera-scm-agent服务停止脚本的变化。
Fayson
2019-11-27
1.4K0
0693-6.2.0-如何将Hive数据导入HBase
在一些业务场景中需要将Hive的数据导入到HBase中,通过HBase服务为线上业务提供服务能力。本篇文章Fayson主要通过在Hive上创建整合HBase表的方式来实现Hive数据导入到HBase。
Fayson
2019-09-03
2.1K0
0680-5.16.1-impala-shell导出数据存在中文异常问题
Fayson在使用impala-shell -i hosts -d default -f test.sql -o test.txt, 导出结果数据时,发现执行SQL 报错,提示错误信息如下Unknown Exception : 'ascii' codec can't encode characters in position 61-62: ordinal not in range(128),看到这个异常,想必熟悉python的朋友知道这是python中文乱码的问题,Fayson下面会详细描述该问题和解决办法
Fayson
2019-07-31
2.1K0
0639-6.1.1-Spark读取由Impala创建的Parquet文件异常分析
2.通过CDH提供的parquet tool进行分析,参考《0631-6.2-如何确认一个Parquet文件是否被压缩》。
Fayson
2019-05-24
1.7K0
0614-5.16.1-同一OS用户并行Shell脚本中kinit不同的Principal串掉问题分析
在前面的文章《CDH5.15.0-同一OS用户下不同Kerberos用户执行脚本Principal串掉问题分析》中Fayson主要介绍了同一个OS用户下并发调度Python脚本时会导致Principal账号串掉,通过在Python代码中指定KRB5CCNAME环境变量解决问题,本篇文章Fayson主要介绍通过同一OS用户下并发调度Shell脚本进行不同用户Kerberos认证时Principal账号串掉问题分析及解决。
Fayson
2019-05-13
2K0
0609-6.1.0-如何卸载CDH6.1
Fayson在两年前的文章中介绍过CDH的卸载,参考《0008-如何卸载CDH(附一键卸载github源码)V1.2.1》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH,否则并没有现成的一键卸载的脚本供使用。
Fayson
2019-05-07
2.5K0
Kerberos环境下Impala Daemon在CDH5.15版本中KRPC端口27000异常分析
CDH集群升级至5.15并且启用Kerberos的情况下,在命令行使用impala-shell执行SQL操作会报如下异常:
Fayson
2018-11-16
1.8K0
如何使用Oozie API接口向Kerberos环境的CDH集群提交Shell作业
前面Fayson介绍了使用Oozie API向Kerberos和非Kerberos集群提交Spark和Java作业,本篇文章主要介绍如何使用Oozie Client API向Kerberos环境的CDH集群提交Shell Action工作流。
Fayson
2018-03-30
1.7K0
如何使用Oozie API接口向非Kerberos环境的CDH集群提交Shell工作流
前面Fayson介绍了《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》和《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业》,本篇文章主要介绍如何使用Oozie Client API向非Kerberos环境的CDH集群提交Shell Action工作流。
Fayson
2018-03-30
1K0
5.如何为Impala配置OpenLDAP认证
在前面的文章Fayson讲了《1.如何在CentOS6.5安装OpenLDAP并配置客户端》、《2.OpenLDAP集成SSH登录并使用SSSD同步用户》、《3.如何实现OpenLDAP的主主同步》以及《4. 如何为Hive配置OpenLDAP认证》。本篇文章主要介绍如何为Impala配置OpenLDAP认证。
Fayson
2018-03-29
2.8K0
Hue中使用Oozie创建Shell工作流在脚本中切换不同用户
前面Fayson讲过《Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析》,如果不在Shell脚本中使用sudo命令该如何切换到其它呢?本篇文章主要讲述如何Hue中使用Oozie创建Shell工作流在脚本中切换用户执行Hadoop命令。本文脚本中的主要流程如下:
Fayson
2018-03-29
1.8K0
使用Hue创建Ssh的Oozie工作流时重定向输出日志报错分析
Fayson前面的一篇文章讲过《如何在Hue中创建Ssh的Oozie工作流》。但当重定向输出日志时,会出现异常。
Fayson
2018-03-29
1.5K0
Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析
在使用Hue创建Ssh的Oozie工作流,在Shell脚本中执行sudo命令失败,异常如下:
Fayson
2018-03-29
1.6K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档