首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
964
文章
2344868
阅读量
704
订阅数
0871-6.3.2-如何基于CDH6环境编译Hudi-0.9.0并使用
1.文档编写目的 Apache Hudi是一个Data Lakes的开源方案,是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi 是一个丰富的平台,用于构建具有增量数据管道的流式数据湖,具有如下基本特性/能力: Hudi能够摄入(Ingest)和管理(Manage)基于HDFS之上的大型分析数据集,主要目的是高效的减少入库延时。 Hudi基于Spark来对HDFS上的数据进行更新、插入、删除等。 Hudi在HDFS数据集上
Fayson
2022-03-21
2.7K0
0507-Hive查询json格式表执行MapReduce任务错误问题分析和解决
本篇文章主要介绍hive里创建的json格式的表,全表查询时成功,当查询时需要提交mapreduce任务时失败问题描述和解决。
Fayson
2019-11-28
9260
0523-5.15-为Cloudera Manager配置自定义告警脚本
Cloudera Manager支持三种方式的告警输出,在前面的文章《如何为CDH集群配置警报邮箱》和《如何通过Cloudera Manager配置使用SNMP方式转发告警》Fayson介绍了邮件和SNMP两种方式的告警接入,那Cloudera Manager还支另外一种自定义告警脚本方式接入告警,本篇文章Fayson主要介绍如何使用自定义告警脚本的方式将CM告警输出。
Fayson
2019-11-27
1.9K0
0659-6.2.0-Hive处理JSON格式数据
在使用Hive处理数据的过程中会遇到各种各样的数据源,其中较为常见的是JSON格式的数据,Hive无法直接处理JSON格式的数据,需要依赖于JSONSerDe。SerDe即序列化和反序列化,JSONSerDe基本思想是使用json.org的JSON库,使用这个库可以读取一行数据并解析为JSONObject,然后解析到Hive中的数据行。因此JSON文件的每行必须是一个完整的JSON,一个JSON不能跨越多行。本文档介绍的是JsonSerDe,该库的地址为:https://github.com/rcongiu/Hive-JSON-Serde。它的特点如下:
Fayson
2019-06-26
4K1
Cloudera Enterprise 6正式发布
2.针对CDH各个组件以及Cloudera Manager本身的自动化的TLS设置安装。
Fayson
2018-09-29
1.8K0
如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表
1.文档编写目的 ---- 在前面的文章Fayson介绍了关于StreamSets的一些文章《如何在CDH中安装和使用StreamSets》、《如何使用StreamSets从MySQL增量更新数据到Hive》、《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》、《如何使用StreamSets实现MySQL中变化数据实时写入HBase》、《如何使用StreamSets实时采集Kafka并入库Kudu》和《如何使用StreamSets实时采集Kafka数据并写入Hive表》,本篇文章Fay
Fayson
2018-07-12
4.7K0
如何使用Flume准实时建立Solr的全文索引
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Fayson在上篇文章《如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引》简单介绍了Solr,然后利用Cloudera提供的Morphline工具通过创建MapReduce可以实现对HDFS中的半/非结构化数据的批量建立全文索引。本文主要介绍如何使用Mor
Fayson
2018-07-12
1.5K0
如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。SolrCloud是Sol
Fayson
2018-07-12
5.8K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档