首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
970
文章
2355033
阅读量
704
订阅数
0807-6.2.0-CDSW中Session列表和team分析
本文主要讲述了几种查看CDSW中Session列表的方式,以及对他们的值进行了对比。
Fayson
2020-09-04
6170
0792-5.16.2-如何通过Hive跨集群迁移Kudu表
在日常使用中你的Kudu 集群版本非常低或者部署在其他非CDH集群中,迁移起来非常麻烦。本文主要介绍如何通过Hive 进行跨集群迁移Kudu 表
Fayson
2020-07-29
1.6K0
0703-6.2.0-使用Sentry为Solr进行赋权
在CDH中,Sentry服务是一个基于角色授权的管理组件,通常我们将Sentry用来管理Hive、Impala等组件,但是同样的,Sentry也可以为Solr提供基于角色的细粒度授权,在启用Sentry后,可以对各种操作进行权限上的限制,无论对数据的访问是来自命令行、浏览器还是Hue,都会基于授予的角色拥有的权限来进行管理和限制。要注意的是,启用Sentry对Solr进行权限控制前需要先启用Kerberos,本文档将介绍如何使用Sentry对Solr进行赋权。
Fayson
2019-09-25
8840
0701-6.2.0-使用Solr7对结构化csv文件建立全文索引
在上一篇《6.2.0-使用Solr7对多种格式文件建立全文索引》中介绍了如何在CDH6.2.0中使用Solr7对多种格式的文件进行全文索引,测试中使用的主要是非结构化的word、ppt、pdf等非结构化的数据,很多时候需要使用Solr对结构化的数据进行索引,根据其中某些字段进行精准的查询或者范围查询,本文档将介绍如何使用Solr对csv文件建立全文索引。
Fayson
2019-09-18
1.1K0
史上最全-mysql迁移到clickhouse的5种办法
https://anjia0532.github.io/2019/07/17/mysql-to-clickhouse/
Fayson
2019-07-22
11.8K1
0674-5.16.2-如何在CDH5中使用Phoenix4.14.1
Apache Phoenix是Apache HBase上一个高效的SQL引擎,很多公司都在使用它,比如Salesforce,它开源了这个项目,并将该项目贡献到社区。很早也已经是顶级项目了。大家知道HDP中一直都包含Phoenix,老的CDH源生是不包含Phoenix的,但是Apache Phoenix社区对于C5的各个版本其实都有发布Parcel,但是这个不受Cloudera官方支持,参考Fayson之前的文章《0308-如何在CDH5.14.2中安装Phoenix4.14.0》。现在Cloudera和Hortonworks合并以后,两边的产品也进行了合并,如之前介绍的CFM,CEM集成到CDH,现如今Phoenix也包含到了CDH中,Cloudera官方会提供支持。本文Fayson会对Phoenix做一个简单介绍后,然后介绍如何在CDH5.16.2中安装和使用Phoenix。
Fayson
2019-07-22
1.8K0
0659-6.2.0-Hive处理JSON格式数据
在使用Hive处理数据的过程中会遇到各种各样的数据源,其中较为常见的是JSON格式的数据,Hive无法直接处理JSON格式的数据,需要依赖于JSONSerDe。SerDe即序列化和反序列化,JSONSerDe基本思想是使用json.org的JSON库,使用这个库可以读取一行数据并解析为JSONObject,然后解析到Hive中的数据行。因此JSON文件的每行必须是一个完整的JSON,一个JSON不能跨越多行。本文档介绍的是JsonSerDe,该库的地址为:https://github.com/rcongiu/Hive-JSON-Serde。它的特点如下:
Fayson
2019-06-26
4.1K1
0631-6.2-如何确认一个Parquet文件是否被压缩
1.使用Hive的desc命令查看Parquet表hive_table_test_parquet的底层文件格式是否被压缩。
Fayson
2019-05-17
3.4K0
0632-6.2-通过Hive生成的Snappy表Impala无法访问异常分析
3.操作目标:把此hive表(hive_table_test_parquet)在表结构不变,数据内容不变的情况下压缩存储,得到新表(hive_table_test_parquet_snappy,此表记录数跟内容跟hive_table_test_parquet应该完全一致,但hdfs文件应该显著变小)
Fayson
2019-05-17
1.5K0
0617-6.1.0-使用Sentry给Solr的collection赋予Query权限后查询异常分析
Sentry在CDH平台中定位为统一的授权框架,即所有的组件都要受Sentry的管理,当然也是为了方便用户的操作,一个入口为所有数据相关进行授权。Solr作为CDH的关键组件之一也不例外,安全授权同样受到Sentry的管理。在前面的文章中,Fayson介绍过Sentry与Solr如何结合使用,参考《0294-如何使用Sentry为Solr赋权》,《0301-使用命令行创建collection时Sentry给Solr赋权的问题》和《0304-如何在Hue中使用Sentry为Solr赋权》。但在CDH5中,Solr的版本较低是4.10.3,而CDH6的Solr是7.4,Solr的更新较大,在使用上也会有些差别。
Fayson
2019-05-14
8700
浅析 Spark Shuffle 内存使用
在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢? 为此,本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识;然后,简要分析下在 Spark Shuffle 中有可能导致 OOM 的原因。
Fayson
2019-04-29
1.1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档