Hadoop实操-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop实操

专注Apache Hadoop，CDH和HDP的实操，如安装部署，安全配置，排障过程，经验分享，性能

专栏成员

974

文章

2438683

阅读量

707

订阅数

0807-6.2.0-CDSW中Session列表和team分析

文件存储数据库 sql

本文主要讲述了几种查看CDSW中Session列表的方式，以及对他们的值进行了对比。

2020-09-04

6450

0792-5.16.2-如何通过Hive跨集群迁移Kudu表

hive 负载均衡负载均衡缓存文件存储

在日常使用中你的Kudu 集群版本非常低或者部署在其他非CDH集群中，迁移起来非常麻烦。本文主要介绍如何通过Hive 进行跨集群迁移Kudu 表

2020-07-29

1.7K0

0703-6.2.0-使用Sentry为Solr进行赋权

kerberos lucene/solr 访问管理 xml 文件存储

在CDH中，Sentry服务是一个基于角色授权的管理组件，通常我们将Sentry用来管理Hive、Impala等组件，但是同样的，Sentry也可以为Solr提供基于角色的细粒度授权，在启用Sentry后，可以对各种操作进行权限上的限制，无论对数据的访问是来自命令行、浏览器还是Hue，都会基于授予的角色拥有的权限来进行管理和限制。要注意的是，启用Sentry对Solr进行权限控制前需要先启用Kerberos，本文档将介绍如何使用Sentry对Solr进行赋权。

2019-09-25

9070

0701-6.2.0-使用Solr7对结构化csv文件建立全文索引

lucene/solr 文件存储全文检索专用宿主机 http

在上一篇《6.2.0-使用Solr7对多种格式文件建立全文索引》中介绍了如何在CDH6.2.0中使用Solr7对多种格式的文件进行全文索引，测试中使用的主要是非结构化的word、ppt、pdf等非结构化的数据，很多时候需要使用Solr对结构化的数据进行索引，根据其中某些字段进行精准的查询或者范围查询，本文档将介绍如何使用Solr对csv文件建立全文索引。

2019-09-18

1.2K0

史上最全-mysql迁移到clickhouse的5种办法

云数据库 SQL Server 数据库文件存储 jar 官方文档

https://anjia0532.github.io/2019/07/17/mysql-to-clickhouse/

2019-07-22

12.5K1

0674-5.16.2-如何在CDH5中使用Phoenix4.14.1

sql hive 专用宿主机文件存储 hbase

Apache Phoenix是Apache HBase上一个高效的SQL引擎，很多公司都在使用它，比如Salesforce，它开源了这个项目，并将该项目贡献到社区。很早也已经是顶级项目了。大家知道HDP中一直都包含Phoenix，老的CDH源生是不包含Phoenix的，但是Apache Phoenix社区对于C5的各个版本其实都有发布Parcel，但是这个不受Cloudera官方支持，参考Fayson之前的文章《0308-如何在CDH5.14.2中安装Phoenix4.14.0》。现在Cloudera和Hortonworks合并以后，两边的产品也进行了合并，如之前介绍的CFM，CEM集成到CDH，现如今Phoenix也包含到了CDH中，Cloudera官方会提供支持。本文Fayson会对Phoenix做一个简单介绍后，然后介绍如何在CDH5.16.2中安装和使用Phoenix。

2019-07-22

1.8K0

0659-6.2.0-Hive处理JSON格式数据

json apache 编程算法腾讯云测试服务文件存储

在使用Hive处理数据的过程中会遇到各种各样的数据源，其中较为常见的是JSON格式的数据，Hive无法直接处理JSON格式的数据，需要依赖于JSONSerDe。SerDe即序列化和反序列化，JSONSerDe基本思想是使用json.org的JSON库，使用这个库可以读取一行数据并解析为JSONObject，然后解析到Hive中的数据行。因此JSON文件的每行必须是一个完整的JSON，一个JSON不能跨越多行。本文档介绍的是JsonSerDe，该库的地址为：https://github.com/rcongiu/Hive-JSON-Serde。它的特点如下：

2019-06-26

4.2K1

0631-6.2-如何确认一个Parquet文件是否被压缩

文件存储 hive 专用宿主机

1.使用Hive的desc命令查看Parquet表hive_table_test_parquet的底层文件格式是否被压缩。

2019-05-17

3.5K0

0632-6.2-通过Hive生成的Snappy表Impala无法访问异常分析

文件存储 hive

3.操作目标：把此hive表(hive_table_test_parquet)在表结构不变，数据内容不变的情况下压缩存储,得到新表(hive_table_test_parquet_snappy，此表记录数跟内容跟hive_table_test_parquet应该完全一致,但hdfs文件应该显著变小)

2019-05-17

1.6K0

0617-6.1.0-使用Sentry给Solr的collection赋予Query权限后查询异常分析

专用宿主机 lucene/solr apache 文件存储

Sentry在CDH平台中定位为统一的授权框架，即所有的组件都要受Sentry的管理，当然也是为了方便用户的操作，一个入口为所有数据相关进行授权。Solr作为CDH的关键组件之一也不例外，安全授权同样受到Sentry的管理。在前面的文章中，Fayson介绍过Sentry与Solr如何结合使用，参考《0294-如何使用Sentry为Solr赋权》，《0301-使用命令行创建collection时Sentry给Solr赋权的问题》和《0304-如何在Hue中使用Sentry为Solr赋权》。但在CDH5中，Solr的版本较低是4.10.3，而CDH6的Solr是7.4，Solr的更新较大，在使用上也会有些差别。

2019-05-14

9050

浅析 Spark Shuffle 内存使用

linux spark 编程算法文件存储

在使用 Spark 进行计算时，我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况，而且很大一部分情况是发生在 Shuffle 阶段。那么在 Spark Shuffle 中具体是哪些地方会使用比较多的内存而有可能导致 OOM 呢？为此，本文将围绕以上问题梳理 Spark 内存管理和 Shuffle 过程中与内存使用相关的知识；然后，简要分析下在 Spark Shuffle 中有可能导致 OOM 的原因。

2019-04-29

1.2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态