首页
学习
活动
专区
工具
TVP
发布

大数据生态

本专栏为您分享各种大数据技术和实践经验,无论您是初学者还是资深从业者,都能在这里找到丰富的知识资源和实践分享。
专栏作者
116
文章
199502
阅读量
374
订阅数
「EMR 开发指南」之 Sqoop 常见问题处理
Sqoop是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间传输数据的开源工具。它允许用户在Hadoop分布式文件系统(HDFS)和外部结构化数据存储之间进行数据导入和导出操作。Sqoop的主要优势在于,它可以有效地将大量数据从关系数据库迁移到Hadoop环境中,以便进行大数据分析和处理。
岳涛
2024-03-01
2670
「EMR 开发指南」之 Kylin 存算分离方案
在大数据领域,数据量持续增长,数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题,Apache Kylin应运而生。
岳涛
2023-11-29
3201
「EMR 运维指南」之 Kylin 迁移方案
在大数据领域,数据量持续增长,数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题,Apache Kylin应运而生。
岳涛
2023-11-28
3791
「EMR 运维指南」之 Kerberos 跨域互信配置
本文以Cluster-A跨域去访问Cluster-B中的服务为例。配置完成后,Cluster-A在获取到本集群KDC授予的TGT(Ticket Granting Ticket)后,能够跨域访问Cluster-B中的服务。本文配置的跨域互信是单向的,即Cluster-B无法跨域访问Cluster-A上的服务,如果需要实现双向跨域互信,按照同样的方法交换配置即可。 在两个集群在emr-header-1节点上,执行 hostname 命令获取hostname。在emr-header-1节点的/etc/krb5.conf文件中获取realm。本文使用的两个集群信息示例如下:
岳涛
2023-11-24
5290
「EMR 运维指南」之 Kerberos 跨域认证方案
多个开启 kerberos 的 hadoop 集群之间要做通信(跨集群的数据迁移等),因为 Kerberos 原因无法正常进行,本文档说明了多 kerberos 集群下做跨域认证的方法。
岳涛
2023-11-23
3750
关注专栏作者,随时接收最新技术干货
岳涛
腾讯大数据SRE研发工程师
王旭平
腾讯科技有限公司产品架构工程师
用户8411147
卡奥斯产品经理
「EMR 开发指南」之通过 Python 连接 Hive
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。 本节将演示如何使用 Python 代码来连接 HiveServer2。
岳涛
2023-11-22
4601
「EMR 开发指南」之通过 Java 连接 Hivesever2
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。对于 Java,Hive 提供了 jdbc 驱动,用户可以使用 Java 代码来连接 Hive 并进行一系列操作。 本节将演示如何使用 Java 代码来连接 HiveServer2
岳涛
2023-11-21
5011
Hive 跨文件系统存储数据
Hive指定表的存储路径: hive可以在创建表的时候通过location指定表的存储路径,若不指定localtion则文件默认存储在hive-site.xml配置文件中hive.metastore.warehouse.dir配置项指向的路径。 此外,Hive的分区表还可以指定分区的存储路径。通过如下语句可以给分区指定:
蕾崽
2023-11-20
2350
「EMR 运维指南」之 HiveServer2 启用 Custom 鉴权
HiveServer2 服务默认不启用鉴权功能,这样的话随意输入密码都能连接上,容易造成安全隐患,下面讲解下如何配置Hiveserver2 的 Custom 鉴权。这里已经编写好鉴权类代码,所以这里侧重讲配置,代码 Jar 包可以通过私信提供。
岳涛
2023-11-17
3700
基于cos的hadoop KMS HA部署
hadoop 的 kms的元数据是保存在本地的,比如加密的请求打到A,元数据保存在A机器上,如果解密的请求打到B机器上,就会失败。为了解决这个问题,使用cos作为共享目录(将cos挂载到本地目录中),来实现 kms的元数据的共享。
王旭平
2023-05-09
6471
distcp 并行同步脚本
DistCp(distributed copy)是用于大型内部/集群内复制的工具。它使用 MapReduce 来实现其分发、错误处理和恢复、报告的功能。它将文件和目录的列表扩展为映射任务的输入,每个任务将复制源列表中指定的文件的分区。DistCp 是 Hadoop 自带的文件迁移工具。
王旭平
2023-03-14
5080
基于Sentry的大数据权限解决方案
Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未来会扩展到其他的Hadoop组件,例如HDFS和HBase等。
岳涛
2021-03-31
1.3K0
基于Kerberos+Ldap复合认证的大数据权限
关于Kerberos与Ldap两个方案,此处就不再赘述,分别参考我的另外两篇文章:
岳涛
2021-03-31
2.1K0
基于Kerberos认证的大数据权限解决方案
Kerberos是由麻省理工(MIT)开发,对三方进行验证鉴权的服务安全管理系统。该系统很好的体现了西方三权分立的思想,其名字也很形象,来源于希腊神话地狱三个脑袋的看门狗。
岳涛
2021-03-30
2.4K0
基于LDAP认证的大数据权限解决方案
LDAP是开放的Internet标准,支持跨平台的Internet协议,在业界中得到广泛认可的,并且市场上或者开源社区上的大多产品都加入了对LDAP的支持,因此对于这类系统,不需单独定制,只需要通过LDAP做简单的配置就可以与服务器做认证交互。“简单粗暴”,可以大大降低重复开发和对接的成本。 —— LDAP概念及原理
岳涛
2021-03-27
2.2K0
Hive全库数据迁移方案
考虑到多数场景是迁移整个Hive数据库,该篇文章只介绍迁移的第二种,即元数据及Hive数据全量迁移。
岳涛
2021-03-24
4.7K2
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档