腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据生态
本专栏为您分享各种大数据技术和实践经验,无论您是初学者还是资深从业者,都能在这里找到丰富的知识资源和实践分享。
专栏成员
举报
123
文章
221961
阅读量
375
订阅数
订阅专栏
申请加入专栏
全部文章(123)
大数据(73)
大数据解决方案(68)
Elasticsearch Service(66)
2023腾讯·技术创作特训营 第三期(31)
elasticsearch(22)
emr(19)
hadoop(17)
压力测试(16)
hive(15)
postgresql(9)
弹性 MapReduce(9)
云数据仓库 PostgreSQL(9)
数据迁移(6)
kerberos(6)
性能测试(5)
es(5)
云数据库 MySQL(4)
logstash(4)
云数据库 SQL Server(3)
apache kylin(3)
hdfs(3)
kibana(3)
2023腾讯·技术创作特训营 第四期(3)
对象存储(2)
全文检索(2)
mapreduce(2)
访问管理(2)
spark(2)
防火墙(2)
大数据存储(2)
elk(2)
impala(2)
logstash-grok(2)
性能优化(2)
语义分析(2)
搜索引擎(1)
linux(1)
数据传输服务(1)
大数据可视交互系统(1)
容器服务(1)
ssh(1)
数据处理(1)
架构设计(1)
腾讯云开发者社区(1)
云数据库 postgresql(1)
迁移(1)
flink(1)
Prometheus 监控服务(1)
aws(1)
cube(1)
external(1)
grafana(1)
greenplum(1)
join(1)
mysql(1)
olap(1)
oozie(1)
pipeline(1)
prometheus(1)
querydsl(1)
sentry(1)
snapshot(1)
solr(1)
sqoop(1)
workflow(1)
监控(1)
权限控制(1)
索引(1)
云迁移(1)
数据库优化(1)
存储优化(1)
向量数据库(1)
腾讯云数据仓库 TCHouse-P(1)
2024腾讯·技术创作特训营 第五期(1)
搜索文章
搜索
搜索
关闭
「EMR 开发指南」之 Hue 配置工作流
emr
workflow
弹性 MapReduce
hadoop
本文将通过一个简单,并且具有典型代表的例子,描述如何使用EMR产品中的Hue组件创建工作流,并使该工作流每天定时执行。
岳涛
2024-06-30
175
1
「EMR 开发指南」之 Sqoop 常见问题处理
大数据
sqoop
弹性 MapReduce
大数据解决方案
hadoop
Sqoop是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间传输数据的开源工具。它允许用户在Hadoop分布式文件系统(HDFS)和外部结构化数据存储之间进行数据导入和导出操作。Sqoop的主要优势在于,它可以有效地将大量数据从关系数据库迁移到Hadoop环境中,以便进行大数据分析和处理。
岳涛
2024-03-01
411
0
「EMR 开发指南」之 Kylin 存算分离方案
2023腾讯·技术创作特训营 第三期
hadoop
大数据
emr
apache kylin
在大数据领域,数据量持续增长,数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题,Apache Kylin应运而生。
岳涛
2023-11-29
369
1
「EMR 运维指南」之 Kylin 迁移方案
hadoop
大数据
emr
apache kylin
2023腾讯·技术创作特训营 第三期
在大数据领域,数据量持续增长,数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题,Apache Kylin应运而生。
岳涛
2023-11-28
448
1
「EMR 运维指南」之 Kerberos 跨域互信配置
2023腾讯·技术创作特训营 第三期
hadoop
kerberos
大数据
emr
本文以Cluster-A跨域去访问Cluster-B中的服务为例。配置完成后,Cluster-A在获取到本集群KDC授予的TGT(Ticket Granting Ticket)后,能够跨域访问Cluster-B中的服务。本文配置的跨域互信是单向的,即Cluster-B无法跨域访问Cluster-A上的服务,如果需要实现双向跨域互信,按照同样的方法交换配置即可。 在两个集群在emr-header-1节点上,执行 hostname 命令获取hostname。在emr-header-1节点的/etc/krb5.conf文件中获取realm。本文使用的两个集群信息示例如下:
岳涛
2023-11-24
662
0
关注专栏作者,随时接收最新技术干货
岳涛
腾讯大数据SRE研发工程师
关注
王旭平
腾讯科技有限公司产品架构工程师
关注
用户10656998
关注
陈飞
科大讯飞Linux运维专家
关注
「EMR 运维指南」之 Kerberos 跨域认证方案
大数据
emr
2023腾讯·技术创作特训营 第三期
hadoop
kerberos
多个开启 kerberos 的 hadoop 集群之间要做通信(跨集群的数据迁移等),因为 Kerberos 原因无法正常进行,本文档说明了多 kerberos 集群下做跨域认证的方法。
岳涛
2023-11-23
508
0
「EMR 开发指南」之通过 Python 连接 Hive
hdfs
2023腾讯·技术创作特训营 第三期
hadoop
hive
大数据
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。 本节将演示如何使用 Python 代码来连接 HiveServer2。
岳涛
2023-11-22
567
1
「EMR 开发指南」之通过 Java 连接 Hivesever2
hdfs
2023腾讯·技术创作特训营 第三期
hadoop
hive
大数据
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。对于 Java,Hive 提供了 jdbc 驱动,用户可以使用 Java 代码来连接 Hive 并进行一系列操作。 本节将演示如何使用 Java 代码来连接 HiveServer2
岳涛
2023-11-21
573
1
Hive 跨文件系统存储数据
hadoop
hive
大数据
hdfs
2023腾讯·技术创作特训营 第三期
Hive指定表的存储路径: hive可以在创建表的时候通过location指定表的存储路径,若不指定localtion则文件默认存储在hive-site.xml配置文件中hive.metastore.warehouse.dir配置项指向的路径。 此外,Hive的分区表还可以指定分区的存储路径。通过如下语句可以给分区指定:
蕾崽
2023-11-20
282
0
「EMR 运维指南」之 HiveServer2 启用 Custom 鉴权
2023腾讯·技术创作特训营 第三期
弹性 MapReduce
hadoop
hive
emr
HiveServer2 服务默认不启用鉴权功能,这样的话随意输入密码都能连接上,容易造成安全隐患,下面讲解下如何配置Hiveserver2 的 Custom 鉴权。这里已经编写好鉴权类代码,所以这里侧重讲配置,代码 Jar 包可以通过私信提供。
岳涛
2023-11-17
508
0
基于cos的hadoop KMS HA部署
emr
hadoop
hadoop 的 kms的元数据是保存在本地的,比如加密的请求打到A,元数据保存在A机器上,如果解密的请求打到B机器上,就会失败。为了解决这个问题,使用cos作为共享目录(将cos挂载到本地目录中),来实现 kms的元数据的共享。
王旭平
2023-05-09
705
1
distcp 并行同步脚本
hadoop
DistCp(distributed copy)是用于大型内部/集群内复制的工具。它使用 MapReduce 来实现其分发、错误处理和恢复、报告的功能。它将文件和目录的列表扩展为映射任务的输入,每个任务将复制源列表中指定的文件的分区。DistCp 是 Hadoop 自带的文件迁移工具。
王旭平
2023-03-14
564
0
基于Sentry的大数据权限解决方案
大数据解决方案
大数据
hive
hadoop
弹性 MapReduce
Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未来会扩展到其他的Hadoop组件,例如HDFS和HBase等。
岳涛
2021-03-31
1.4K
0
基于Kerberos+Ldap复合认证的大数据权限
kerberos
大数据解决方案
大数据
hadoop
弹性 MapReduce
关于Kerberos与Ldap两个方案,此处就不再赘述,分别参考我的另外两篇文章:
岳涛
2021-03-31
2.2K
0
基于Kerberos认证的大数据权限解决方案
大数据解决方案
大数据
hadoop
kerberos
弹性 MapReduce
Kerberos是由麻省理工(MIT)开发,对三方进行验证鉴权的服务安全管理系统。该系统很好的体现了西方三权分立的思想,其名字也很形象,来源于希腊神话地狱三个脑袋的看门狗。
岳涛
2021-03-30
2.7K
0
基于LDAP认证的大数据权限解决方案
hadoop
hive
大数据解决方案
大数据
LDAP是开放的Internet标准,支持跨平台的Internet协议,在业界中得到广泛认可的,并且市场上或者开源社区上的大多产品都加入了对LDAP的支持,因此对于这类系统,不需单独定制,只需要通过LDAP做简单的配置就可以与服务器做认证交互。“简单粗暴”,可以大大降低重复开发和对接的成本。 —— LDAP概念及原理
岳涛
2021-03-27
2.4K
0
Hive全库数据迁移方案
弹性 MapReduce
hive
hadoop
大数据解决方案
大数据
考虑到多数场景是迁移整个Hive数据库,该篇文章只介绍迁移的第二种,即元数据及Hive数据全量迁移。
岳涛
2021-03-24
5K
2
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档