首页
学习
活动
专区
工具
TVP
发布

大数据生态

本专栏为您分享各种大数据技术和实践经验,无论您是初学者还是资深从业者,都能在这里找到丰富的知识资源和实践分享。
专栏作者
116
文章
197152
阅读量
363
订阅数
「ES 排障指南」之 Elasticsearch 集群异常状态分析 —— 集群 YELLOW
本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。
岳涛
2023-11-16
3.8K72
置顶
ES自治索引功能测试与介绍
1500条/s写入, 在写入数据doc数量2w,数据量在6-700MB间时进行落盘刷新。
沈小翊
2023-11-13
2161
置顶
「EMR 开发指南」之 Sqoop 常见问题处理
Sqoop是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间传输数据的开源工具。它允许用户在Hadoop分布式文件系统(HDFS)和外部结构化数据存储之间进行数据导入和导出操作。Sqoop的主要优势在于,它可以有效地将大量数据从关系数据库迁移到Hadoop环境中,以便进行大数据分析和处理。
岳涛
2024-03-01
2410
「最佳实践」借助网关双写,实现 Elasticsearch 的无缝在线迁移
本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。
岳涛
2024-02-23
4926
「EMR 开发指南」之 Oozie 作业调度
本文将使用oozie组件自带的例子,详细介绍如何在oozie workflow上提交一个MapReduce jar。 本文以oozie 4.3.1版本为例。
岳涛
2023-11-30
1300
关注专栏作者,随时接收最新技术干货
岳涛
腾讯大数据SRE研发工程师
王旭平
腾讯科技有限公司产品架构工程师
用户8411147
卡奥斯产品经理
「EMR 开发指南」之 Kylin 存算分离方案
在大数据领域,数据量持续增长,数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题,Apache Kylin应运而生。
岳涛
2023-11-29
3181
「EMR 运维指南」之 Kylin 迁移方案
在大数据领域,数据量持续增长,数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题,Apache Kylin应运而生。
岳涛
2023-11-28
3701
「EMR 开发指南」之 Kylin 快速构建 Cube
在大数据领域,数据量持续增长,数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题,Apache Kylin应运而生。
岳涛
2023-11-27
3330
「EMR 运维指南」之 Kerberos 跨域互信配置
本文以Cluster-A跨域去访问Cluster-B中的服务为例。配置完成后,Cluster-A在获取到本集群KDC授予的TGT(Ticket Granting Ticket)后,能够跨域访问Cluster-B中的服务。本文配置的跨域互信是单向的,即Cluster-B无法跨域访问Cluster-A上的服务,如果需要实现双向跨域互信,按照同样的方法交换配置即可。 在两个集群在emr-header-1节点上,执行 hostname 命令获取hostname。在emr-header-1节点的/etc/krb5.conf文件中获取realm。本文使用的两个集群信息示例如下:
岳涛
2023-11-24
5070
「EMR 运维指南」之 Kerberos 跨域认证方案
多个开启 kerberos 的 hadoop 集群之间要做通信(跨集群的数据迁移等),因为 Kerberos 原因无法正常进行,本文档说明了多 kerberos 集群下做跨域认证的方法。
岳涛
2023-11-23
3600
Elasticsearch 自动化在线迁移方案设计手册
本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。
岳涛
2023-11-22
1.1K0
「EMR 开发指南」之通过 Python 连接 Hive
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。 本节将演示如何使用 Python 代码来连接 HiveServer2。
岳涛
2023-11-22
4431
「EMR 开发指南」之通过 Java 连接 Hivesever2
Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。对于 Java,Hive 提供了 jdbc 驱动,用户可以使用 Java 代码来连接 Hive 并进行一系列操作。 本节将演示如何使用 Java 代码来连接 HiveServer2
岳涛
2023-11-21
4911
Hive 基础操作
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
Golvi
2023-11-20
2770
Hive 跨文件系统存储数据
Hive指定表的存储路径: hive可以在创建表的时候通过location指定表的存储路径,若不指定localtion则文件默认存储在hive-site.xml配置文件中hive.metastore.warehouse.dir配置项指向的路径。 此外,Hive的分区表还可以指定分区的存储路径。通过如下语句可以给分区指定:
蕾崽
2023-11-20
2290
Spark读写ES最佳实践
更换代码中公网ip为内网ip,选择maven assembly plugin进行打包,上传带依赖的jar包到EMR上,运行"ReadES"
沈小翊
2023-11-14
2990
Elasticsearch 索引容量分组工具使用指南
本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。
岳涛
2023-10-20
4541
复盘:某客户ES上云问题案例总结
本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。
岳涛
2023-09-22
1.1K0
Elasticsearch 8.8 原生向量检索性能测试
本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。
岳涛
2023-09-06
1.6K0
Elasticsearch数据在线迁移方案
本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。
岳涛
2023-08-31
7420
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档