腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据生态

本专栏为您分享各种大数据技术和实践经验，无论您是初学者还是资深从业者，都能在这里找到丰富的知识资源和实践分享。

专栏作者

116

文章

197152

阅读量

363

订阅数

「ES 排障指南」之 Elasticsearch 集群异常状态分析 —— 集群 YELLOW

大数据 Elasticsearch Service elasticsearch 2023腾讯·技术创作特训营第三期大数据解决方案

本文描述问题及解决方法同样适用于腾讯云 Elasticsearch Service（ES）。

2023-11-16

3.8K72

置顶

ES自治索引功能测试与介绍

Elasticsearch Service 索引 2023腾讯·技术创作特训营第三期大数据

1500条/s写入, 在写入数据doc数量2w，数据量在6-700MB间时进行落盘刷新。

2023-11-13

2161

置顶

「EMR 开发指南」之 Sqoop 常见问题处理

大数据 sqoop 弹性 MapReduce 大数据解决方案 hadoop

Sqoop是一种用于在Apache Hadoop和结构化数据存储（如关系数据库）之间传输数据的开源工具。它允许用户在Hadoop分布式文件系统（HDFS）和外部结构化数据存储之间进行数据导入和导出操作。Sqoop的主要优势在于，它可以有效地将大量数据从关系数据库迁移到Hadoop环境中，以便进行大数据分析和处理。

2024-03-01

2410

「最佳实践」借助网关双写，实现 Elasticsearch 的无缝在线迁移

大数据解决方案大数据架构设计 Elasticsearch Service elasticsearch

本文描述问题及解决方法同样适用于腾讯云 Elasticsearch Service（ES）。

2024-02-23

4926

「EMR 开发指南」之 Oozie 作业调度

2023腾讯·技术创作特训营第三期 mapreduce 大数据 emr oozie

本文将使用oozie组件自带的例子，详细介绍如何在oozie workflow上提交一个MapReduce jar。本文以oozie 4.3.1版本为例。

2023-11-30

1300

关注专栏作者，随时接收最新技术干货

腾讯大数据SRE研发工程师

腾讯科技有限公司产品架构工程师

卡奥斯产品经理

「EMR 开发指南」之 Kylin 存算分离方案

2023腾讯·技术创作特训营第三期 hadoop 大数据 emr apache kylin

在大数据领域，数据量持续增长，数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题，Apache Kylin应运而生。

2023-11-29

3181

「EMR 运维指南」之 Kylin 迁移方案

hadoop 大数据 emr apache kylin 2023腾讯·技术创作特训营第三期

在大数据领域，数据量持续增长，数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题，Apache Kylin应运而生。

2023-11-28

3701

「EMR 开发指南」之 Kylin 快速构建 Cube

大数据 emr apache kylin cube 2023腾讯·技术创作特训营第三期

在大数据领域，数据量持续增长，数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题，Apache Kylin应运而生。

2023-11-27

3330

「EMR 运维指南」之 Kerberos 跨域互信配置

2023腾讯·技术创作特训营第三期 hadoop kerberos 大数据 emr

本文以Cluster-A跨域去访问Cluster-B中的服务为例。配置完成后，Cluster-A在获取到本集群KDC授予的TGT（Ticket Granting Ticket）后，能够跨域访问Cluster-B中的服务。本文配置的跨域互信是单向的，即Cluster-B无法跨域访问Cluster-A上的服务，如果需要实现双向跨域互信，按照同样的方法交换配置即可。在两个集群在emr-header-1节点上，执行 hostname 命令获取hostname。在emr-header-1节点的/etc/krb5.conf文件中获取realm。本文使用的两个集群信息示例如下：

2023-11-24

5070

「EMR 运维指南」之 Kerberos 跨域认证方案

大数据 emr 2023腾讯·技术创作特训营第三期 hadoop kerberos

多个开启 kerberos 的 hadoop 集群之间要做通信（跨集群的数据迁移等），因为 Kerberos 原因无法正常进行，本文档说明了多 kerberos 集群下做跨域认证的方法。

2023-11-23

3600

Elasticsearch 自动化在线迁移方案设计手册

数据迁移大数据 Elasticsearch Service elasticsearch 2023腾讯·技术创作特训营第三期

本文描述问题及解决方法同样适用于腾讯云 Elasticsearch Service（ES）。

2023-11-22

1.1K0

「EMR 开发指南」之通过 Python 连接 Hive

hdfs 2023腾讯·技术创作特训营第三期 hadoop hive 大数据

Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架，它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的，所以能让不同的语言如 Java、Python 来调用 Hive 的接口。本节将演示如何使用 Python 代码来连接 HiveServer2。

2023-11-22

4431

「EMR 开发指南」之通过 Java 连接 Hivesever2

hdfs 2023腾讯·技术创作特训营第三期 hadoop hive 大数据

Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架，它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的，所以能让不同的语言如 Java、Python 来调用 Hive 的接口。对于 Java，Hive 提供了 jdbc 驱动，用户可以使用 Java 代码来连接 Hive 并进行一系列操作。本节将演示如何使用 Java 代码来连接 HiveServer2

2023-11-21

4911

Hive 基础操作

hive 大数据 2023腾讯·技术创作特训营第三期

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

2023-11-20

2770

Hive 跨文件系统存储数据

hadoop hive 大数据 hdfs 2023腾讯·技术创作特训营第三期

Hive指定表的存储路径： hive可以在创建表的时候通过location指定表的存储路径，若不指定localtion则文件默认存储在hive-site.xml配置文件中hive.metastore.warehouse.dir配置项指向的路径。此外，Hive的分区表还可以指定分区的存储路径。通过如下语句可以给分区指定：

2023-11-20

2290

Spark读写ES最佳实践

Elasticsearch Service 2023腾讯·技术创作特训营第三期 spark 大数据

更换代码中公网ip为内网ip，选择maven assembly plugin进行打包，上传带依赖的jar包到EMR上，运行"ReadES"

2023-11-14

2990

Elasticsearch 索引容量分组工具使用指南

大数据迁移 elasticsearch

本文描述问题及解决方法同样适用于腾讯云 Elasticsearch Service（ES）。

2023-10-20

4541

复盘：某客户ES上云问题案例总结

性能优化大数据解决方案大数据 Elasticsearch Service elasticsearch

本文描述问题及解决方法同样适用于腾讯云 Elasticsearch Service（ES）。

2023-09-22

1.1K0

Elasticsearch 8.8 原生向量检索性能测试

大数据性能测试 Elasticsearch Service elasticsearch

本文描述问题及解决方法同样适用于腾讯云 Elasticsearch Service（ES）。

2023-09-06

1.6K0

Elasticsearch数据在线迁移方案

大数据解决方案数据迁移大数据 Elasticsearch Service elasticsearch

本文描述问题及解决方法同样适用于腾讯云 Elasticsearch Service（ES）。

2023-08-31

7420

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态