大数据技术架构-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据技术架构

纯大数据技术分享，HBase/Kafka/Flink等技术栈，原理与实践，源码分析等。欢迎订阅公众号：大数据技术架构

专栏成员

149

文章

352040

阅读量

96

订阅数

干货 | 再来聊一聊 Parquet 列式存储格式

hive 存储文件存储编程算法

Parquet 是 Hadoop 生态圈中主流的列式存储格式，最早是由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。

大数据技术架构

2021-08-25

3.3K0

Spark性能调优指北：性能优化和故障处理

spark mapreduce 数据库 sql 文件存储

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

大数据技术架构

2021-08-25

9490

Spark 闭包（Task not serializable）问题分析及解决

文件存储编程算法 spark scala

在编写Spark程序中，由于在map等算子内部使用了外部定义的变量和函数，从而引发Task未序列化问题。然而，Spark算子在计算过程中使用外部变量在许多情形下确实在所难免，比如在filter算子根据外部指定的条件进行过滤，map根据相应的配置进行变换等。为了解决上述Task未序列化问题，这里对其进行了研究和总结。

大数据技术架构

2021-07-29

4.5K0

再来聊一聊 Parquet 列式存储格式

hive 存储 https 网络安全文件存储

Parquet 是 Hadoop 生态圈中主流的列式存储格式，最早是由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。

大数据技术架构

2020-05-21

11.1K0

别再说你不会 ElasticSearch 调优了，都给你整理好了

缓存文件存储 Elasticsearch Service

（https://www.elastic.co/guide/en/elasticsearch/reference/current/tune-for-indexing-speed.html）

大数据技术架构

2019-08-29

5.3K0

Elasticsearch在十亿级别数据下，如何提高查询效率？

缓存文件存储 hbase TDSQL MySQL 版

本文原文（点击下面阅读原文即可进入） https://blog.csdn.net/qq_20499001/article/details/89261583

大数据技术架构

2019-08-16

1.3K0

Apache Spark 内存管理详解(下)

spark 文件存储存储缓存 hashmap

弹性分布式数据集（RDD）作为Spark最根本的数据抽象，是只读的分区记录（Partition）的集合，只能基于在稳定物理存储中的数据集上创建，或者在其他已有的RDD上执行转换（Transformation）操作产生一个新的RDD。转换后的RDD与原始的RDD之间产生的依赖关系，构成了血统（Lineage）。凭借血统，Spark保证了每一个RDD都可以被重新恢复。但RDD的所有转换都是惰性的，即只有当一个返回结果给Driver的行动（Action）发生时，Spark才会创建任务读取RDD，然后真正触发转换的执行。

大数据技术架构

2019-08-16

1.1K0

Apache Spark 内存管理详解(上)

jvm 文件存储 spark 存储 http

本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。

大数据技术架构

2019-08-16

2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态