大数据学习与分享-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享

专栏成员

170

文章

218377

阅读量

44

订阅数

Kafka Streams - 抑制

kafka mapreduce 腾讯云开发者社区

在这篇文章中，我将解释Kafka Streams抑制的概念。尽管它看起来很容易理解，但还是有一些内在的问题/事情是必须要了解的。这是我上一篇博文CDC分析的延续。

大数据学习与分享

2022-12-12

1.5K0

Hadoop和Spark技术分享.ppt

spark hive linux mapreduce

Why Hive 相对于使用MapReduce，为什么使用Hive ？ MapReduce实现复杂业务逻辑开发难度大 Hive提供类SQL语法，避免写MapReduce程序，开发相对快速扩展功能方便，支持自定义函数适合于做数据仓库工具，如ETL处理，数据分析等 Why Spark 1. Spark 集流批处理、交互式查询、机器学习及图计算等于一体多线程模型，每个worker节点运行一个或多个executor服务，每个task作为线程运行在executor中，task间可共享资源基于

大数据学习与分享

2021-07-15

1.3K0

Hive常用性能优化方法实践全面总结

hive sql mapreduce 文件存储 javascript

Apache Hive作为处理大数据量的大数据领域数据建设核心工具，数据量往往不是影响Hive执行效率的核心因素，数据倾斜、job数分配的不合理、磁盘或网络I/O过高、MapReduce配置的不合理等等才是影响Hive性能的关键。

大数据学习与分享

2020-12-14

2.6K0

Hive Query生命周期 —— 钩子（Hook）函数篇

hive linux hadoop mapreduce analyzer

无论你通过哪种方式连接Hive（如Hive Cli、HiveServer2），一个HQL语句都要经过Driver的解析和执行，主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。

大数据学习与分享

2020-08-10

3.7K1

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

hadoop 文件存储 mapreduce javascript linux

对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的，而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。

大数据学习与分享

2020-08-10

6400

对Spark硬件配置的建议

hadoop node.js spark mapreduce 大数据

对于Spark开发人员来说，一个比较普遍的问题就是如何合理的配置Spark的硬件？当然如何合理的对Spark集群进行硬件配置要视情况而定，在这里给出以下建议：

大数据学习与分享

2020-08-10

1.3K0

不可不知的资源管理调度器Hadoop Yarn

mapreduce yarn node.js

Yarn（Yet Another Resource Negotiator）是一个资源调度平台，负责为运算程序如Spark、MapReduce分配资源和调度，不参与用户程序内部工作。同样是Master/Slave架构。

大数据学习与分享

2020-08-10

6160

Spark集群和任务执行

spark yarn mapreduce node.js

Driver：Spark框架中的驱动器，运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster

大数据学习与分享

2020-08-10

3780

详解MapReduce（Spark和MapReduce对比铺垫篇）

mapreduce 分布式 vr 视频解决方案数据处理 spark

本来笔者是不打算写MapReduce的，但是考虑到目前很多公司还都在用这个计算引擎，以及后续要讲的Hive原生支持的计算引擎也是MapReduce，并且为Spark和MapReduce的对比做铺垫，笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已过时，Hadoop3.X目前用的还不多，企业中目前大量运用的还是Hadoop2.X，所以以下都是基于Hadoop2.X版本的MapReduce（后续要讲的HDFS和Yarn也是）。

大数据学习与分享

2020-08-10

7610

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

spark 编程算法 mapreduce css

Spark算子主要划分为两类：transformation和action，并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到，Spark RDD的缓存和checkpoint是懒加载操作，只有action触发的时候才会真正执行，其实不仅是Spark RDD，在Spark其他组件如SparkStreaming中也是如此，这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子，而collect、count、saveAsTextFile、countByKey、foreach则为action算子。

大数据学习与分享

2020-08-10

1.6K0

Hive Join优化

sql mapreduce hive jvm

在阐述Hive Join具体的优化方法之前，首先看一下Hive Join的几个重要特点，在实际使用时也可以利用下列特点做相应优化：

大数据学习与分享

2020-08-10

1.1K0

Kafka中sequence IO、PageCache、SendFile的应用详解

kafka 缓存 socket编程 mapreduce

大家都知道Kafka是将数据存储于磁盘的，而磁盘读写性能往往很差，但Kafka官方测试其数据读写速率能达到600M/s，那么为什么Kafka性能会这么高呢？

大数据学习与分享

2020-08-10

8080

数据库 sql mapreduce node.js 大数据

Apache Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供一种HQL语言进行查询，具有扩展性好、延展性好、高容错等特点，多应用于离线数仓建设。

大数据学习与分享

2020-08-10

1.2K0

Spark和MapReduce任务计算模型

spark linux jvm mapreduce 编程算法

【前言：本文主要从任务处理的运行模式为角度，分析Spark计算模型，希望帮助大家对Spark有一个更深入的了解。同时拿MapReduce和Spark计算模型做对比，强化对Spark和MapReduce理解】

大数据学习与分享

2020-08-10

4990

重要 | Spark和MapReduce的对比以及选型

spark mapreduce hadoop 大数据

【前言：笔者将分两篇文章进行阐述Spark和MapReduce的对比，首篇侧重于"宏观"上的对比，更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点；次篇则从任务处理级别运用的并行机制方面上对比，更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。通过两篇文章的解读，希望帮助大家对Spark和MapReduce有一个更深入的了解，并且能够在遇到诸如"MapReduce相对于Spark的局限性？"等类似的面试题时能够得到较好地表现，顺利拿下offer】

大数据学习与分享

2020-08-05

1.5K0

深度剖析MapReduce

mapreduce 分布式 vr 视频解决方案数据处理 spark

【前言：考虑到目前很多公司还都在用这个计算引擎，以及后续要讲的Hive原生支持的计算引擎也是MapReduce，并且为Spark和MapReduce的对比做铺垫，笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已过时，Hadoop3.X目前用的还不多，企业中目前大量运用的还是Hadoop2.X，所以以下都是基于Hadoop2.X版本的MapReduce（后续要讲的HDFS和Yarn也是）】

大数据学习与分享

2020-07-01

6430

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态