大数据学习与分享-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享

专栏成员

170

文章

218452

阅读量

44

订阅数

Linux 内存中的缓冲区（Buffer）与缓存（Cache）

腾讯云开发者社区 linux 缓存

但是让我问你，由于 Buffer 只是将写入磁盘的数据的缓存。反过来，它还会缓存从磁盘读取的数据吗？或者 Cache 是从文件中读取数据的缓存，那么它是否也为写入文件缓存数据呢？

大数据学习与分享

2023-02-26

3.4K0

SparkSQL并行执行多个Job的探索

spark sql 数据库 linux 编程算法

Spark是以TaskSetManager为单元来调度任务的。通常情况下，任务队列中只会有一个TaskSetManager，而通过多线程提交多个Job时，则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下，谁会从队列里被取出来执行就取决于相应的调度策略了。目前，Spark支持FIFO和FAIR两种调度策略。

大数据学习与分享

2022-05-19

8010

Hadoop和Spark技术分享.ppt

spark hive linux mapreduce

Why Hive 相对于使用MapReduce，为什么使用Hive ？ MapReduce实现复杂业务逻辑开发难度大 Hive提供类SQL语法，避免写MapReduce程序，开发相对快速扩展功能方便，支持自定义函数适合于做数据仓库工具，如ETL处理，数据分析等 Why Spark 1. Spark 集流批处理、交互式查询、机器学习及图计算等于一体多线程模型，每个worker节点运行一个或多个executor服务，每个task作为线程运行在executor中，task间可共享资源基于

大数据学习与分享

2021-07-15

1.3K0

Hive Query生命周期 —— 钩子（Hook）函数篇

hive linux hadoop mapreduce analyzer

无论你通过哪种方式连接Hive（如Hive Cli、HiveServer2），一个HQL语句都要经过Driver的解析和执行，主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。

大数据学习与分享

2020-08-10

3.7K1

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

hadoop 文件存储 mapreduce javascript linux

对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的，而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。

大数据学习与分享

2020-08-10

6400

linux系统层面调优和常见的面试题

无论对Spark集群，还是Hadoop集群等大数据相关的集群进行调优，对linux系统层面的调优都是必不可少的，这里主要介绍3种常用的调优：

大数据学习与分享

2020-08-10

9230

从内存泄露、内存溢出和堆外内存，JVM优化参数配置参数

jvm 企业 linux

内存泄漏是指程序在申请内存后，无法释放已申请的内存空间，无用对象（不再使用的对象）持续占有内存或无用对象的内存得不到及时释放，从而造成内存空间的浪费。

大数据学习与分享

2020-08-10

1.4K0

Spark中广播变量详解以及如何动态更新广播变量

编程算法 vr 视频解决方案 linux 文件存储存储

【前言：Spark目前提供了两种有限定类型的共享变量：广播变量和累加器，今天主要介绍一下基于Spark2.4版本的广播变量。先前的版本比如Spark2.1之前的广播变量有两种实现：HttpBroadcast和TorrentBroadcast，但是鉴于HttpBroadcast有各种弊端，目前已经舍弃这种实现，本篇文章也主要阐述TorrentBroadcast】

大数据学习与分享

2020-08-10

4.6K0

不可不知的Spark调优点

linux 文件存储 jvm spark kafka

在利用Spark处理数据时，如果数据量不大，那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候，就需要做一定的参数配置调整和优化，以保证业务的安全、稳定的运行。并且在实际优化中，要考虑不同的场景，采取不同的优化策略。

大数据学习与分享

2020-08-10

5140

解析SparkStreaming和Kafka集成的两种方式

spark kafka linux node.js

spark streaming是基于微批处理的流式计算引擎，通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中，通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。

大数据学习与分享

2020-08-10

5500

Spark闭包 | driver & executor程序代码执行

linux 文件存储编程算法 spark javascript

闭包的作用可以理解为：函数可以访问函数外部定义的变量，但是函数内部对该变量进行的修改，在函数外是不可见的，即对函数外源变量不会产生影响。

大数据学习与分享

2020-08-10

1.6K0

Spark和MapReduce任务计算模型

spark linux jvm mapreduce 编程算法

【前言：本文主要从任务处理的运行模式为角度，分析Spark计算模型，希望帮助大家对Spark有一个更深入的了解。同时拿MapReduce和Spark计算模型做对比，强化对Spark和MapReduce理解】

大数据学习与分享

2020-08-10

4990

linux系统层面调优和常见的面试题

linux 大数据

无论对Spark集群，还是Hadoop集群等大数据相关的集群进行调优，对linux系统层面的调优都是必不可少的，这里主要介绍3种常用的调优：

大数据学习与分享

2020-07-19

1K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态