首页
学习
活动
专区
工具
TVP
发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享
专栏成员
170
文章
218300
阅读量
44
订阅数
Linux 内存中的缓冲区(Buffer)与缓存(Cache)
但是让我问你,由于 Buffer 只是将写入磁盘的数据的缓存。反过来,它还会缓存从磁盘读取的数据吗?或者 Cache 是从文件中读取数据的缓存,那么它是否也为写入文件缓存数据呢?
大数据学习与分享
2023-02-26
3.4K0
SparkSQL并行执行多个Job的探索
Spark是以TaskSetManager为单元来调度任务的。通常情况下,任务队列中只会有一个TaskSetManager,而通过多线程提交多个Job时,则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下,谁会从队列里被取出来执行就取决于相应的调度策略了。目前,Spark支持FIFO和FAIR两种调度策略。
大数据学习与分享
2022-05-19
7990
Hadoop和Spark技术分享.ppt
Why Hive 相对于使用MapReduce,为什么使用Hive ? MapReduce实现复杂业务逻辑开发难度大 Hive提供类SQL语法,避免写MapReduce程序,开发相对快速 扩展功能方便,支持自定义函数 适合于做数据仓库工具,如ETL处理,数据分析等 Why Spark 1. Spark 集流批处理、交互式查询、机器学习及图计算等于一体 多线程模型,每个worker节点运行一个或多个executor服务,每个task作为线程运行在executor中,task间可共享资源 基于
大数据学习与分享
2021-07-15
1.3K0
Hive Query生命周期 —— 钩子(Hook)函数篇
无论你通过哪种方式连接Hive(如Hive Cli、HiveServer2),一个HQL语句都要经过Driver的解析和执行,主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。
大数据学习与分享
2020-08-10
3.7K1
Hadoop支持的压缩格式对比和应用场景以及Hadoop native库
对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。
大数据学习与分享
2020-08-10
6400
linux系统层面调优和常见的面试题
无论对Spark集群,还是Hadoop集群等大数据相关的集群进行调优,对linux系统层面的调优都是必不可少的,这里主要介绍3种常用的调优:
大数据学习与分享
2020-08-10
9230
从内存泄露、内存溢出和堆外内存,JVM优化参数配置参数
内存泄漏是指程序在申请内存后,无法释放已申请的内存空间,无用对象(不再使用的对象)持续占有内存或无用对象的内存得不到及时释放,从而造成内存空间的浪费。
大数据学习与分享
2020-08-10
1.4K0
Spark中广播变量详解以及如何动态更新广播变量
【前言:Spark目前提供了两种有限定类型的共享变量:广播变量和累加器,今天主要介绍一下基于Spark2.4版本的广播变量。先前的版本比如Spark2.1之前的广播变量有两种实现:HttpBroadcast和TorrentBroadcast,但是鉴于HttpBroadcast有各种弊端,目前已经舍弃这种实现,本篇文章也主要阐述TorrentBroadcast】
大数据学习与分享
2020-08-10
4.6K0
不可不知的Spark调优点
在利用Spark处理数据时,如果数据量不大,那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候,就需要做一定的参数配置调整和优化,以保证业务的安全、稳定的运行。并且在实际优化中,要考虑不同的场景,采取不同的优化策略。
大数据学习与分享
2020-08-10
5140
解析SparkStreaming和Kafka集成的两种方式
spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。
大数据学习与分享
2020-08-10
5500
Spark闭包 | driver & executor程序代码执行
闭包的作用可以理解为:函数可以访问函数外部定义的变量,但是函数内部对该变量进行的修改,在函数外是不可见的,即对函数外源变量不会产生影响。
大数据学习与分享
2020-08-10
1.6K0
Spark和MapReduce任务计算模型
【前言:本文主要从任务处理的运行模式为角度,分析Spark计算模型,希望帮助大家对Spark有一个更深入的了解。同时拿MapReduce和Spark计算模型做对比,强化对Spark和MapReduce理解】
大数据学习与分享
2020-08-10
4990
linux系统层面调优和常见的面试题
无论对Spark集群,还是Hadoop集群等大数据相关的集群进行调优,对linux系统层面的调优都是必不可少的,这里主要介绍3种常用的调优:
大数据学习与分享
2020-07-19
1K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档