腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据学习与分享
专注于大数据领域常用技术的学习与分享
专栏成员
举报
170
文章
218452
阅读量
44
订阅数
订阅专栏
申请加入专栏
全部文章(170)
spark(52)
大数据(48)
sql(33)
编程算法(21)
hive(21)
node.js(17)
数据库(17)
腾讯云开发者社区(17)
mapreduce(16)
hadoop(16)
数据(15)
网站(14)
存储(14)
linux(13)
kafka(13)
hbase(12)
TDSQL MySQL 版(10)
企业(9)
缓存(9)
文件存储(8)
分布式(8)
java(7)
jvm(7)
数据分析(7)
数据湖(7)
scala(6)
数据处理(6)
系统(6)
javascript(5)
api(5)
yarn(5)
flink(5)
云数据库 SQL Server(4)
云数据库 Redis(4)
数据安全(4)
数据迁移(4)
hashmap(4)
管理(4)
数据管理(4)
数据挖掘(3)
机器学习(3)
c++(3)
vr 视频解决方案(3)
http(3)
tcp/ip(3)
nest(3)
数据集成(3)
mysql(3)
架构(3)
模型(3)
数据仓库(3)
php(2)
python(2)
bash(2)
html(2)
apache(2)
神经网络(2)
日志服务(2)
日志数据(2)
电商(2)
大数据解决方案(2)
socket编程(2)
数据结构(2)
clickhouse(2)
服务(2)
解决方案(2)
开发(2)
连接(2)
设计(2)
实践(2)
对象存储(1)
servlet(1)
xml(1)
css(1)
jquery(1)
json(1)
android(1)
oracle(1)
jar(1)
tomcat(1)
analyzer(1)
bash 指令(1)
spring(1)
深度学习(1)
大数据处理套件 TBDS(1)
es 2(1)
容器(1)
开源(1)
运维(1)
压力测试(1)
网络安全(1)
jdk(1)
面向对象编程(1)
zookeeper(1)
grep(1)
rpc(1)
安全(1)
windows(1)
架构设计(1)
聚类算法(1)
es(1)
Elasticsearch Service(1)
智能制造(1)
etl(1)
informatica(1)
it(1)
presto(1)
产品(1)
对象(1)
基础(1)
框架(1)
流量(1)
配置(1)
日志(1)
事务(1)
数据中心(1)
同步(1)
统计(1)
性能(1)
主机(1)
数据建模(1)
数据架构(1)
搜索文章
搜索
搜索
关闭
Linux 内存中的缓冲区(Buffer)与缓存(Cache)
腾讯云开发者社区
linux
缓存
但是让我问你,由于 Buffer 只是将写入磁盘的数据的缓存。反过来,它还会缓存从磁盘读取的数据吗?或者 Cache 是从文件中读取数据的缓存,那么它是否也为写入文件缓存数据呢?
大数据学习与分享
2023-02-26
3.4K
0
SparkSQL并行执行多个Job的探索
spark
sql
数据库
linux
编程算法
Spark是以TaskSetManager为单元来调度任务的。通常情况下,任务队列中只会有一个TaskSetManager,而通过多线程提交多个Job时,则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下,谁会从队列里被取出来执行就取决于相应的调度策略了。目前,Spark支持FIFO和FAIR两种调度策略。
大数据学习与分享
2022-05-19
801
0
Hadoop和Spark技术分享.ppt
spark
hive
linux
mapreduce
Why Hive 相对于使用MapReduce,为什么使用Hive ? MapReduce实现复杂业务逻辑开发难度大 Hive提供类SQL语法,避免写MapReduce程序,开发相对快速 扩展功能方便,支持自定义函数 适合于做数据仓库工具,如ETL处理,数据分析等 Why Spark 1. Spark 集流批处理、交互式查询、机器学习及图计算等于一体 多线程模型,每个worker节点运行一个或多个executor服务,每个task作为线程运行在executor中,task间可共享资源 基于
大数据学习与分享
2021-07-15
1.3K
0
Hive Query生命周期 —— 钩子(Hook)函数篇
hive
linux
hadoop
mapreduce
analyzer
无论你通过哪种方式连接Hive(如Hive Cli、HiveServer2),一个HQL语句都要经过Driver的解析和执行,主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。
大数据学习与分享
2020-08-10
3.7K
1
Hadoop支持的压缩格式对比和应用场景以及Hadoop native库
hadoop
文件存储
mapreduce
javascript
linux
对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。
大数据学习与分享
2020-08-10
640
0
linux系统层面调优和常见的面试题
grep
linux
无论对Spark集群,还是Hadoop集群等大数据相关的集群进行调优,对linux系统层面的调优都是必不可少的,这里主要介绍3种常用的调优:
大数据学习与分享
2020-08-10
923
0
从内存泄露、内存溢出和堆外内存,JVM优化参数配置参数
jvm
企业
linux
内存泄漏是指程序在申请内存后,无法释放已申请的内存空间,无用对象(不再使用的对象)持续占有内存或无用对象的内存得不到及时释放,从而造成内存空间的浪费。
大数据学习与分享
2020-08-10
1.4K
0
Spark中广播变量详解以及如何动态更新广播变量
编程算法
vr 视频解决方案
linux
文件存储
存储
【前言:Spark目前提供了两种有限定类型的共享变量:广播变量和累加器,今天主要介绍一下基于Spark2.4版本的广播变量。先前的版本比如Spark2.1之前的广播变量有两种实现:HttpBroadcast和TorrentBroadcast,但是鉴于HttpBroadcast有各种弊端,目前已经舍弃这种实现,本篇文章也主要阐述TorrentBroadcast】
大数据学习与分享
2020-08-10
4.6K
0
不可不知的Spark调优点
linux
文件存储
jvm
spark
kafka
在利用Spark处理数据时,如果数据量不大,那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候,就需要做一定的参数配置调整和优化,以保证业务的安全、稳定的运行。并且在实际优化中,要考虑不同的场景,采取不同的优化策略。
大数据学习与分享
2020-08-10
514
0
解析SparkStreaming和Kafka集成的两种方式
spark
kafka
linux
node.js
spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。
大数据学习与分享
2020-08-10
550
0
Spark闭包 | driver & executor程序代码执行
linux
文件存储
编程算法
spark
javascript
闭包的作用可以理解为:函数可以访问函数外部定义的变量,但是函数内部对该变量进行的修改,在函数外是不可见的,即对函数外源变量不会产生影响。
大数据学习与分享
2020-08-10
1.6K
0
Spark和MapReduce任务计算模型
spark
linux
jvm
mapreduce
编程算法
【前言:本文主要从任务处理的运行模式为角度,分析Spark计算模型,希望帮助大家对Spark有一个更深入的了解。同时拿MapReduce和Spark计算模型做对比,强化对Spark和MapReduce理解】
大数据学习与分享
2020-08-10
499
0
linux系统层面调优和常见的面试题
linux
大数据
无论对Spark集群,还是Hadoop集群等大数据相关的集群进行调优,对linux系统层面的调优都是必不可少的,这里主要介绍3种常用的调优:
大数据学习与分享
2020-07-19
1K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档