腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据学习与分享
专注于大数据领域常用技术的学习与分享
专栏成员
举报
170
文章
218191
阅读量
44
订阅数
订阅专栏
申请加入专栏
全部文章(170)
spark(52)
大数据(48)
sql(33)
编程算法(21)
hive(21)
node.js(17)
数据库(17)
腾讯云开发者社区(17)
mapreduce(16)
hadoop(16)
数据(15)
网站(14)
存储(14)
linux(13)
kafka(13)
hbase(12)
TDSQL MySQL 版(10)
企业(9)
缓存(9)
文件存储(8)
分布式(8)
java(7)
jvm(7)
数据分析(7)
数据湖(7)
scala(6)
数据处理(6)
系统(6)
javascript(5)
api(5)
yarn(5)
flink(5)
云数据库 SQL Server(4)
云数据库 Redis(4)
数据安全(4)
数据迁移(4)
hashmap(4)
管理(4)
数据管理(4)
数据挖掘(3)
机器学习(3)
c++(3)
vr 视频解决方案(3)
http(3)
tcp/ip(3)
nest(3)
数据集成(3)
mysql(3)
架构(3)
模型(3)
数据仓库(3)
php(2)
python(2)
bash(2)
html(2)
apache(2)
神经网络(2)
日志服务(2)
日志数据(2)
电商(2)
大数据解决方案(2)
socket编程(2)
数据结构(2)
clickhouse(2)
服务(2)
解决方案(2)
开发(2)
连接(2)
设计(2)
实践(2)
对象存储(1)
servlet(1)
xml(1)
css(1)
jquery(1)
json(1)
android(1)
oracle(1)
jar(1)
tomcat(1)
analyzer(1)
bash 指令(1)
spring(1)
深度学习(1)
大数据处理套件 TBDS(1)
es 2(1)
容器(1)
开源(1)
运维(1)
压力测试(1)
网络安全(1)
jdk(1)
面向对象编程(1)
zookeeper(1)
grep(1)
rpc(1)
安全(1)
windows(1)
架构设计(1)
聚类算法(1)
es(1)
Elasticsearch Service(1)
智能制造(1)
etl(1)
informatica(1)
it(1)
presto(1)
产品(1)
对象(1)
基础(1)
框架(1)
流量(1)
配置(1)
日志(1)
事务(1)
数据中心(1)
同步(1)
统计(1)
性能(1)
主机(1)
数据建模(1)
数据架构(1)
搜索文章
搜索
搜索
关闭
Kafka Streams - 抑制
kafka
mapreduce
腾讯云开发者社区
在这篇文章中,我将解释Kafka Streams抑制的概念。尽管它看起来很容易理解,但还是有一些内在的问题/事情是必须要了解的。这是我上一篇博文CDC分析的延续。
大数据学习与分享
2022-12-12
1.5K
0
Hadoop和Spark技术分享.ppt
spark
hive
linux
mapreduce
Why Hive 相对于使用MapReduce,为什么使用Hive ? MapReduce实现复杂业务逻辑开发难度大 Hive提供类SQL语法,避免写MapReduce程序,开发相对快速 扩展功能方便,支持自定义函数 适合于做数据仓库工具,如ETL处理,数据分析等 Why Spark 1. Spark 集流批处理、交互式查询、机器学习及图计算等于一体 多线程模型,每个worker节点运行一个或多个executor服务,每个task作为线程运行在executor中,task间可共享资源 基于
大数据学习与分享
2021-07-15
1.3K
0
Hive常用性能优化方法实践全面总结
hive
sql
mapreduce
文件存储
javascript
Apache Hive作为处理大数据量的大数据领域数据建设核心工具,数据量往往不是影响Hive执行效率的核心因素,数据倾斜、job数分配的不合理、磁盘或网络I/O过高、MapReduce配置的不合理等等才是影响Hive性能的关键。
大数据学习与分享
2020-12-14
2.6K
0
Hive Query生命周期 —— 钩子(Hook)函数篇
hive
linux
hadoop
mapreduce
analyzer
无论你通过哪种方式连接Hive(如Hive Cli、HiveServer2),一个HQL语句都要经过Driver的解析和执行,主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。
大数据学习与分享
2020-08-10
3.7K
1
Hadoop支持的压缩格式对比和应用场景以及Hadoop native库
hadoop
文件存储
mapreduce
javascript
linux
对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。
大数据学习与分享
2020-08-10
640
0
对Spark硬件配置的建议
hadoop
node.js
spark
mapreduce
大数据
对于Spark开发人员来说,一个比较普遍的问题就是如何合理的配置Spark的硬件?当然如何合理的对Spark集群进行硬件配置要视情况而定,在这里给出以下建议:
大数据学习与分享
2020-08-10
1.3K
0
不可不知的资源管理调度器Hadoop Yarn
mapreduce
yarn
node.js
Yarn(Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序如Spark、MapReduce分配资源和调度,不参与用户程序内部工作。同样是Master/Slave架构。
大数据学习与分享
2020-08-10
616
0
Spark集群和任务执行
spark
yarn
mapreduce
node.js
Driver:Spark框架中的驱动器,运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster
大数据学习与分享
2020-08-10
377
0
详解MapReduce(Spark和MapReduce对比铺垫篇)
mapreduce
分布式
vr 视频解决方案
数据处理
spark
本来笔者是不打算写MapReduce的,但是考虑到目前很多公司还都在用这个计算引擎,以及后续要讲的Hive原生支持的计算引擎也是MapReduce,并且为Spark和MapReduce的对比做铺垫,笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已过时,Hadoop3.X目前用的还不多,企业中目前大量运用的还是Hadoop2.X,所以以下都是基于Hadoop2.X版本的MapReduce(后续要讲的HDFS和Yarn也是)。
大数据学习与分享
2020-08-10
760
0
Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)?
spark
编程算法
mapreduce
css
Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到,Spark RDD的缓存和checkpoint是懒加载操作,只有action触发的时候才会真正执行,其实不仅是Spark RDD,在Spark其他组件如SparkStreaming中也是如此,这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子,而collect、count、saveAsTextFile、countByKey、foreach则为action算子。
大数据学习与分享
2020-08-10
1.6K
0
Hive Join优化
sql
mapreduce
hive
jvm
在阐述Hive Join具体的优化方法之前,首先看一下Hive Join的几个重要特点,在实际使用时也可以利用下列特点做相应优化:
大数据学习与分享
2020-08-10
1.1K
0
Kafka中sequence IO、PageCache、SendFile的应用详解
kafka
缓存
socket编程
mapreduce
大家都知道Kafka是将数据存储于磁盘的,而磁盘读写性能往往很差,但Kafka官方测试其数据读写速率能达到600M/s,那么为什么Kafka性能会这么高呢?
大数据学习与分享
2020-08-10
808
0
Apache Hive
数据库
sql
mapreduce
node.js
大数据
Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好、延展性好、高容错等特点,多应用于离线数仓建设。
大数据学习与分享
2020-08-10
1.2K
0
Spark和MapReduce任务计算模型
spark
linux
jvm
mapreduce
编程算法
【前言:本文主要从任务处理的运行模式为角度,分析Spark计算模型,希望帮助大家对Spark有一个更深入的了解。同时拿MapReduce和Spark计算模型做对比,强化对Spark和MapReduce理解】
大数据学习与分享
2020-08-10
499
0
重要 | Spark和MapReduce的对比以及选型
spark
mapreduce
hadoop
大数据
【前言:笔者将分两篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点;次篇则从任务处理级别运用的并行机制方面上对比,更多的是让大家对Spark为什么比MapReduce快有一个更深、更全面的认识。通过两篇文章的解读,希望帮助大家对Spark和MapReduce有一个更深入的了解,并且能够在遇到诸如"MapReduce相对于Spark的局限性?"等类似的面试题时能够得到较好地表现,顺利拿下offer】
大数据学习与分享
2020-08-05
1.5K
0
深度剖析MapReduce
mapreduce
分布式
vr 视频解决方案
数据处理
spark
【前言:考虑到目前很多公司还都在用这个计算引擎,以及后续要讲的Hive原生支持的计算引擎也是MapReduce,并且为Spark和MapReduce的对比做铺垫,笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已过时,Hadoop3.X目前用的还不多,企业中目前大量运用的还是Hadoop2.X,所以以下都是基于Hadoop2.X版本的MapReduce(后续要讲的HDFS和Yarn也是)】
大数据学习与分享
2020-07-01
643
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档