腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据学习与分享
专注于大数据领域常用技术的学习与分享
专栏成员
举报
170
文章
219193
阅读量
44
订阅数
订阅专栏
申请加入专栏
全部文章(170)
spark(52)
大数据(48)
sql(33)
编程算法(21)
hive(21)
node.js(17)
数据库(17)
腾讯云开发者社区(17)
mapreduce(16)
hadoop(16)
数据(15)
网站(14)
存储(14)
linux(13)
kafka(13)
hbase(12)
TDSQL MySQL 版(10)
企业(9)
缓存(9)
文件存储(8)
分布式(8)
java(7)
jvm(7)
数据分析(7)
数据湖(7)
scala(6)
数据处理(6)
系统(6)
javascript(5)
api(5)
yarn(5)
flink(5)
云数据库 SQL Server(4)
云数据库 Redis(4)
数据安全(4)
数据迁移(4)
hashmap(4)
管理(4)
数据管理(4)
数据挖掘(3)
机器学习(3)
c++(3)
vr 视频解决方案(3)
http(3)
tcp/ip(3)
nest(3)
数据集成(3)
mysql(3)
架构(3)
模型(3)
数据仓库(3)
php(2)
python(2)
bash(2)
html(2)
apache(2)
神经网络(2)
日志服务(2)
日志数据(2)
电商(2)
大数据解决方案(2)
socket编程(2)
数据结构(2)
clickhouse(2)
服务(2)
解决方案(2)
开发(2)
连接(2)
设计(2)
实践(2)
对象存储(1)
servlet(1)
xml(1)
css(1)
jquery(1)
json(1)
android(1)
oracle(1)
jar(1)
tomcat(1)
analyzer(1)
bash 指令(1)
spring(1)
深度学习(1)
大数据处理套件 TBDS(1)
es 2(1)
容器(1)
开源(1)
运维(1)
压力测试(1)
网络安全(1)
jdk(1)
面向对象编程(1)
zookeeper(1)
grep(1)
rpc(1)
安全(1)
windows(1)
架构设计(1)
聚类算法(1)
es(1)
Elasticsearch Service(1)
智能制造(1)
etl(1)
informatica(1)
it(1)
presto(1)
产品(1)
对象(1)
基础(1)
框架(1)
流量(1)
配置(1)
日志(1)
事务(1)
数据中心(1)
同步(1)
统计(1)
性能(1)
主机(1)
数据建模(1)
数据架构(1)
搜索文章
搜索
搜索
关闭
SparkSQL并行执行多个Job的探索
spark
sql
数据库
linux
编程算法
Spark是以TaskSetManager为单元来调度任务的。通常情况下,任务队列中只会有一个TaskSetManager,而通过多线程提交多个Job时,则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下,谁会从队列里被取出来执行就取决于相应的调度策略了。目前,Spark支持FIFO和FAIR两种调度策略。
大数据学习与分享
2022-05-19
803
0
如何获取Yarn和Spark UI界面指标信息
spark
http
hadoop
tcp/ip
yarn
ip和port:Yarn ResourceManager active节点的ip地址和端口号
大数据学习与分享
2021-09-24
999
0
Hadoop和Spark技术分享.ppt
spark
hive
linux
mapreduce
Why Hive 相对于使用MapReduce,为什么使用Hive ? MapReduce实现复杂业务逻辑开发难度大 Hive提供类SQL语法,避免写MapReduce程序,开发相对快速 扩展功能方便,支持自定义函数 适合于做数据仓库工具,如ETL处理,数据分析等 Why Spark 1. Spark 集流批处理、交互式查询、机器学习及图计算等于一体 多线程模型,每个worker节点运行一个或多个executor服务,每个task作为线程运行在executor中,task间可共享资源 基于
大数据学习与分享
2021-07-15
1.3K
0
自适应查询执行:在运行时提升Spark SQL执行性能
spark
sql
Catalyst是Spark SQL核心优化器,早期主要基于规则的优化器RBO,后期又引入基于代价进行优化的CBO。但是在这些版本中,Spark SQL执行计划一旦确定就不会改变。由于缺乏或者不准确的数据统计信息(如行数、不同值的数量、NULL值、最大/最小值等)和对成本的错误估算导致生成的初始计划不理想,从而导致执行效率相对低下。
大数据学习与分享
2020-11-26
2.3K
0
Kafka集群消息积压问题及处理策略
kafka
spark
通常情况下,企业中会采取轮询或者随机的方式,通过Kafka的producer向Kafka集群生产数据,来尽可能保证Kafk分区之间的数据是均匀分布的。
大数据学习与分享
2020-11-26
2.5K
0
SparkSQL真的不支持存储NullType类型数据到Parquet吗?
spark
kafka
数据库
sql
hive
最近后台有小伙伴提了一些实际工作中使用Spark遇到的问题,笔者挑选了几个相对常见的问题,分别从场景模拟/问题现象、问题分析、解决方案三个层面,来深入分析这些问题,并且提供一个解决类似问题的思路。
大数据学习与分享
2020-11-03
2.7K
0
Spark在处理数据的时候,会将数据都加载到内存再做处理吗?
spark
java
sql
缓存
对于Spark的初学者,往往会有一个疑问:Spark(如SparkRDD、SparkSQL)在处理数据的时候,会将数据都加载到内存再做处理吗?
大数据学习与分享
2020-09-14
1.2K
0
SparkStreaming和Kafka基于Direct Approach如何管理offset
kafka
node.js
spark
zookeeper
在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Direct Approach。同时对比了二者的优劣势,以及针对不同的Spark、Kafka集成版本处理方式的支持:
大数据学习与分享
2020-09-14
591
0
spark和kafka jar包冲突NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream
spark
kafka
大数据
在利用Spark和Kafka处理数据时,有时会同时在maven pom中引入Spark和Kafka的相关依赖。但是当利用Spark SQL处理数据生成的DataSet/DataFrame进行collect或者show等操作时,抛出以下异常信息:
大数据学习与分享
2020-08-31
1.3K
0
Apache Spark 3.0.0重磅发布 —— 重要特性全面解析
api
sql
spark
2020年6月18日,开发了近两年(自2018年10月份至今)的Apache SparkTM 3.0.0正式发布!
大数据学习与分享
2020-08-10
2.3K
0
如何获取流式应用程序中checkpoint的最新offset
node.js
spark
kafka
flink
大数据
对于流式应用程序,保证应用7*24小时的稳定运行,是非常必要的。因此对于计算引擎,要求必须能够适应与应用程序逻辑本身无关的问题(比如driver应用失败重启、网络问题、服务器问题、JVM崩溃等),具有自动容错恢复的功能。
大数据学习与分享
2020-08-10
1.3K
0
Spark MLlib中KMeans聚类算法的解析和应用
聚类算法
spark
c++
机器学习
编程算法
聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为、兴趣等来构建推荐系统。
大数据学习与分享
2020-08-10
1.1K
0
SparkSQL中产生笛卡尔积的几种典型场景以及处理策略
spark
nest
sql
数据库
【前言:如果你经常使用Spark SQL进行数据的处理分析,那么对笛卡尔积的危害性一定不陌生,比如大量占用集群资源导致其他任务无法正常执行,甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积,以及如何事前"预测"写的SQL会产生笛卡尔积从而避免呢?(以下不考虑业务需求确实需要笛卡尔积的场景)】
大数据学习与分享
2020-08-10
2.2K
0
通过Spark生成HFile,并以BulkLoad方式将数据导入到HBase
hbase
TDSQL MySQL 版
spark
hive
api
在实际生产环境中,将计算和存储进行分离,是我们提高集群吞吐量、确保集群规模水平可扩展的主要方法之一,并且通过集群的扩容、性能的优化,确保在数据大幅增长时,存储不能称为系统的瓶颈。
大数据学习与分享
2020-08-10
2.4K
0
Spark SQL中Not in Subquery为何低效以及如何规避
nest
spark
sql
通过上述逻辑计划和物理计划可以看出,Spark SQL在对not in subquery处理,从逻辑计划转换为物理计划时,会最终选择BroadcastNestedLoopJoin(对应到Spark源码中BroadcastNestedLoopJoinExec.scala)策略。
大数据学习与分享
2020-08-10
2.2K
0
SparkSQL与Hive metastore Parquet转换
hive
c++
sql
spark
html
Spark SQL为了更好的性能,在读写Hive metastore parquet格式的表时,会默认使用自己的Parquet SerDe,而不是采用Hive的SerDe进行序列化和反序列化。该行为可以通过配置参数spark.sql.hive.convertMetastoreParquet进行控制,默认true。
大数据学习与分享
2020-08-10
1.6K
0
Spark存储Parquet数据到Hive,对map、array、struct字段类型的处理
hive
sql
存储
spark
利用Spark往Hive中存储parquet数据,针对一些复杂数据类型如map、array、struct的处理遇到的问题?
大数据学习与分享
2020-08-10
2.3K
0
对Spark硬件配置的建议
hadoop
node.js
spark
mapreduce
大数据
对于Spark开发人员来说,一个比较普遍的问题就是如何合理的配置Spark的硬件?当然如何合理的对Spark集群进行硬件配置要视情况而定,在这里给出以下建议:
大数据学习与分享
2020-08-10
1.3K
0
Spark SQL 小文件问题处理
hive
spark
sql
在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼的事情。
大数据学习与分享
2020-08-10
2.6K
0
Spark集群和任务执行
spark
yarn
mapreduce
node.js
Driver:Spark框架中的驱动器,运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster
大数据学习与分享
2020-08-10
378
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档