大数据学习与分享-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享

专栏成员

170

文章

219193

阅读量

44

订阅数

SparkSQL并行执行多个Job的探索

spark sql 数据库 linux 编程算法

Spark是以TaskSetManager为单元来调度任务的。通常情况下，任务队列中只会有一个TaskSetManager，而通过多线程提交多个Job时，则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下，谁会从队列里被取出来执行就取决于相应的调度策略了。目前，Spark支持FIFO和FAIR两种调度策略。

大数据学习与分享

2022-05-19

8030

如何获取Yarn和Spark UI界面指标信息

spark http hadoop tcp/ip yarn

ip和port：Yarn ResourceManager active节点的ip地址和端口号

大数据学习与分享

2021-09-24

9990

Hadoop和Spark技术分享.ppt

spark hive linux mapreduce

Why Hive 相对于使用MapReduce，为什么使用Hive ？ MapReduce实现复杂业务逻辑开发难度大 Hive提供类SQL语法，避免写MapReduce程序，开发相对快速扩展功能方便，支持自定义函数适合于做数据仓库工具，如ETL处理，数据分析等 Why Spark 1. Spark 集流批处理、交互式查询、机器学习及图计算等于一体多线程模型，每个worker节点运行一个或多个executor服务，每个task作为线程运行在executor中，task间可共享资源基于

大数据学习与分享

2021-07-15

1.3K0

自适应查询执行：在运行时提升Spark SQL执行性能

Catalyst是Spark SQL核心优化器，早期主要基于规则的优化器RBO，后期又引入基于代价进行优化的CBO。但是在这些版本中，Spark SQL执行计划一旦确定就不会改变。由于缺乏或者不准确的数据统计信息（如行数、不同值的数量、NULL值、最大/最小值等）和对成本的错误估算导致生成的初始计划不理想，从而导致执行效率相对低下。

大数据学习与分享

2020-11-26

2.3K0

Kafka集群消息积压问题及处理策略

通常情况下，企业中会采取轮询或者随机的方式，通过Kafka的producer向Kafka集群生产数据，来尽可能保证Kafk分区之间的数据是均匀分布的。

大数据学习与分享

2020-11-26

2.5K0

SparkSQL真的不支持存储NullType类型数据到Parquet吗?

spark kafka 数据库 sql hive

最近后台有小伙伴提了一些实际工作中使用Spark遇到的问题，笔者挑选了几个相对常见的问题，分别从场景模拟/问题现象、问题分析、解决方案三个层面，来深入分析这些问题，并且提供一个解决类似问题的思路。

大数据学习与分享

2020-11-03

2.7K0

Spark在处理数据的时候，会将数据都加载到内存再做处理吗？

spark java sql 缓存

对于Spark的初学者，往往会有一个疑问：Spark（如SparkRDD、SparkSQL）在处理数据的时候，会将数据都加载到内存再做处理吗？

大数据学习与分享

2020-09-14

1.2K0

SparkStreaming和Kafka基于Direct Approach如何管理offset

kafka node.js spark zookeeper

在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Direct Approach。同时对比了二者的优劣势，以及针对不同的Spark、Kafka集成版本处理方式的支持：

大数据学习与分享

2020-09-14

5910

spark和kafka jar包冲突NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream

spark kafka 大数据

在利用Spark和Kafka处理数据时，有时会同时在maven pom中引入Spark和Kafka的相关依赖。但是当利用Spark SQL处理数据生成的DataSet/DataFrame进行collect或者show等操作时，抛出以下异常信息：

大数据学习与分享

2020-08-31

1.3K0

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache SparkTM 3.0.0正式发布！

大数据学习与分享

2020-08-10

2.3K0

如何获取流式应用程序中checkpoint的最新offset

node.js spark kafka flink 大数据

对于流式应用程序，保证应用7*24小时的稳定运行，是非常必要的。因此对于计算引擎，要求必须能够适应与应用程序逻辑本身无关的问题（比如driver应用失败重启、网络问题、服务器问题、JVM崩溃等），具有自动容错恢复的功能。

大数据学习与分享

2020-08-10

1.3K0

Spark MLlib中KMeans聚类算法的解析和应用

聚类算法 spark c++机器学习编程算法

聚类算法是机器学习中的一种无监督学习算法，它在数据科学领域应用场景很广泛，比如基于用户购买行为、兴趣等来构建推荐系统。

大数据学习与分享

2020-08-10

1.1K0

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

spark nest sql 数据库

【前言：如果你经常使用Spark SQL进行数据的处理分析，那么对笛卡尔积的危害性一定不陌生，比如大量占用集群资源导致其他任务无法正常执行，甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积，以及如何事前"预测"写的SQL会产生笛卡尔积从而避免呢？（以下不考虑业务需求确实需要笛卡尔积的场景）】

大数据学习与分享

2020-08-10

2.2K0

通过Spark生成HFile，并以BulkLoad方式将数据导入到HBase

hbase TDSQL MySQL 版 spark hive api

在实际生产环境中，将计算和存储进行分离，是我们提高集群吞吐量、确保集群规模水平可扩展的主要方法之一，并且通过集群的扩容、性能的优化，确保在数据大幅增长时，存储不能称为系统的瓶颈。

大数据学习与分享

2020-08-10

2.4K0

Spark SQL中Not in Subquery为何低效以及如何规避

通过上述逻辑计划和物理计划可以看出，Spark SQL在对not in subquery处理，从逻辑计划转换为物理计划时，会最终选择BroadcastNestedLoopJoin（对应到Spark源码中BroadcastNestedLoopJoinExec.scala）策略。

大数据学习与分享

2020-08-10

2.2K0

SparkSQL与Hive metastore Parquet转换

hive c++sql spark html

Spark SQL为了更好的性能，在读写Hive metastore parquet格式的表时，会默认使用自己的Parquet SerDe，而不是采用Hive的SerDe进行序列化和反序列化。该行为可以通过配置参数spark.sql.hive.convertMetastoreParquet进行控制，默认true。

大数据学习与分享

2020-08-10

1.6K0

Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理

hive sql 存储 spark

利用Spark往Hive中存储parquet数据，针对一些复杂数据类型如map、array、struct的处理遇到的问题？

大数据学习与分享

2020-08-10

2.3K0

对Spark硬件配置的建议

hadoop node.js spark mapreduce 大数据

对于Spark开发人员来说，一个比较普遍的问题就是如何合理的配置Spark的硬件？当然如何合理的对Spark集群进行硬件配置要视情况而定，在这里给出以下建议：

大数据学习与分享

2020-08-10

1.3K0

Spark SQL 小文件问题处理

在生产中，无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据，在Spark SQL写数据时，往往会遇到生成的小文件过多的问题，而管理这些大量的小文件，是一件非常头疼的事情。

大数据学习与分享

2020-08-10

2.6K0

Spark集群和任务执行

spark yarn mapreduce node.js

Driver：Spark框架中的驱动器，运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster

大数据学习与分享

2020-08-10

3780

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态