首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏成员
638
文章
1401405
阅读量
321
订阅数
【Spark重点难点】SparkSQL YYDS(上)!
Spark 社区在 1.3 版本发布了 DataFrame。那么,相比 RDD,DataFrame 到底有何不同呢?
王知无-import_bigdata
2021-12-15
9460
我说Java基础重要,你不信?来试试这几个问题
代码生成技术广泛应用于现代的数据库系统中。代码生成是将用户输入的表达式、查询、存储过程等现场编译成二进制代码再执行,相比解释执行的方式,运行效率要高很多。尤其是对于计算密集型查询、或频繁重复使用的计算过程,运用代码生成技术能达到数十倍的性能提升。
王知无-import_bigdata
2021-09-22
7400
在所有Spark模块中,我愿称SparkSQL为最强!
我们之前已经学习过了《我们在学习Spark的时候,到底在学习什么?》,这其中有一个关于SQL的重要模块:SparkSQL。
王知无-import_bigdata
2021-07-30
1.7K0
独孤九剑-Spark面试80连击(下)
场景描述:这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上,如有侵权请联系删除!
王知无-import_bigdata
2021-07-09
8710
独孤九剑-Spark面试80连击(下)
场景描述:这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上,如有侵权请联系删除!
王知无-import_bigdata
2021-07-09
1.1K0
FileSystem/JDBC/Kafka - Flink三大Connector实现原理及案例
本文分别讲述了Flink三大Connector:FileSystem Connector、JDBC Connector和Kafka Connector的源码实现和案例代码。
王知无-import_bigdata
2021-03-26
2.2K0
你不可不知的任务调度神器-AirFlow
Airflow 是一个编排、调度和监控workflow的平台,由Airbnb开源,现在在Apache Software Foundation 孵化。AirFlow 将workflow编排为tasks组成的DAGs,调度器在一组workers上按照指定的依赖关系执行tasks。同时,Airflow 提供了丰富的命令行工具和简单易用的用户界面以便用户查看和操作,并且Airflow提供了监控和报警系统。
王知无-import_bigdata
2021-01-06
3.6K0
斗转星移 | 三万字总结Kafka各个版本差异
Kafka 2.0.0引入了线程协议的变化。通过遵循下面建议的滚动升级计划,您可以保证在升级期间不会出现停机。但是,请在升级之前查看2.0.0中的重大更改。
王知无-import_bigdata
2020-09-08
2.2K0
Redis中的管道Pipeline操作
Redis默认每次执行请求都会创建和断开一次连接池的操作,如果想执行多条命令的时候会在这件事情上消耗过多的时间,因此我们可以使用Redis的管道来一次性发送多条命令并返回多个结果,节约发送命令和创建连接的时间提升效率。
王知无-import_bigdata
2020-07-28
2.8K0
创业公司数据仓库的建设
本文将重点探讨数据处理层中数据仓库的建设。早期的数据服务中存在不少问题,虽然在做运营Dashboard系统时,对后台数据服务进行了梳理,构建了数据处理的底层公共库等,但是仍然存在一些问题:
王知无-import_bigdata
2020-06-05
8330
Spark性能优化总结
Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。通过都会将数据序列化,降低其内存memory和网络带宽shuffle的消耗。
王知无-import_bigdata
2020-04-02
1.3K0
独孤九剑-Spark面试80连击(下)
场景描述:这是一个Spark的面试题合集。是我自己作为面试者和作为面试官都会被问到或者问到别人的问题,这个总结里面有大量参考了网上和书上各位老师、大佬的一些原文答案,只是希望可以给出更好的回答,一般上我都会把原文链接贴上,如有侵权请联系删除!
王知无-import_bigdata
2019-09-03
1.4K1
Spark调优 | Spark SQL参数调优
Spark SQL里面有很多的参数,而且这些参数在Spark官网中没有明确的解释,可能是太多了吧,可以通过在spark-sql中使用set -v 命令显示当前spark-sql版本支持的参数。
王知无-import_bigdata
2019-08-16
7.3K0
Spark将Dataframe数据写入Hive分区表的方案
DataFrame 将数据写入hive中时,默认的是hive默认数据库,insert into没有指定数据库的参数,数据写入hive表或者hive表分区中:
王知无-import_bigdata
2019-07-23
16K0
Spark SQL重点知识总结
Spark SQL是spark套件中一个模板,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。
王知无-import_bigdata
2019-06-20
1.8K0
Structured Streaming 实现思路与实现概述
二、从 Structured Data 到 Structured Streaming
王知无-import_bigdata
2019-06-03
1.2K0
Scala 基础语法(一)
如果你之前是一名 Java 程序员,并了解 Java 语言的基础知识,那么你能很快学会 Scala 的基础语法。
王知无-import_bigdata
2019-03-15
7370
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档