首页
学习
活动
专区
工具
TVP
发布

大数据技术栈

专栏成员
67
文章
88731
阅读量
17
订阅数
SparkSQL技巧——如何识别SQL语句 和 执行一个SQL文件
SparkSQL好像没有提供相关的Api, 至少我是没有找到。 于是我自己写了一个.... 代码很简单, 如下:
solve
2020-07-15
2.6K0
大数据OLAP框架对比
以上是在大数据处理方面常用的四种技术原理, 上面这些处理数据的方式极大程度的提高了单位时间内数据处理的能力, 但是其还是没有摆脱数据量和查询时间的线性关系。 于是在OLAP处理方式上, 我们多了一种:
solve
2020-03-20
3.9K0
架构杂记
根据目前的情况看起来,国内普遍对于flink比较看好, 从实际情况来看,flink也是以后的发展方向, 但是目前Spark的活跃程度远高于Flink, 很难说Spark以后的底层不会也才有flink这种方式,
solve
2020-02-25
5400
Spark总结篇(一)
1.Spark可以基于内存处理数据,MR每次要落地磁盘 2.Spark有DAG有向无环图优化 3.Spark是粗粒度资源申请,MR是细粒度资源申请 4.Spark中有各种算子 ,MR中只有map 和reduce 5.Spark的shuffle 向对于MR来说有自己的优化同时有bypass机制
solve
2019-10-30
5930
Spark系列 —— 各类算子详解(一)
本文主要是一篇总结性文章, 将列举绝大部分的 Spark Transformation算子及其使用方法 和一些使用场景。
solve
2019-10-30
9770
Spark随笔 —— RDD 与 DataSet
本篇文章进对 RDD 和 DataSet 进行对比和总结。 当然因为随笔,所以想到哪写到哪... 哎~,最近变懒了,都不想动脑子了!!!
solve
2019-10-30
5360
Spark系列——关于 mapPartitions的误区
今天 Review 了一下同事的代码, 发现其代码中有非常多的 mapPartitions, 问其原因,他说性能比 map 更好。 我说为什么性能好呢? 于是就有了这篇文章
solve
2019-10-30
1.4K0
mysql系列——事务(Transaction)详解
这个其实用脚趾头想想也知道它的重要性,举个简单的例子: 一个用户提交了一个订单,那么这条数据包含了两个信息,用户信息 和购买的 商品信息,我需要把他们分别存到 用户表 和 商品表,如果不采用事务,可能会出现,商品信息插入成功,而用户信息没有,这时候就会出现无主商品了,用户付了钱,却得不到商品,这就尴尬了,而如果采用事务,就可以保证,用户信息 和 商品信息 都必须插入成功,该次事务才算成功,那就不会出现这种问题了
solve
2019-10-30
5970
Spark系列--OutputFormat 详解
定义了 spark 的输出规则的类。这也许会让你想到 Hadoop Mapreduce 的 OutputFormat,没错,其实他们是一个东西,嗯,完全一样。Spark 本身只是一个计算框架,其输入和输出都是依赖于 Hadoop 的 OutputFormat,但是因为 Spark 本身自带 Hadoop 相关 Jar 包,所以不需要我们额外考虑这些东西,下面我们以saveAsTextFile源码来验证我们的结论
solve
2019-10-30
1K0
Hbase 入门知识点总结
其源于 Google 三大论文之一的 bigtable ,是一个具有高可靠性、高性能、面向列、可伸缩的分布式存储系统,简单来说就是一个数据库。
solve
2019-10-30
1.1K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档