大数据技术栈-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据技术栈

专栏成员

67

文章

88731

阅读量

17

订阅数

SparkSQL技巧——如何识别SQL语句和执行一个SQL文件

网络安全 sql spark 数据库

SparkSQL好像没有提供相关的Api，至少我是没有找到。于是我自己写了一个.... 代码很简单，如下：

2020-07-15

2.6K0

大数据OLAP框架对比

sql 数据库数据处理 hive 存储

以上是在大数据处理方面常用的四种技术原理，上面这些处理数据的方式极大程度的提高了单位时间内数据处理的能力，但是其还是没有摆脱数据量和查询时间的线性关系。于是在OLAP处理方式上，我们多了一种：

2020-03-20

3.9K0

spark sql api hadoop kafka

根据目前的情况看起来，国内普遍对于flink比较看好，从实际情况来看，flink也是以后的发展方向，但是目前Spark的活跃程度远高于Flink，很难说Spark以后的底层不会也才有flink这种方式，

2020-02-25

5400

Spark总结篇（一）

spark sql 数据分析 python scala

1.Spark可以基于内存处理数据，MR每次要落地磁盘 2.Spark有DAG有向无环图优化 3.Spark是粗粒度资源申请，MR是细粒度资源申请 4.Spark中有各种算子，MR中只有map 和reduce 5.Spark的shuffle 向对于MR来说有自己的优化同时有bypass机制

2019-10-30

5930

Spark系列 —— 各类算子详解（一）

数据库 sql javascript

本文主要是一篇总结性文章，将列举绝大部分的 Spark Transformation算子及其使用方法和一些使用场景。

2019-10-30

9770

Spark随笔 —— RDD 与 DataSet

文件存储 spark 数据处理大数据 sql

本篇文章进对 RDD 和 DataSet 进行对比和总结。当然因为随笔，所以想到哪写到哪... 哎~，最近变懒了，都不想动脑子了！！！

2019-10-30

5360

Spark系列——关于 mapPartitions的误区

java 数据库 sql spark linux

今天 Review 了一下同事的代码，发现其代码中有非常多的 mapPartitions, 问其原因，他说性能比 map 更好。我说为什么性能好呢？于是就有了这篇文章

2019-10-30

1.4K0

mysql系列——事务(Transaction)详解

云数据库 SQL Server sql 数据库

这个其实用脚趾头想想也知道它的重要性，举个简单的例子：一个用户提交了一个订单，那么这条数据包含了两个信息，用户信息和购买的商品信息，我需要把他们分别存到用户表和商品表，如果不采用事务，可能会出现，商品信息插入成功，而用户信息没有，这时候就会出现无主商品了，用户付了钱，却得不到商品，这就尴尬了，而如果采用事务，就可以保证，用户信息和商品信息都必须插入成功，该次事务才算成功，那就不会出现这种问题了

2019-10-30

5970

Spark系列--OutputFormat 详解

hadoop spark 云数据库 SQL Server 数据库 sql

定义了 spark 的输出规则的类。这也许会让你想到 Hadoop Mapreduce 的 OutputFormat，没错，其实他们是一个东西，嗯，完全一样。Spark 本身只是一个计算框架，其输入和输出都是依赖于 Hadoop 的 OutputFormat，但是因为 Spark 本身自带 Hadoop 相关 Jar 包，所以不需要我们额外考虑这些东西，下面我们以saveAsTextFile源码来验证我们的结论

2019-10-30

1K0

Hbase 入门知识点总结

javascript 数据库 sql hbase TDSQL MySQL 版

其源于 Google 三大论文之一的 bigtable ，是一个具有高可靠性、高性能、面向列、可伸缩的分布式存储系统，简单来说就是一个数据库。

2019-10-30

1.1K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态