大数据技术栈

64 篇文章
14 人订阅

全部文章

solve

inveno · 大数据开发工程师 (已认证)

Flink系列——感性认识

老板都是复制整个工厂的整体把控的, 一般不亲自动手,只需要管好 工厂的车间组长 就可以了。 JobManager 则是负责整个集群的资源管理与任务管理, ...

5910
solve

inveno · 大数据开发工程师 (已认证)

SparkSQL技巧——如何识别SQL语句 和 执行一个SQL文件

SparkSQL好像没有提供相关的Api, 至少我是没有找到。 于是我自己写了一个.... 代码很简单, 如下:

7220
solve

inveno · 大数据开发工程师 (已认证)

SparkStreaming On Kafka —— Offset 管理

我之前有写一篇kafka Consumer — offset的控制 如果你对于这方面的知识还不太清楚, 建议你去看一下, 毕竟理解了Kafka的消费者, ...

14420
solve

inveno · 大数据开发工程师 (已认证)

Crontab 设置的时间有时区差

20330
solve

inveno · 大数据开发工程师 (已认证)

大数据OLAP框架对比

以上是在大数据处理方面常用的四种技术原理, 上面这些处理数据的方式极大程度的提高了单位时间内数据处理的能力, 但是其还是没有摆脱数据量和查询时间的线性关系。...

1K71
solve

inveno · 大数据开发工程师 (已认证)

架构杂记

根据目前的情况看起来,国内普遍对于flink比较看好, 从实际情况来看,flink也是以后的发展方向, 但是目前Spark的活跃程度远高于Flink, 很...

10730
solve

inveno · 大数据开发工程师 (已认证)

Redis 持久化方式——RDB

Redis持久化数据的两种方式之一, 另外一种是AOF。 Redis会定期保存数据快照至一个rbd文件中, 并在启动时自动加载rdb文件, 恢复之前保存...

9020
solve

inveno · 大数据开发工程师 (已认证)

Spark系列——从 cartesian 带你看点不一样的 Shuffle

这只是一个人随意的一些分享, 你大概可以放宽心的当休闲的东西来看, 看完你大概也许会对Spark会有一些不一样的想法。

11920
solve

inveno · 大数据开发工程师 (已认证)

Spark源码 —— 从 SparkSubmit 到 Driver启动

本文主要是以笔记的整理方式写的, 仅以分享的方式供你阅读, 如有不对的地方欢迎指点错误。 读完本文可以学到: 当你用 shell 命令执行 spark-...

13020
solve

inveno · 大数据开发工程师 (已认证)

Spark VS MapReduce 浅谈

计算的速度是取决于计算机本身的计算能力的。 并且目前来看,所有的计算机计算都是基于内存的(如果有不是的,请原谅我的孤陋寡闻...), 也就是说 MR 和 S...

10920
solve

inveno · 大数据开发工程师 (已认证)

kafka Consumer — offset的控制

在N久之前,曾写过kafka 生产者使用详解, 今天补上关于 offset 相关的内容。 那么本文主要涉及:

33241
solve

inveno · 大数据开发工程师 (已认证)

Kafka —— 如何保证消息不会丢失

当我们通过 send(msg, callback) 是不是就意味着消息一定不丢失了呢?

21551
solve

inveno · 大数据开发工程师 (已认证)

Hive 多分组函数GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

GROUPING SETS, GROUPING__ID, CUBE, ROLLUP 这几个分析函数通常用于OLAP中, 不能累加,而且需要根据不同维度...

23910
solve

inveno · 大数据开发工程师 (已认证)

Hive 修复分区 MSCK REPAIR TABLE

MSCK REPAIR TABLE命令主要是用来: 解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问...

53630
solve

inveno · 大数据开发工程师 (已认证)

Hadoop面试复习系列——HDFS(一)

转载自: https://cloud.tencent.com/developer/article/1031641 https://my.oschina.ne...

15430
solve

inveno · 大数据开发工程师 (已认证)

Kafka 重平衡 全流程解析

本文来自 极客时间 Kafka核心技术与实战 这段时间有看 极客时间的这个课程, 这里仅以分享的角度来做个笔记。 那么本文将涉及到以下几个知识点:

60721
solve

inveno · 大数据开发工程师 (已认证)

Kafka 为什么快?

本文只想从作者本身的认识来谈谈 kafka 为什么会这么快? 我们都知道 kafka 是基于磁盘的, 但是他的存储和读取速度确是非常的快的。 阅读本文前,...

17510
solve

inveno · 大数据开发工程师 (已认证)

程序员数学 —— 二进制

常年浪迹与各种高级语言的我们,是否还记得哪些基础中的基础呢? 今天就让我们一起来回忆一下计算机的那一串 0101010101 —— 二进制 吧!

15320
solve

inveno · 大数据开发工程师 (已认证)

Scala 隐式转换简明教程

对于 Spark 开发者来说 Scala 终究是个绕不过去的坎, 而 对于 Scala ,隐式转换终究也是一个绕不过去的坎。 所以本文就以一种尽可能简单的方...

10210
solve

inveno · 大数据开发工程师 (已认证)

Spark总结篇(一)

1.Spark可以基于内存处理数据,MR每次要落地磁盘 2.Spark有DAG有向无环图优化 3.Spark是粗粒度资源申请,MR是细粒度资源申请 4.S...

14930

扫码关注云+社区

领取腾讯云代金券