首页
学习
活动
专区
工具
TVP
发布

大数据技术栈

专栏作者
67
文章
83282
阅读量
17
订阅数
奇怪的知识
而数据中台则是将数据服务化之后提供给业务系统, 目标是将数据能力渗透到各个业务环节
solve
2022-03-30
7970
Kafka 保证分区有序
Kafka能做到全局有序吗? Kafka只能保证分区有序, 如果只有一个分区, 那也是变向的全局有序 Kafka如何保证分区有序 通过配置 max.in.flight.requests.per.connection = 1 这个配置是 生产者 往 服务度 发送数据的请求数, 配置为1,则一次只能发送1个请求, 如果失败继续重试,知道成功, 才会进行下一个请求的发送, 这样就保证了消息的有序性, 但是相对性能就大大降低了。 通过生产者幂等特性 幂等的保证是需要给每条消息加一个 Seqnum的
solve
2021-01-26
6650
Kafka 水位详解
kafka中用水位来描述, 一个分区中的可见数据的offset。 大概你需要知道这几点:
solve
2021-01-21
7300
Flink系列——感性认识
老板都是复制整个工厂的整体把控的, 一般不亲自动手,只需要管好 工厂的车间组长 就可以了。 JobManager 则是负责整个集群的资源管理与任务管理, 当然他不需要亲自管理,一般都是交给 TaskManager。
solve
2020-07-28
1440
SparkSQL技巧——如何识别SQL语句 和 执行一个SQL文件
SparkSQL好像没有提供相关的Api, 至少我是没有找到。 于是我自己写了一个.... 代码很简单, 如下:
solve
2020-07-15
2.5K0
SparkStreaming On Kafka —— Offset 管理
我之前有写一篇kafka Consumer — offset的控制 如果你对于这方面的知识还不太清楚, 建议你去看一下, 毕竟理解了Kafka的消费者, 你才能更好的使用SparkStreaming结合Kafka。
solve
2020-03-24
1.1K0
Crontab 设置的时间有时区差
问题描述 crontab中设置每天12:00启动任务,结果发现每天20:00才启动。 问题分析 明显是时区不一致造成的, 所以需要从时区设置入手 解决方案 查看并修改 本地时区 查看 more /etc/localtime 备份: cp /etc/localtime /etc/localtime.bak 设置本地时区 设置本地时区为 Shanghai cp -pf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 修改 Contab 时区 v
solve
2020-03-20
3.5K0
大数据OLAP框架对比
以上是在大数据处理方面常用的四种技术原理, 上面这些处理数据的方式极大程度的提高了单位时间内数据处理的能力, 但是其还是没有摆脱数据量和查询时间的线性关系。 于是在OLAP处理方式上, 我们多了一种:
solve
2020-03-20
3.8K0
架构杂记
根据目前的情况看起来,国内普遍对于flink比较看好, 从实际情况来看,flink也是以后的发展方向, 但是目前Spark的活跃程度远高于Flink, 很难说Spark以后的底层不会也才有flink这种方式,
solve
2020-02-25
5170
Redis 持久化方式——RDB
Redis持久化数据的两种方式之一, 另外一种是AOF。 Redis会定期保存数据快照至一个rbd文件中, 并在启动时自动加载rdb文件, 恢复之前保存的数据。
solve
2020-02-13
3680
Spark系列——从 cartesian 带你看点不一样的 Shuffle
这只是一个人随意的一些分享, 你大概可以放宽心的当休闲的东西来看, 看完你大概也许会对Spark会有一些不一样的想法。
solve
2020-02-11
9680
Spark源码 —— 从 SparkSubmit 到 Driver启动
本文主要是以笔记的整理方式写的, 仅以分享的方式供你阅读, 如有不对的地方欢迎指点错误。 读完本文可以学到: 当你用 shell 命令执行 spark-submit 之后, 到你的代码开始正式运行的一些列知识和细节, 恩...粗略的,要看的更细,可以按照流程自己撸源码哈~~~~
solve
2020-01-15
7740
Spark VS MapReduce 浅谈
计算的速度是取决于计算机本身的计算能力的。 并且目前来看,所有的计算机计算都是基于内存的(如果有不是的,请原谅我的孤陋寡闻...), 也就是说 MR 和 Spark 是没有区别的。
solve
2019-12-26
3680
kafka Consumer — offset的控制
在N久之前,曾写过kafka 生产者使用详解, 今天补上关于 offset 相关的内容。 那么本文主要涉及:
solve
2019-12-16
2.9K0
Kafka —— 如何保证消息不会丢失
当我们通过 send(msg, callback) 是不是就意味着消息一定不丢失了呢?
solve
2019-11-26
1.4K0
Hive 多分组函数GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
GROUPING SETS, GROUPING__ID, CUBE, ROLLUP 这几个分析函数通常用于OLAP中, 不能累加,而且需要根据不同维度上钻和下钻的指标统计, 比如,分小时、天、月的UV数。
solve
2019-11-10
1.8K0
Hive 修复分区 MSCK REPAIR TABLE
MSCK REPAIR TABLE命令主要是用来: 解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。
solve
2019-11-10
6.6K0
Hadoop面试复习系列——HDFS(一)
转载自: https://cloud.tencent.com/developer/article/1031641 https://my.oschina.net/freelili/blog/1853668
solve
2019-10-30
5610
Kafka 重平衡 全流程解析
本文来自 极客时间 Kafka核心技术与实战 这段时间有看 极客时间的这个课程, 这里仅以分享的角度来做个笔记。 那么本文将涉及到以下几个知识点:
solve
2019-10-30
3.1K0
Kafka 为什么快?
本文只想从作者本身的认识来谈谈 kafka 为什么会这么快? 我们都知道 kafka 是基于磁盘的, 但是他的存储和读取速度确是非常的快的。 阅读本文前,你可能需要基本了解 kafka 使用 和 架构。
solve
2019-10-30
6650
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档