首页
学习
活动
专区
工具
TVP
发布

鸿的学习笔记

专栏作者
330
文章
280197
阅读量
49
订阅数
现代元数据平台
这是一个新概念:The Modern Metadata Platform,直译就是现代元数据平台。这个概念是伴随着 Modern Data Stack 概念而生,是其中的一部分。
哒呵呵
2022-03-11
5390
流计算和数据库表的关联
前面的那篇文章《再谈流计算的基本概念》提到了 Dataflow 模型,这个模型从更高的维度去看待看似隔离的批处理和流处理过程,把批处理过程认为是流处理过程的特例。基于这个模型,诞生了Spark Structure Streaming、Flink 和 Apache Beam 等一系列工具。
哒呵呵
2021-08-12
7920
关于 HTAP 数据库应用场景的一些想法
昨天发了一篇文章讨论的是关系型数据库的变化数据如何同步到数据仓库层面,类似于 MySQL 的 binlog 日志同步到数据仓库进行 OLAP 分析。OLTP环境下的数据库数据同步到OLAP环境下的数据仓库,解决方案逃不过三种类型:
哒呵呵
2021-06-17
8040
Kafka 能成为一个数据库吗?
近些年,圈子里有一个讨论很有趣,是关于 Kafka 到底可不可以认为是一个数据库,这个讨论起始于2017年,并由此衍生出了 KSQL、KarelDB 等基于 Kafka 完成的数据库。这篇文章简单回顾下争论双方的观点。
哒呵呵
2021-03-16
1.2K0
关于大数据和数据库的一篇学习笔记
这篇文章来自于我非常崇敬的一个学者 Martin Kleppmann(下文用马丁指代) 的一篇访谈,包含了很多有趣的观点,比如为什么要写Designing Data-Intensive Applications(缩写为DDIA)这一本书,关于计算机行业专有名词乱用的点评,对分布式系统里广为流传的 CAP 定理的批评以及讨论了事件溯源(Event Sourcing)这种架构的适用场景和缺点,最后还附带了对计算机行业里去中心化趋势的看法。
哒呵呵
2020-07-27
7150
Kafka 和隐藏在它背后的幽灵
趁着周末简单聊下 Kafka。Kafka 基本上已经成为了大数据领域里的消息系统的标配,仿佛做实时处理不知道或者不懂 Kafka 就落伍了一样。不过也确实如此,不像很多大数据领域里的其它组件有很多竞品,比如计算引擎领域有 MapReduce、Spark、Impala、Presto等,资源调度有 Yarn 、K8S 等,诸如此类,不胜枚举。但是在大数据领域的消息系统这块除了近些年宣传的比较火的 Apache Pulsar 勉强一争外,基本上都是 Kafka 一家独大,或者是类似于 Kafka 的架构。那么 Kafka 有什么特别的呢?
哒呵呵
2020-05-08
5030
《Streaming Systems》第五章-精确一次处理
今天的文章简单提下所谓的流计算中精确一次处理的实现。所谓精确一次处理是相对于至少一次和至多一次处理而言的,由系统保证在整个处理过程中所有数据有且仅被处理一次。
哒呵呵
2019-04-26
1.1K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档