首页
学习
活动
专区
工具
TVP
发布

鸿的学习笔记

专栏作者
330
文章
280140
阅读量
49
订阅数
Hadoop 诞生的历史
Hadoop 这个名称来源于一种已经灭绝的猛犸象,即 Yellow Hadoop。
哒呵呵
2022-03-11
1.2K0
数据工程师的未来
Apache Airflow 和 Apache Superset 的创建者 Maxime Beauchemin 写了一篇文章讨论数据工程师的未来,其中讲述了他对数据工程师的现状的认知和未来发展的猜测,可供大家参考。
哒呵呵
2021-11-02
5520
闲话 Spark 的一个重要改变
最近看到了 Apache Spark 发布了 3.2 版本的预告 Pandas API on Upcoming Apache Spark™ 3.2,文章写得很简单,但是体现了 Spark 的一个很重要的发展趋势,就是拥抱 Python 的数据科学社区。
哒呵呵
2021-10-19
7040
大公司是如何发展元数据的?
对于数据工程师而言,元数据知识可能是最需要掌握的,却常常又被忽略的一部分。毕竟在平时做需求时,大家都是用 SQL 完成任务,而和领导汇报时,又常常凸显出数据产生的效益,元数据基本上就被忽视了。如果团队里没有人想去整理元数据的话,随着公司的发展,数据源和数据量的不断增多,就会逐渐发现我怎么找不到数据了?这个数据口径到底是怎么回事,哪一个才是对的?等等问题。
哒呵呵
2020-12-29
1.9K0
不负责任的聊下 Apache Doris
应读者的要求,这篇文章简单聊聊 Apache Doris。说实话,Apache Doris 比前面提到的 Impala 、Presto 这些交互式查询引擎还要不熟。仅仅以自己的经验简单评述下 Apache Doris。
哒呵呵
2020-04-07
8.6K1
超越 MapReduce ,要比它更快!
前面介绍了大数据领域里的两个主流引擎:MapReduce 和 Spark 。它们开创了历史,使得世界进入了大数据时代,让很多公司能够处理庞大的数据,并从中找到更多的有价值的东西。所以,Hadoop 刚开始兴起时,大家都兴奋于我终于能够处理这么多数据了,到后面,Hive 被 Facebook 一群人写出来的时候,大家又不用写那么复杂的 MapReduce 程序了,回到了熟悉的 SQL 的怀抱。
哒呵呵
2020-03-25
4260
趣谈交互式查询的历史之 Impala
接着上篇文章继续聊聊交互式查询,交互式查询崛起的原因是人类的懒惰本质,自从谷歌发表了 Dremel 论文后,相似的计算引擎不断地出现,在这篇文章里,针对几种典型的计算引擎简单聊聊。
哒呵呵
2020-03-25
9810
闲聊数据可视化平台 Apache Superset
Apache Superset(以下简称 superset)和 Apache Airflow 一样都是租房网站 airbnb 开源的,而且现在的主力开发者也是同一个人- mistercrunch (画外音:两个 Apache 项目的主要贡献者也是够强的了)。Apache Superset 于 2015 年 6 月开源,活跃度极高,基本每天都有新的特性诞生或者 bug 被修复,可惜的是与 Apache Airflow 今年毕业成为顶级项目不同,superset 依旧在孵化当中。当然孵化不代表不可用,superset 在国内外都有着广泛的应用。从 Github 首页上面可以发现使用 superset 的国内比较知名的互联网公司有:bilibili、Douban、Kuaishou、Qunar 等等,国外的更多了。因此 superset 质量是有保证的。
哒呵呵
2020-02-11
2.8K0
闲聊调度系统 Apache Airflow
Apache Airflow 是一个由开源社区维护的,专职于调度和监控工作流的 Apache 项目,于2014年10月由 Airbnb 开源,2019年1月从 Apache 基金会毕业,成为新的 Apache 顶级项目。
哒呵呵
2019-12-24
9.1K5
简单聊聊数据存储格式
在现实生活中存在着两个不同的数据处理模型,一个是OLTP,另一个是OLAP。两者的区别不在这篇文章详细叙述,感兴趣的可以阅读参考文章。因为OLAP和OLTP所面临的困境是不一样的,所以两个选择的数据存储方式也就不一样了。OLTP的数据存储模型大多逃不过Key-Value、B-Tree、LSM-Tree三种行式存储,而OLAP对应的则是列式存储。
哒呵呵
2019-07-12
1.3K0
Streaming SQL基础
基于 Stream & Table relativity,《Streaming Systems》将 declarative 的编程方式往前推进到数据系统中最常用的SQL表达,即Streaming SQL。在《Streaming Systems》中,Streaming SQL 并不像 StreamCQL(基于Storm)属于 SQL-like,而是作为 Classic SQL 的扩展,兼容 Classic SQL 的所有规则。
哒呵呵
2019-05-14
1K0
流表相对论
《Streaming Systems》第二部分讨论的是Stream and Table Relativity,翻译过来就是流表相对论。从Stream and Table Relativity角度看待流(Stream)和表(Table),就会发现它们只不过是一枚硬币的正反两面;正如在爱因斯坦还没有提出相对论时,我们会认为牛顿的理论就是正确的,随着相对论的诞生使我们从更高的维度去思考现实,发现牛顿物理学只不过是相对论的特例而已。
哒呵呵
2019-04-26
7480
一周好文推荐
这是一个新的尝试,分享这一周遇到的好文章和简要的评论。 Prometheus 和 Flink 搭配使用 https://flink.apache.org/features/2019/03/11/pr
哒呵呵
2019-04-26
3840
《Streaming Systems》第四章-窗口
《Streaming Systems》第四章相较于前三个章节更为复杂,倘若不是作者给出了大量的动图,恐怕大部分读者都会晕乎乎的了吧(所以强烈建议这一章观看Safari上的动图或者是Streaming 102)。
哒呵呵
2019-04-26
1.3K1
Apache Kafka设计理念探究
创造一个分布式的实时流处理平台,也正是因为这个原因,Kafka选择了将日志分区和消费者群组模型。
哒呵呵
2018-09-18
5320
hadoop系统概览(三)
大数据不可避免地需要在计算机集群上进行分布式并行计算。因此,我们需要一个分布式数据操作系统来管理各种资源,数据和计算任务。今天,Apache Hadoop是现有的分布式数据操作系统。 Apache Hadoop是一个用于分布式存储的开源软件框架,以及商用硬件群集上的大数据的分布式处理。本质上,Hadoop由三部分组成:
哒呵呵
2018-08-06
7200
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档