腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

鸿的学习笔记

专栏作者

330

文章

280140

阅读量

49

订阅数

Hadoop 诞生的历史

mapreduce hadoop lucene/solr apache 编程算法

Hadoop 这个名称来源于一种已经灭绝的猛犸象，即 Yellow Hadoop。

2022-03-11

1.2K0

数据工程师的未来

Apache Airflow 和 Apache Superset 的创建者 Maxime Beauchemin 写了一篇文章讨论数据工程师的未来，其中讲述了他对数据工程师的现状的认知和未来发展的猜测，可供大家参考。

2021-11-02

5520

闲话 Spark 的一个重要改变

api apache spark python

最近看到了 Apache Spark 发布了 3.2 版本的预告 Pandas API on Upcoming Apache Spark™ 3.2，文章写得很简单，但是体现了 Spark 的一个很重要的发展趋势，就是拥抱 Python 的数据科学社区。

2021-10-19

7040

大公司是如何发展元数据的？

https 网络安全大数据 html apache

对于数据工程师而言，元数据知识可能是最需要掌握的，却常常又被忽略的一部分。毕竟在平时做需求时，大家都是用 SQL 完成任务，而和领导汇报时，又常常凸显出数据产生的效益，元数据基本上就被忽视了。如果团队里没有人想去整理元数据的话，随着公司的发展，数据源和数据量的不断增多，就会逐渐发现我怎么找不到数据了？这个数据口径到底是怎么回事，哪一个才是对的？等等问题。

2020-12-29

1.9K0

不负责任的聊下 Apache Doris

apache hive 数据库云数据库 SQL Server sql

应读者的要求，这篇文章简单聊聊 Apache Doris。说实话，Apache Doris 比前面提到的 Impala 、Presto 这些交互式查询引擎还要不熟。仅仅以自己的经验简单评述下 Apache Doris。

2020-04-07

8.6K1

超越 MapReduce ，要比它更快！

网站 mapreduce 大数据 apache sql

前面介绍了大数据领域里的两个主流引擎：MapReduce 和 Spark 。它们开创了历史，使得世界进入了大数据时代，让很多公司能够处理庞大的数据，并从中找到更多的有价值的东西。所以，Hadoop 刚开始兴起时，大家都兴奋于我终于能够处理这么多数据了，到后面，Hive 被 Facebook 一群人写出来的时候，大家又不用写那么复杂的 MapReduce 程序了，回到了熟悉的 SQL 的怀抱。

2020-03-25

4260

趣谈交互式查询的历史之 Impala

mapreduce c++apache hive 网站

接着上篇文章继续聊聊交互式查询，交互式查询崛起的原因是人类的懒惰本质，自从谷歌发表了 Dremel 论文后，相似的计算引擎不断地出现，在这篇文章里，针对几种典型的计算引擎简单聊聊。

2020-03-25

9810

闲聊数据可视化平台 Apache Superset

apache sql 开源 git github

Apache Superset（以下简称 superset）和 Apache Airflow 一样都是租房网站 airbnb 开源的，而且现在的主力开发者也是同一个人- mistercrunch （画外音：两个 Apache 项目的主要贡献者也是够强的了）。Apache Superset 于 2015 年 6 月开源，活跃度极高，基本每天都有新的特性诞生或者 bug 被修复，可惜的是与 Apache Airflow 今年毕业成为顶级项目不同，superset 依旧在孵化当中。当然孵化不代表不可用，superset 在国内外都有着广泛的应用。从 Github 首页上面可以发现使用 superset 的国内比较知名的互联网公司有：bilibili、Douban、Kuaishou、Qunar 等等，国外的更多了。因此 superset 质量是有保证的。

2020-02-11

2.8K0

闲聊调度系统 Apache Airflow

apache git github 开源 https

Apache Airflow 是一个由开源社区维护的，专职于调度和监控工作流的 Apache 项目，于2014年10月由 Airbnb 开源，2019年1月从 Apache 基金会毕业，成为新的 Apache 顶级项目。

2019-12-24

9.1K5

简单聊聊数据存储格式

存储数据处理数据结构 apache hive

在现实生活中存在着两个不同的数据处理模型，一个是OLTP，另一个是OLAP。两者的区别不在这篇文章详细叙述，感兴趣的可以阅读参考文章。因为OLAP和OLTP所面临的困境是不一样的，所以两个选择的数据存储方式也就不一样了。OLTP的数据存储模型大多逃不过Key-Value、B-Tree、LSM-Tree三种行式存储，而OLAP对应的则是列式存储。

2019-07-12

1.3K0

Streaming SQL基础

apache sql https spark 网络安全

基于 Stream & Table relativity,《Streaming Systems》将 declarative 的编程方式往前推进到数据系统中最常用的SQL表达，即Streaming SQL。在《Streaming Systems》中，Streaming SQL　并不像 StreamCQL（基于Storm）属于 SQL-like，而是作为 Classic SQL 的扩展，兼容 Classic SQL 的所有规则。

2019-05-14

1K0

流表相对论

数据库 sql https apache 网络安全

《Streaming Systems》第二部分讨论的是Stream and Table Relativity，翻译过来就是流表相对论。从Stream and Table Relativity角度看待流（Stream）和表（Table），就会发现它们只不过是一枚硬币的正反两面；正如在爱因斯坦还没有提出相对论时，我们会认为牛顿的理论就是正确的，随着相对论的诞生使我们从更高的维度去思考现实，发现牛顿物理学只不过是相对论的特例而已。

2019-04-26

7480

一周好文推荐

https python apache http spark

这是一个新的尝试，分享这一周遇到的好文章和简要的评论。 Prometheus 和 Flink 搭配使用 https://flink.apache.org/features/2019/03/11/pr

2019-04-26

3840

《Streaming Systems》第四章-窗口

apache windows spark 大数据

《Streaming Systems》第四章相较于前三个章节更为复杂，倘若不是作者给出了大量的动图，恐怕大部分读者都会晕乎乎的了吧（所以强烈建议这一章观看Safari上的动图或者是Streaming 102）。

2019-04-26

1.3K1

Apache Kafka设计理念探究

apache 分布式 linux zookeeper 存储

创造一个分布式的实时流处理平台，也正是因为这个原因，Kafka选择了将日志分区和消费者群组模型。

2018-09-18

5320

hadoop系统概览（三）

大数据 hadoop mapreduce 分布式 apache

大数据不可避免地需要在计算机集群上进行分布式并行计算。因此，我们需要一个分布式数据操作系统来管理各种资源，数据和计算任务。今天，Apache Hadoop是现有的分布式数据操作系统。 Apache Hadoop是一个用于分布式存储的开源软件框架，以及商用硬件群集上的大数据的分布式处理。本质上，Hadoop由三部分组成：

2018-08-06

7200

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态