首页
学习
活动
专区
工具
TVP
发布

鸿的学习笔记

专栏成员
330
文章
292889
阅读量
49
订阅数
SQL Notebooks:一种新的设计理念
最近读到 Meta (前Facebook)公司发表的一篇文章,是介绍他们自己使用的 SQL Notebooks。在文章里,他们认为应该以 SQL 为核心去设计 Notebook,而不是像 Jupyter 那样以 Python 为核心设计 Notebook。
哒呵呵
2022-06-08
5080
Python3.7 迎来了终结。
今天浏览 Apache Superset 的 GitHub 时,发现UPDATING.md中间有一项是Removes Python 3.7 support.。
哒呵呵
2022-06-08
6600
闲聊 modern data stack
2021 年一个有趣的新变化就是:Building the modern stack with open-source data solutions,换成比较容易理解的话,就是基于开源软件构建自己的数据处理流程。如果是在国内玩大数据的人,可能对此还有些不太理解(比如我),现在各家互联网公司基于 Hadoop 生态圈等一系列开源组件构建的大数据平台解决方案早就已经成熟,那modern data stack价值在哪呢?通过对What I Learned From The Open Source Data Stack Conference 2021的阅读,我发现这是为了解决传统企业的数字化转型问题的,让这些企业也能使用上方便高效的处理工具洞察数据,而不用局限于某一家提供闭源的商业解决方案的公司。用文中的话来说,就是通过开源软件,企业可以自己掌控数据,保证用户数据隐私安全,而不用担心数据被第三方公司利用。
哒呵呵
2021-12-24
1.3K0
Superset 1.0 终于发布了
Superset 起源于 Airbnb 在2015年发起的一次黑客马拉松比赛,起初,Superset 被命名为 Caravel 和 Panoramix,2017 年 5 月进入 Apache 孵化器。经过快四年的发展,在 2021 年 1 月,Superset 正式进入到 1 开头的版本,也就是从0.xx变成了1.xx,并且也成功晋升为 Apache 顶级项目(https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces70)。目前 Apache Superset 项目的主要负责团队来源于 Preset 公司。
哒呵呵
2021-05-13
1.4K1
大数据技术发展简史(第一篇万字长文)
在写这篇文章之前,断断续续地写过一些大数据组件的历史和它的一些评价,但是感觉不过瘾,历史本来就应该是连续的、有其内在的规律,便想写一篇文章总结大数据技术发展的历史,梳理其脉络,并试图找出其内在的规律,分享给大家。
哒呵呵
2020-06-09
7.8K2
瞎扯 Hadoop 的历史
在大数据领域里,Hadoop 是谁都绕不开的话题,它基本上已经成为了事实上的标准,无论是什么企业或者是个人,闭源开始开源,都不得不兼容Hadoop生态圈,即使是谷歌也不例外。虽然谷歌作为大数据领域的鼻祖,手握 GFS 、 MapReduce 和 BigTable 三篇论文(下文称为谷歌的“三驾马车”),秒杀Hadoop生态圈,但是在做谷歌云的时候依然不得不捏着鼻子兼容 Hbase 和 HDFS 的接口。因此,这篇文章就闲聊下 Hadoop 是如何发展壮大的。
哒呵呵
2020-02-26
1.5K0
我所了解的大数据的历史(2)
接着说谷歌,上篇文章提到了 GFS 。那么谷歌为什么要硬着头皮去啃分布式系统这块硬骨头呢?首先,我们要知道谷歌刚开始成立时是一家搜索公司,方便用户查询互联网上的信息。因此谷歌必须要存储整个互联网上的信息,那这个数据量是庞大的。对于这个需求,传统的数据库或者更深入地说,单机是远远不够的,必须要使用分布式系统搭建集群;但是那个时候要搭建集群,可供选择的方案大多像 Oracle 的 RAC 一样,需要昂贵的机器。因此谷歌必须要自行去解决这个问题:
哒呵呵
2020-02-18
3350
闲聊数据可视化平台 Apache Superset
Apache Superset(以下简称 superset)和 Apache Airflow 一样都是租房网站 airbnb 开源的,而且现在的主力开发者也是同一个人- mistercrunch (画外音:两个 Apache 项目的主要贡献者也是够强的了)。Apache Superset 于 2015 年 6 月开源,活跃度极高,基本每天都有新的特性诞生或者 bug 被修复,可惜的是与 Apache Airflow 今年毕业成为顶级项目不同,superset 依旧在孵化当中。当然孵化不代表不可用,superset 在国内外都有着广泛的应用。从 Github 首页上面可以发现使用 superset 的国内比较知名的互联网公司有:bilibili、Douban、Kuaishou、Qunar 等等,国外的更多了。因此 superset 质量是有保证的。
哒呵呵
2020-02-11
2.9K0
闲聊调度系统 Apache Airflow
Apache Airflow 是一个由开源社区维护的,专职于调度和监控工作流的 Apache 项目,于2014年10月由 Airbnb 开源,2019年1月从 Apache 基金会毕业,成为新的 Apache 顶级项目。
哒呵呵
2019-12-24
9.3K5
Spark生态系统的顶级项目
Spark开发了一个丰富的生态系统,包括le 官方和第三方工具。 我们来看看5个以不同方式加强了Spark的第三方项目。
哒呵呵
2018-08-06
1.2K0
Embulk--异构数据库和文件系统处理神器
Embulk是一款开源的批处理框架,它主要用于异构数据库,文件存储以及云服务之间的数据传输工具。特色:
哒呵呵
2018-08-06
1.3K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档