首页
学习
活动
专区
工具
TVP
发布

鸿的学习笔记

专栏作者
330
文章
280049
阅读量
49
订阅数
简评 WhereHows 为什么失败
DataHub 是由领英的数据团队开源的一款提供元数据搜索与发现的工具。现在的 DataHub 是由 WhereHows 演变过来的。
哒呵呵
2021-12-18
7820
从时间这个概念说起
我们每个人都知道时间,也都在使用时间。同事之间要聚会了,会互相通知今晚七点不见不散,过了两小时,吃饱喝足了,聚会也就散了。“今晚七点”和“过了两小时”代表着日常使用时间的两个方面,时刻和持续时间。
哒呵呵
2021-11-30
2580
机器学习平台的演进史
机器学习平台的最大的驱动力应该是面向数据科学家的基于 Python 的开源技术生态系统的蓬勃发展,比如 scikit-learn、XGBoost 和 Tensorflow/PyTorch 等等。也是因为有了这些算法库的存在,让大部分人都可以使用算法去完成自己的想法,而不需要知道艰深的数学知识,也不需要知道算法的具体实现。
哒呵呵
2021-09-29
2.3K0
Airflow 和 DataX 的结合
我们团队用的调度系统是 Apache Airflow(https://github.com/apache/airflow),数据传输工具是 DataX(https://github.com/alibaba/DataX),这两个工具的介绍读者可以自行查看对应的链接,不多叙述。
哒呵呵
2021-09-08
2.3K0
闲聊Airflow 2.0
在 2020 年 12 月 17 日 Apache Airflow 团队发布了 Apache Airflow 2.0.0。当时就想写写 Airflow 的新特性,但是粗略的看了下《Apache Airflow 2.0 is here!》这篇文章,发现 Airflow2.0 是一个超级大的版本更新,不仅仅 UI 更新了,最核心的组件 Scheduler 性能也有了极大的提升,分布式环境下的高可用模型也做了改变,同时还有 Airflow 上的 Operator 和 Hook 也做了新的分门别类,对于这个版本在复杂的生产环境下是否能稳定运行,感到一丝怀疑,遂后面没有在关注了。
哒呵呵
2021-08-12
2.5K0
MLOps 的学习清单
先缅怀下袁隆平老先生。在我们这代人眼里,袁隆平老先生可能就是一个活着的传奇,所以在22号突然听到他离世的消息时,莫名的伤感,又一位人民英雄离我们远去了。
哒呵呵
2021-06-17
1.8K0
Superset 1.0 终于发布了
Superset 起源于 Airbnb 在2015年发起的一次黑客马拉松比赛,起初,Superset 被命名为 Caravel 和 Panoramix,2017 年 5 月进入 Apache 孵化器。经过快四年的发展,在 2021 年 1 月,Superset 正式进入到 1 开头的版本,也就是从0.xx变成了1.xx,并且也成功晋升为 Apache 顶级项目(https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces70)。目前 Apache Superset 项目的主要负责团队来源于 Preset 公司。
哒呵呵
2021-05-13
1.3K1
吴恩达谈 MLOps:调优数据比调优模型更重要
3月25日,吴恩达开了一个直播讲 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI ,看完后深受启发,便随手写下一些笔记。
哒呵呵
2021-04-23
1K0
推荐一个分布式系统的学习课程
介绍下Martin Kleppmann博士在剑桥上开的课程Distributed Systems。这个课程可以认为是Martin Kleppmann对《数据密集型应用系统设计》这本书的一个补充。感兴趣的可以关注:
哒呵呵
2021-03-16
1K0
什么是 Data Mesh ?
Data Mesh 的概念起源于 ThoughtWorks 的首席技术顾问 Zhamak Dehghani 发表在 martinfowler 官网上的两篇文章How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh和Data Mesh Principles and Logical Architecture。
哒呵呵
2021-03-16
2.8K0
Kafka 能成为一个数据库吗?
近些年,圈子里有一个讨论很有趣,是关于 Kafka 到底可不可以认为是一个数据库,这个讨论起始于2017年,并由此衍生出了 KSQL、KarelDB 等基于 Kafka 完成的数据库。这篇文章简单回顾下争论双方的观点。
哒呵呵
2021-03-16
1.2K0
关于 Lakehouse 的一些笔记和看法
这是最经典的数据仓库模型,模型上面的不多说,可以参考数据仓库理论。从技术角度上来说,
哒呵呵
2021-02-24
6780
2020年那些关于元数据的文章
2020 年是元数据管理兴起的一年。在 Datakin 你可以看到元数据管理的发展历史。在前人努力的基础上,Datakin 和其它的开源数据血缘以及架构软件,比如 Airflow,Amundsen,Datahub,dbt,Egeria,Great Expectations,Iceberg,Marquez,Pandas,Parquet,Prefect,Spark 和 Superset 宣布开放血缘(Open Lineage)倡议。
哒呵呵
2020-12-29
1.4K0
2020 年 DB Weekly 上最佳的六篇文章
DB Weekly 是我每周都要看的一个关于数据库方向的内容推送。这个公众号的一些文章其实就是来源于 DB Weekly。上周是 2020 年 DB Weekly 最后一篇推送,评选了今年最佳的六篇文章,我花了一周时间读了一遍,发现这个评选没啥问题。遂简单翻译如下:
哒呵呵
2020-12-29
4840
大公司是如何发展元数据的?
对于数据工程师而言,元数据知识可能是最需要掌握的,却常常又被忽略的一部分。毕竟在平时做需求时,大家都是用 SQL 完成任务,而和领导汇报时,又常常凸显出数据产生的效益,元数据基本上就被忽视了。如果团队里没有人想去整理元数据的话,随着公司的发展,数据源和数据量的不断增多,就会逐渐发现我怎么找不到数据了?这个数据口径到底是怎么回事,哪一个才是对的?等等问题。
哒呵呵
2020-12-29
1.9K0
Procella 数据库的简单介绍
最近看到了一个很有趣的数据库 Procella ,它的架构图就和当初亚马逊公司发布的数据库论文 Aurora 里面的一样,一眼就吸引住我了。
哒呵呵
2020-11-19
8710
数据湖及其架构的一份笔记
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
哒呵呵
2020-09-01
1.8K0
谷歌的 Spanner 数据库是如何一步步支持 SQL 语法的
Spanner 之前是一个键值数据库,与现在谈论的 Spanner 是完全不同的东西。在设计之初,Spanner 就支持事务、外部一致性和透明的故障转移。到后面,Spanner 开始支持带类型的数据库表结构和其它的一些关系型数据库功能,以及支持了 SQL 功能。而现在我们正在努力改进 SQL 语法的兼容性和关系型数据库功能。
哒呵呵
2020-08-05
1.1K0
Oracle 数据库编程语言 PL/SQL 的历史
在世界编程语言排行榜里,PL/SQL 一直稳稳占据着前二十的位置。尽管我不是 Matthew Symonds,也与 Softwar 这本书无关,但我依然花费了大量的精力在研究 PL/SQL 的历史上。“Oracle 7 架构非常领先,并像 Sybase 数据库一样,Oracle 7 可以使用全新而优雅的 PL/SQL 编程语言进行编程” ,这也是我为什么会写下关于 PL/SQL 历史的文章的原因。
哒呵呵
2020-07-22
1.5K0
闲聊调度系统 Apache Airflow
Apache Airflow 是一个由开源社区维护的,专职于调度和监控工作流的 Apache 项目,于2014年10月由 Airbnb 开源,2019年1月从 Apache 基金会毕业,成为新的 Apache 顶级项目。
哒呵呵
2019-12-24
9.1K5
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档