首页
学习
活动
专区
工具
TVP
发布

鸿的学习笔记

专栏作者
330
文章
275413
阅读量
49
订阅数
Modern data stack的前世今生
古老的大数据技术孕育了云计算,从云计算中衍生出了SaaS、PaaS等云服务,而云服务又让大数据技术在新时代获得了新生。
哒呵呵
2022-06-08
8550
SQL Notebooks:一种新的设计理念
最近读到 Meta (前Facebook)公司发表的一篇文章,是介绍他们自己使用的 SQL Notebooks。在文章里,他们认为应该以 SQL 为核心去设计 Notebook,而不是像 Jupyter 那样以 Python 为核心设计 Notebook。
哒呵呵
2022-06-08
4670
Python3.7 迎来了终结。
今天浏览 Apache Superset 的 GitHub 时,发现UPDATING.md中间有一项是Removes Python 3.7 support.。
哒呵呵
2022-06-08
5830
推荐几本书
这本书的最大特点是通俗易懂,只要有一点点的开发经验就可以读懂这本书。通过这本书,可以很轻易地理解类似于淘宝、京东这样的网站背后是怎么运行的,然后建立起一个比较宏大的视野,了解到自己平时所做的工作在整个团队里的是怎么样的定位。可能唯一的遗憾在于这本书成书于2012年,有些技术已经跟不上现在的技术发展,比如云原生、分布式数据库。
哒呵呵
2022-06-08
3640
保证数据质量为什么这么难?
关于数据质量的标准有很多,我比较喜欢《DataMan-美团旅行数据质量监管平台实践》文章里的标准:
哒呵呵
2022-06-08
4930
半年后,再谈 Python3.10
2021 年 10 月 4 号,Python 官方正式发布了 Python3.10.0(https://www.python.org/downloads/release/python-3100/)。当时在忙着大数据相关的工作就没有写文章聊聊这个版本。就以这篇文章来简单聊聊。
哒呵呵
2022-04-14
6070
一些闲谈
突然想到一个问题,对于一个只会写SQL的数据分析师而言,一个好的大数据系统应该是怎么样的呢?
哒呵呵
2022-04-14
1410
维度建模已死?
只要是做数据仓库的同学都或多或少了解和实践过维度数据建模,在大银行、运营商等传统领域,维度数据建模更是其数据分析和建模的核心理念。感兴趣的同学可以读下《数据仓库工具箱:维度建模权威指南》和阿里巴巴的《大数据之路》,从这两本书可以了解到维度数据建模的理论和工程实践。
哒呵呵
2022-04-14
3640
Hadoop 诞生的历史
Hadoop 这个名称来源于一种已经灭绝的猛犸象,即 Yellow Hadoop。
哒呵呵
2022-03-11
1.1K0
现代元数据平台
这是一个新概念:The Modern Metadata Platform,直译就是现代元数据平台。这个概念是伴随着 Modern Data Stack 概念而生,是其中的一部分。
哒呵呵
2022-03-11
5160
2022 年值得关注的 7 大人工智能趋势
正如谷歌的CEO Sundar Pichai所言:AI will transform how we lead our lives and revamp many industries, including healthcare, education, and manufacturing.
哒呵呵
2022-03-11
4600
闲聊 modern data stack
2021 年一个有趣的新变化就是:Building the modern stack with open-source data solutions,换成比较容易理解的话,就是基于开源软件构建自己的数据处理流程。如果是在国内玩大数据的人,可能对此还有些不太理解(比如我),现在各家互联网公司基于 Hadoop 生态圈等一系列开源组件构建的大数据平台解决方案早就已经成熟,那modern data stack价值在哪呢?通过对What I Learned From The Open Source Data Stack Conference 2021的阅读,我发现这是为了解决传统企业的数字化转型问题的,让这些企业也能使用上方便高效的处理工具洞察数据,而不用局限于某一家提供闭源的商业解决方案的公司。用文中的话来说,就是通过开源软件,企业可以自己掌控数据,保证用户数据隐私安全,而不用担心数据被第三方公司利用。
哒呵呵
2021-12-24
1.2K0
简评 WhereHows 为什么失败
DataHub 是由领英的数据团队开源的一款提供元数据搜索与发现的工具。现在的 DataHub 是由 WhereHows 演变过来的。
哒呵呵
2021-12-18
7500
从时间这个概念说起
我们每个人都知道时间,也都在使用时间。同事之间要聚会了,会互相通知今晚七点不见不散,过了两小时,吃饱喝足了,聚会也就散了。“今晚七点”和“过了两小时”代表着日常使用时间的两个方面,时刻和持续时间。
哒呵呵
2021-11-30
2530
数据工程师的未来
Apache Airflow 和 Apache Superset 的创建者 Maxime Beauchemin 写了一篇文章讨论数据工程师的未来,其中讲述了他对数据工程师的现状的认知和未来发展的猜测,可供大家参考。
哒呵呵
2021-11-02
5430
使用 SQL 也能玩转机器学习
最近看到一篇文章:https://rudderstack.com/blog/churn-prediction-with-bigqueryml,主要是讲使用 BigQueryML 进行流失预测。首先解释下 BigQueryML 是什么,简而言之,就是使用 SQL 也可以完成机器学习模型的构建。
哒呵呵
2021-11-02
6550
闲话 Spark 的一个重要改变
最近看到了 Apache Spark 发布了 3.2 版本的预告 Pandas API on Upcoming Apache Spark™ 3.2,文章写得很简单,但是体现了 Spark 的一个很重要的发展趋势,就是拥抱 Python 的数据科学社区。
哒呵呵
2021-10-19
6910
关于数据仓库的一些观点
2021年有两条主线,一个是生态系统和商业模式的成熟,比如早在2020年就上市的云数据仓库公司 Snowflake 公司站稳了在资本市场的脚跟、Databricks、Dataiku、Datarobot 等公司估值更高了并且募集了大量的资金,甚至正在追求 IPO;另一方面则是新一代的数据和机器学习创业公司正在崛起,无论是几年前还是几个月前成立的公司都在过去一年左右经历了突飞猛进的增长。
哒呵呵
2021-10-19
6240
机器学习平台的演进史
机器学习平台的最大的驱动力应该是面向数据科学家的基于 Python 的开源技术生态系统的蓬勃发展,比如 scikit-learn、XGBoost 和 Tensorflow/PyTorch 等等。也是因为有了这些算法库的存在,让大部分人都可以使用算法去完成自己的想法,而不需要知道艰深的数学知识,也不需要知道算法的具体实现。
哒呵呵
2021-09-29
2.2K0
Airflow 和 DataX 的结合
我们团队用的调度系统是 Apache Airflow(https://github.com/apache/airflow),数据传输工具是 DataX(https://github.com/alibaba/DataX),这两个工具的介绍读者可以自行查看对应的链接,不多叙述。
哒呵呵
2021-09-08
2.2K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档