首页
学习
活动
专区
工具
TVP
发布

鸿的学习笔记

专栏作者
330
文章
281240
阅读量
49
订阅数
推荐几本书
这本书的最大特点是通俗易懂,只要有一点点的开发经验就可以读懂这本书。通过这本书,可以很轻易地理解类似于淘宝、京东这样的网站背后是怎么运行的,然后建立起一个比较宏大的视野,了解到自己平时所做的工作在整个团队里的是怎么样的定位。可能唯一的遗憾在于这本书成书于2012年,有些技术已经跟不上现在的技术发展,比如云原生、分布式数据库。
哒呵呵
2022-06-08
3800
保证数据质量为什么这么难?
关于数据质量的标准有很多,我比较喜欢《DataMan-美团旅行数据质量监管平台实践》文章里的标准:
哒呵呵
2022-06-08
5150
一些闲谈
突然想到一个问题,对于一个只会写SQL的数据分析师而言,一个好的大数据系统应该是怎么样的呢?
哒呵呵
2022-04-14
1450
现代元数据平台
这是一个新概念:The Modern Metadata Platform,直译就是现代元数据平台。这个概念是伴随着 Modern Data Stack 概念而生,是其中的一部分。
哒呵呵
2022-03-11
5490
闲聊 modern data stack
2021 年一个有趣的新变化就是:Building the modern stack with open-source data solutions,换成比较容易理解的话,就是基于开源软件构建自己的数据处理流程。如果是在国内玩大数据的人,可能对此还有些不太理解(比如我),现在各家互联网公司基于 Hadoop 生态圈等一系列开源组件构建的大数据平台解决方案早就已经成熟,那modern data stack价值在哪呢?通过对What I Learned From The Open Source Data Stack Conference 2021的阅读,我发现这是为了解决传统企业的数字化转型问题的,让这些企业也能使用上方便高效的处理工具洞察数据,而不用局限于某一家提供闭源的商业解决方案的公司。用文中的话来说,就是通过开源软件,企业可以自己掌控数据,保证用户数据隐私安全,而不用担心数据被第三方公司利用。
哒呵呵
2021-12-24
1.2K0
关于数据仓库的一些观点
2021年有两条主线,一个是生态系统和商业模式的成熟,比如早在2020年就上市的云数据仓库公司 Snowflake 公司站稳了在资本市场的脚跟、Databricks、Dataiku、Datarobot 等公司估值更高了并且募集了大量的资金,甚至正在追求 IPO;另一方面则是新一代的数据和机器学习创业公司正在崛起,无论是几年前还是几个月前成立的公司都在过去一年左右经历了突飞猛进的增长。
哒呵呵
2021-10-19
6400
重新解读 MapReduce
在没有 MapReduce 编程模型的时候,做分布式系统的大数据量计算都是针对某一问题的开发特定的编程模型,写过代码的都知道这种的开发模式肯定推广不开来,后续的开发和维护都特别麻烦,但是当时也没人想着要弄一个通用的编程模型,直到后面谷歌发表了那篇著名的《MapReduce: Simplified Data Processing on Large Clusters》,大家突然发现原来在编程语言里面常用的编程模型可以用在分布式系统里,而且还能通用。
哒呵呵
2021-08-12
2540
大数据知识体系之数据采集
数据平台数据采集系统日志采集网络数据采集设备数据采集数据同步数据存储数据计算实时计算离线计算数据挖掘数据服务数据模型数据建模方法论数据模型管理体系表设计数据管理元数据收集和搜索数据血缘数据质量计算任务管理平台成本管理数据应用互联网工业政务
哒呵呵
2021-06-17
1.4K0
什么是 Data Mesh ?
Data Mesh 的概念起源于 ThoughtWorks 的首席技术顾问 Zhamak Dehghani 发表在 martinfowler 官网上的两篇文章How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh和Data Mesh Principles and Logical Architecture。
哒呵呵
2021-03-16
2.8K0
关于 Lakehouse 的一些笔记和看法
这是最经典的数据仓库模型,模型上面的不多说,可以参考数据仓库理论。从技术角度上来说,
哒呵呵
2021-02-24
6800
大公司是如何发展元数据的?
对于数据工程师而言,元数据知识可能是最需要掌握的,却常常又被忽略的一部分。毕竟在平时做需求时,大家都是用 SQL 完成任务,而和领导汇报时,又常常凸显出数据产生的效益,元数据基本上就被忽视了。如果团队里没有人想去整理元数据的话,随着公司的发展,数据源和数据量的不断增多,就会逐渐发现我怎么找不到数据了?这个数据口径到底是怎么回事,哪一个才是对的?等等问题。
哒呵呵
2020-12-29
1.9K0
Procella 数据库的简单介绍
最近看到了一个很有趣的数据库 Procella ,它的架构图就和当初亚马逊公司发布的数据库论文 Aurora 里面的一样,一眼就吸引住我了。
哒呵呵
2020-11-19
8760
浅谈信息茧房的构建和破“茧”的一些思路
信息茧房这个概念起源于2006年出版的凯斯·桑斯坦的《信息乌托邦》一书。2006年的时候,“信息茧房”还是仅仅停留在概念阶段,其赖以成长的技术基础大数据技术也才刚刚成长起来。直到大数据技术成熟,并孕育出像今日头条这类的信息流 APP 时,信息茧房才引起人们的重视。
哒呵呵
2020-06-23
1.3K0
一部《计算机简史》,也是基建与动能的历史
关于《计算机简史》这本书,第一次了解到还是在图灵教育这个公众号上读到了余晟以为为其写的书评《计算机简史这门课,现在补,并不晚》。对于这篇文章里面的观点,比如“但凡学习一个新的知识领域,多半要从了解其历史开始”,非常认同。因为对于自己对于大数据领域的学习而言,真正的入门也是从了解了各个组件的渊源及其发展历史开始的。了解了各个大数据技术历史后,后面又花时间梳理了分布式系统的历史,大数据这块才算是有了一点点的“胸有成竹”的感觉。
哒呵呵
2020-05-27
4380
写在 Python 3.9 即将出世的前夕
今天读 PyCoder's Weekly( PyCoder's Weekly 会收集和整理一周内关于 Python 的最新文章和讨论,并发送给订阅者的邮箱)时候,发现 Python3.9 最新的版本3.9.0a5已经可以用了,有些感慨 Python3.8 还没用起来,Python3.9 就要来了,遂写下此文简单聊下 Python 这门语言。
哒呵呵
2020-05-12
5240
兢兢业业的日志不该被世人遗忘
前一篇文章聊了 Kafka 和日志,有读者希望我能更加深入的说下日志,解释下为什么没有日志这个概念,就没有现在的大数据,没有现在的数据库,为什么笔者会对日志这个概念推崇备至。所以有了这一篇文章。
哒呵呵
2020-05-08
3490
Kafka 和隐藏在它背后的幽灵
趁着周末简单聊下 Kafka。Kafka 基本上已经成为了大数据领域里的消息系统的标配,仿佛做实时处理不知道或者不懂 Kafka 就落伍了一样。不过也确实如此,不像很多大数据领域里的其它组件有很多竞品,比如计算引擎领域有 MapReduce、Spark、Impala、Presto等,资源调度有 Yarn 、K8S 等,诸如此类,不胜枚举。但是在大数据领域的消息系统这块除了近些年宣传的比较火的 Apache Pulsar 勉强一争外,基本上都是 Kafka 一家独大,或者是类似于 Kafka 的架构。那么 Kafka 有什么特别的呢?
哒呵呵
2020-05-08
5060
看得见的与看不见的 - 计算机科学里的 trade-off
政府或企业的每一个决策、每一次行动,甚至不经意间的个人行为都可能会对现实生活中造成影响,其中有些影响是立马可以感受到的,是看得见的,而有些影响是第一时间很难感受到的,是看不见的。经济学里有一个很经典的例子是来说明看得见和看不见的影响,商店主人的儿子把商店的橱窗打破了,然后商店的主人花钱请玻璃工师傅把橱窗修复了,然后玻璃工师傅拿到了修复的费用,在某种程度上,这笔修复的费用使整个资金链运转起来,商店的橱窗修复了,玻璃工师傅有了收入,这是看的见的影响。同样的,还有看不见的影响,商店主人原本可以用这笔钱去创造更大的价值,比如购进新的货物、让商店更好看,然而因为橱窗的打破这笔钱没有了。
哒呵呵
2020-04-23
6360
超越 MapReduce ,要比它更快!
前面介绍了大数据领域里的两个主流引擎:MapReduce 和 Spark 。它们开创了历史,使得世界进入了大数据时代,让很多公司能够处理庞大的数据,并从中找到更多的有价值的东西。所以,Hadoop 刚开始兴起时,大家都兴奋于我终于能够处理这么多数据了,到后面,Hive 被 Facebook 一群人写出来的时候,大家又不用写那么复杂的 MapReduce 程序了,回到了熟悉的 SQL 的怀抱。
哒呵呵
2020-03-25
4290
瞎扯 Hadoop 的历史
在大数据领域里,Hadoop 是谁都绕不开的话题,它基本上已经成为了事实上的标准,无论是什么企业或者是个人,闭源开始开源,都不得不兼容Hadoop生态圈,即使是谷歌也不例外。虽然谷歌作为大数据领域的鼻祖,手握 GFS 、 MapReduce 和 BigTable 三篇论文(下文称为谷歌的“三驾马车”),秒杀Hadoop生态圈,但是在做谷歌云的时候依然不得不捏着鼻子兼容 Hbase 和 HDFS 的接口。因此,这篇文章就闲聊下 Hadoop 是如何发展壮大的。
哒呵呵
2020-02-26
1.4K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档