首页
学习
活动
专区
工具
TVP
发布

鸿的学习笔记

专栏成员
330
文章
292970
阅读量
49
订阅数
Modern data stack的前世今生
古老的大数据技术孕育了云计算,从云计算中衍生出了SaaS、PaaS等云服务,而云服务又让大数据技术在新时代获得了新生。
哒呵呵
2022-06-08
9220
推荐几本书
这本书的最大特点是通俗易懂,只要有一点点的开发经验就可以读懂这本书。通过这本书,可以很轻易地理解类似于淘宝、京东这样的网站背后是怎么运行的,然后建立起一个比较宏大的视野,了解到自己平时所做的工作在整个团队里的是怎么样的定位。可能唯一的遗憾在于这本书成书于2012年,有些技术已经跟不上现在的技术发展,比如云原生、分布式数据库。
哒呵呵
2022-06-08
4170
重新解读 MapReduce
在没有 MapReduce 编程模型的时候,做分布式系统的大数据量计算都是针对某一问题的开发特定的编程模型,写过代码的都知道这种的开发模式肯定推广不开来,后续的开发和维护都特别麻烦,但是当时也没人想着要弄一个通用的编程模型,直到后面谷歌发表了那篇著名的《MapReduce: Simplified Data Processing on Large Clusters》,大家突然发现原来在编程语言里面常用的编程模型可以用在分布式系统里,而且还能通用。
哒呵呵
2021-08-12
2750
关于 HTAP 数据库应用场景的一些想法
昨天发了一篇文章讨论的是关系型数据库的变化数据如何同步到数据仓库层面,类似于 MySQL 的 binlog 日志同步到数据仓库进行 OLAP 分析。OLTP环境下的数据库数据同步到OLAP环境下的数据仓库,解决方案逃不过三种类型:
哒呵呵
2021-06-17
8350
评谷歌新发布的编程语言:Logica
周末读 Data Engineering Weekly 发现谷歌在四月二十一号的时候 Google Open Source Blog 发表了一篇文章 Logica: organizing your data queries, making them universally reusable and fun 介绍了其谷歌公司内部的一种崭新的开源逻辑编程语言 Logica。
哒呵呵
2021-05-13
7880
Kafka 能成为一个数据库吗?
近些年,圈子里有一个讨论很有趣,是关于 Kafka 到底可不可以认为是一个数据库,这个讨论起始于2017年,并由此衍生出了 KSQL、KarelDB 等基于 Kafka 完成的数据库。这篇文章简单回顾下争论双方的观点。
哒呵呵
2021-03-16
1.4K0
关于 Lakehouse 的一些笔记和看法
这是最经典的数据仓库模型,模型上面的不多说,可以参考数据仓库理论。从技术角度上来说,
哒呵呵
2021-02-24
7110
2020 年 DB Weekly 上最佳的六篇文章
DB Weekly 是我每周都要看的一个关于数据库方向的内容推送。这个公众号的一些文章其实就是来源于 DB Weekly。上周是 2020 年 DB Weekly 最后一篇推送,评选了今年最佳的六篇文章,我花了一周时间读了一遍,发现这个评选没啥问题。遂简单翻译如下:
哒呵呵
2020-12-29
5130
Procella 数据库的简单介绍
最近看到了一个很有趣的数据库 Procella ,它的架构图就和当初亚马逊公司发布的数据库论文 Aurora 里面的一样,一眼就吸引住我了。
哒呵呵
2020-11-19
9190
推荐一个学习和了解数据库知识的网站
最近发现一个有趣的网站,是专门收集世界上所有的数据库信息的网站,类似于维基百科性质的,名字也很有趣叫做Database of Databases,翻译成中文也就是“数据库的数据库”。上网搜了下相关信息,注意到这个网站是由卡内基梅隆大学开发的,目前包含了 721 个数据库信息,数量还在不断增加中。由于收集了互联网上的相关信息,因此这个网站也特地做了一个排行榜,从这个排行榜可以发现一些很有趣的信息,比如:
哒呵呵
2020-09-24
1.5K2
数据湖及其架构的一份笔记
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
哒呵呵
2020-09-01
1.9K0
分布式系统的一个简单的学习框架
最近在看 Martin Fowler 网站上的Patterns of Distributed Systems系列文章,突然想到,是不是也写一篇文章简单梳理一些分布式系统的学习框架,方便以后查阅,于是就有了这篇文章。下篇文章将会编译Patterns of Distributed Systems系列文章,大家可以与这篇文章对比下,选择自己合适的方式学习。
哒呵呵
2020-08-25
5700
Oracle 数据库编程语言 PL/SQL 的历史
在世界编程语言排行榜里,PL/SQL 一直稳稳占据着前二十的位置。尽管我不是 Matthew Symonds,也与 Softwar 这本书无关,但我依然花费了大量的精力在研究 PL/SQL 的历史上。“Oracle 7 架构非常领先,并像 Sybase 数据库一样,Oracle 7 可以使用全新而优雅的 PL/SQL 编程语言进行编程” ,这也是我为什么会写下关于 PL/SQL 历史的文章的原因。
哒呵呵
2020-07-22
1.6K0
兢兢业业的日志不该被世人遗忘
前一篇文章聊了 Kafka 和日志,有读者希望我能更加深入的说下日志,解释下为什么没有日志这个概念,就没有现在的大数据,没有现在的数据库,为什么笔者会对日志这个概念推崇备至。所以有了这一篇文章。
哒呵呵
2020-05-08
3970
不负责任的聊下 Apache Doris
应读者的要求,这篇文章简单聊聊 Apache Doris。说实话,Apache Doris 比前面提到的 Impala 、Presto 这些交互式查询引擎还要不熟。仅仅以自己的经验简单评述下 Apache Doris。
哒呵呵
2020-04-07
8.9K1
大数据领域里的独行侠-Dynamo风格数据库
上篇文章聊了下 Hbase ,这篇聊一下 Hbase 的“孪生兄弟”Dynamo风格的数据库,比如 Riak 、Cassandra。在大数据领域混的人大概都知道谷歌发表的 BigTable 的论文,但是对亚马逊的 Dynamo 论文就不太清楚了。当然这也有可能是因为其开源实现 Cassandra 不怎么出名有关。
哒呵呵
2020-03-13
9540
简单聊聊 Spark 的诞生史
这篇文章是关于 Spark 的,说实话,我是很犹豫写这篇文章的,因为 Spark 在国内非常火,大牛不计其数并且相关的文章也数不胜数,要找准一个有趣的角度去畅抒 Spark 是很难的。
哒呵呵
2020-03-12
1.1K0
瞎扯 Hbase ,很多人都理解错了
今天扯一下 Hbase ,我对 Hbase 的了解起源于两篇文章Understanding HBase and BigTable和《李逵麻子,李鬼坑人--BigTable的数据模型》;这两篇本质上还是一篇文章,《李逵麻子,李鬼坑人--BigTable的数据模型》类似于Understanding HBase and BigTable的中文版讲解。还好的是我是先读的这两篇文章,再去看 Hbase 的官方文档和使用 Hbase ,否则真有可能被 Hbase 的概念给糊弄进去了。要知道,对一个软件或者工具,要想深刻理解和使用它,第一印象很重要,它决定你学习的进度,要是弄错了,学习的时候就会很痛苦,怎么也无法理解这个工具怎么设计的。
哒呵呵
2020-02-26
7550
谈谈 Spanner 和 NewSQL
关于昨天 Spanner 的文字,有人问 NewSQL 为什么会起名为 New,Spanner 的应用场景又是怎样的?那么这篇就顺着大数据的历史继续聊。
哒呵呵
2020-02-26
8970
分析 Google Cloud Spanner 的架构
在2005、2006年期间,谷歌内部大规模使用了 MySQL 数据库。其中Google Adwords (谷歌广告部门)使用了 90 多个 MySQL Shards(分片)集群方案存储数据,是谷歌内部使用 MySQL 数据库的最大的部门之一。由于系统维护的原因,谷歌广告部门重新规划了 MySQL 集群,整个过程花了 2 年时间。因为谷歌知道它们的数据增长的非常快,再使用 MySQL 这类数据库到未来的某个时刻会非常痛苦。这就是 Spanner 的诞生原因。
哒呵呵
2020-02-19
3.4K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档