首页
学习
活动
专区
工具
TVP
发布

鸿的学习笔记

专栏作者
330
文章
280985
阅读量
49
订阅数
推荐几本书
这本书的最大特点是通俗易懂,只要有一点点的开发经验就可以读懂这本书。通过这本书,可以很轻易地理解类似于淘宝、京东这样的网站背后是怎么运行的,然后建立起一个比较宏大的视野,了解到自己平时所做的工作在整个团队里的是怎么样的定位。可能唯一的遗憾在于这本书成书于2012年,有些技术已经跟不上现在的技术发展,比如云原生、分布式数据库。
哒呵呵
2022-06-08
3800
保证数据质量为什么这么难?
关于数据质量的标准有很多,我比较喜欢《DataMan-美团旅行数据质量监管平台实践》文章里的标准:
哒呵呵
2022-06-08
5150
一些闲谈
突然想到一个问题,对于一个只会写SQL的数据分析师而言,一个好的大数据系统应该是怎么样的呢?
哒呵呵
2022-04-14
1450
数据工程师的未来
Apache Airflow 和 Apache Superset 的创建者 Maxime Beauchemin 写了一篇文章讨论数据工程师的未来,其中讲述了他对数据工程师的现状的认知和未来发展的猜测,可供大家参考。
哒呵呵
2021-11-02
5540
使用 SQL 也能玩转机器学习
最近看到一篇文章:https://rudderstack.com/blog/churn-prediction-with-bigqueryml,主要是讲使用 BigQueryML 进行流失预测。首先解释下 BigQueryML 是什么,简而言之,就是使用 SQL 也可以完成机器学习模型的构建。
哒呵呵
2021-11-02
6770
流计算和数据库表的关联
前面的那篇文章《再谈流计算的基本概念》提到了 Dataflow 模型,这个模型从更高的维度去看待看似隔离的批处理和流处理过程,把批处理过程认为是流处理过程的特例。基于这个模型,诞生了Spark Structure Streaming、Flink 和 Apache Beam 等一系列工具。
哒呵呵
2021-08-12
7920
Database of Databases 搜索引擎的妙用
最近在用 Database of Databases 去查询TiDB 、PolarDB、SequoiaDB、OceanBase的相关资料并做了一些简单的对比。比如像下面那个表格一样,可以对这四个数据库的基本信息进行对比。
哒呵呵
2021-07-19
6950
关于 HTAP 数据库应用场景的一些想法
昨天发了一篇文章讨论的是关系型数据库的变化数据如何同步到数据仓库层面,类似于 MySQL 的 binlog 日志同步到数据仓库进行 OLAP 分析。OLTP环境下的数据库数据同步到OLAP环境下的数据仓库,解决方案逃不过三种类型:
哒呵呵
2021-06-17
8060
评谷歌新发布的编程语言:Logica
周末读 Data Engineering Weekly 发现谷歌在四月二十一号的时候 Google Open Source Blog 发表了一篇文章 Logica: organizing your data queries, making them universally reusable and fun 介绍了其谷歌公司内部的一种崭新的开源逻辑编程语言 Logica。
哒呵呵
2021-05-13
7610
2020 年 DB Weekly 上最佳的六篇文章
DB Weekly 是我每周都要看的一个关于数据库方向的内容推送。这个公众号的一些文章其实就是来源于 DB Weekly。上周是 2020 年 DB Weekly 最后一篇推送,评选了今年最佳的六篇文章,我花了一周时间读了一遍,发现这个评选没啥问题。遂简单翻译如下:
哒呵呵
2020-12-29
4870
Procella 数据库的简单介绍
最近看到了一个很有趣的数据库 Procella ,它的架构图就和当初亚马逊公司发布的数据库论文 Aurora 里面的一样,一眼就吸引住我了。
哒呵呵
2020-11-19
8760
数据湖及其架构的一份笔记
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
哒呵呵
2020-09-01
1.8K0
分布式系统的一个简单的学习框架
最近在看 Martin Fowler 网站上的Patterns of Distributed Systems系列文章,突然想到,是不是也写一篇文章简单梳理一些分布式系统的学习框架,方便以后查阅,于是就有了这篇文章。下篇文章将会编译Patterns of Distributed Systems系列文章,大家可以与这篇文章对比下,选择自己合适的方式学习。
哒呵呵
2020-08-25
5530
谷歌的 Spanner 数据库是如何一步步支持 SQL 语法的
Spanner 之前是一个键值数据库,与现在谈论的 Spanner 是完全不同的东西。在设计之初,Spanner 就支持事务、外部一致性和透明的故障转移。到后面,Spanner 开始支持带类型的数据库表结构和其它的一些关系型数据库功能,以及支持了 SQL 功能。而现在我们正在努力改进 SQL 语法的兼容性和关系型数据库功能。
哒呵呵
2020-08-05
1.2K0
Oracle 数据库编程语言 PL/SQL 的历史
在世界编程语言排行榜里,PL/SQL 一直稳稳占据着前二十的位置。尽管我不是 Matthew Symonds,也与 Softwar 这本书无关,但我依然花费了大量的精力在研究 PL/SQL 的历史上。“Oracle 7 架构非常领先,并像 Sybase 数据库一样,Oracle 7 可以使用全新而优雅的 PL/SQL 编程语言进行编程” ,这也是我为什么会写下关于 PL/SQL 历史的文章的原因。
哒呵呵
2020-07-22
1.5K0
写在 Spark3.0 发布之后的一篇随笔
Spark3.0 从2019年开始就说要准备发布了,然后就一直期待这个版本,毕竟对于 Spark 而言,这是一个大版本的跨越,从 2.4 直接到了 3.0,而之前发布都是 Spark2.0 到 Spark2.4 这种小版本的更新。按照 Databricks 博客的说法,这是一次“the culmination of tremendous contributions from the open-source community”(是开源社区有史以来贡献力度最大的一次)。事实上也是如此,最近发布的 Spark3.0 新特性没有让人失望。
哒呵呵
2020-06-23
1.3K0
兢兢业业的日志不该被世人遗忘
前一篇文章聊了 Kafka 和日志,有读者希望我能更加深入的说下日志,解释下为什么没有日志这个概念,就没有现在的大数据,没有现在的数据库,为什么笔者会对日志这个概念推崇备至。所以有了这一篇文章。
哒呵呵
2020-05-08
3490
计算应该与存储分离吗?
这篇文章构思了很久,因为我不是做计算机底层研究的,也没做过数据库,一直在应用层打转转,最多读过几篇相关的文章,所以担心我的知识储备不够写这么一篇比较严肃的话题,后来有朋友说服了我,可以不聊纯技术方面,而是谈谈笔者对大数据时代,计算与存储应该分离吗?于是就有了本文。注意,本文不牵扯到具体的技术细节和代码,要是被读者发现了有错误,请大胆指出。
哒呵呵
2020-04-23
2.3K0
不负责任的聊下 Apache Doris
应读者的要求,这篇文章简单聊聊 Apache Doris。说实话,Apache Doris 比前面提到的 Impala 、Presto 这些交互式查询引擎还要不熟。仅仅以自己的经验简单评述下 Apache Doris。
哒呵呵
2020-04-07
8.6K1
超越 MapReduce ,要比它更快!
前面介绍了大数据领域里的两个主流引擎:MapReduce 和 Spark 。它们开创了历史,使得世界进入了大数据时代,让很多公司能够处理庞大的数据,并从中找到更多的有价值的东西。所以,Hadoop 刚开始兴起时,大家都兴奋于我终于能够处理这么多数据了,到后面,Hive 被 Facebook 一群人写出来的时候,大家又不用写那么复杂的 MapReduce 程序了,回到了熟悉的 SQL 的怀抱。
哒呵呵
2020-03-25
4290
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档