鸿的学习笔记-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

鸿的学习笔记

专栏成员

330

文章

293113

阅读量

49

订阅数

推荐几本书

大数据 TDSQL MySQL 版数据库 sql

这本书的最大特点是通俗易懂，只要有一点点的开发经验就可以读懂这本书。通过这本书，可以很轻易地理解类似于淘宝、京东这样的网站背后是怎么运行的，然后建立起一个比较宏大的视野，了解到自己平时所做的工作在整个团队里的是怎么样的定位。可能唯一的遗憾在于这本书成书于2012年，有些技术已经跟不上现在的技术发展，比如云原生、分布式数据库。

2022-06-08

4170

保证数据质量为什么这么难？

sql 数据处理大数据

关于数据质量的标准有很多，我比较喜欢《DataMan-美团旅行数据质量监管平台实践》文章里的标准：

2022-06-08

5720

sql 网站大数据

突然想到一个问题，对于一个只会写SQL的数据分析师而言，一个好的大数据系统应该是怎么样的呢？

2022-04-14

1540

数据工程师的未来

Apache Airflow 和 Apache Superset 的创建者 Maxime Beauchemin 写了一篇文章讨论数据工程师的未来，其中讲述了他对数据工程师的现状的认知和未来发展的猜测，可供大家参考。

2021-11-02

5730

使用 SQL 也能玩转机器学习

sql 机器学习神经网络深度学习人工智能

最近看到一篇文章：https://rudderstack.com/blog/churn-prediction-with-bigqueryml，主要是讲使用 BigQueryML 进行流失预测。首先解释下 BigQueryML 是什么，简而言之，就是使用 SQL 也可以完成机器学习模型的构建。

2021-11-02

7370

流计算和数据库表的关联

sql windows kafka

前面的那篇文章《再谈流计算的基本概念》提到了 Dataflow 模型，这个模型从更高的维度去看待看似隔离的批处理和流处理过程，把批处理过程认为是流处理过程的特例。基于这个模型，诞生了Spark Structure Streaming、Flink 和 Apache Beam 等一系列工具。

2021-08-12

8150

Database of Databases 搜索引擎的妙用

TDSQL MySQL 版 node.js postgresql linux sql

最近在用 Database of Databases 去查询TiDB 、PolarDB、SequoiaDB、OceanBase的相关资料并做了一些简单的对比。比如像下面那个表格一样，可以对这四个数据库的基本信息进行对比。

2021-07-19

7400

关于 HTAP 数据库应用场景的一些想法

kafka 数据库 sql oracle

昨天发了一篇文章讨论的是关系型数据库的变化数据如何同步到数据仓库层面，类似于 MySQL 的 binlog 日志同步到数据仓库进行 OLAP 分析。OLTP环境下的数据库数据同步到OLAP环境下的数据仓库，解决方案逃不过三种类型:

2021-06-17

8350

评谷歌新发布的编程语言：Logica

sqlite postgresql sql android 数据库

周末读 Data Engineering Weekly 发现谷歌在四月二十一号的时候 Google Open Source Blog 发表了一篇文章 Logica: organizing your data queries, making them universally reusable and fun 介绍了其谷歌公司内部的一种崭新的开源逻辑编程语言 Logica。

2021-05-13

7920

2020 年 DB Weekly 上最佳的六篇文章

https 网络安全云数据库 SQL Server 数据库 sql

DB Weekly 是我每周都要看的一个关于数据库方向的内容推送。这个公众号的一些文章其实就是来源于 DB Weekly。上周是 2020 年 DB Weekly 最后一篇推送，评选了今年最佳的六篇文章，我花了一周时间读了一遍，发现这个评选没啥问题。遂简单翻译如下：

2020-12-29

5130

Procella 数据库的简单介绍

https 大数据网络安全数据库 sql

最近看到了一个很有趣的数据库 Procella ，它的架构图就和当初亚马逊公司发布的数据库论文 Aurora 里面的一样，一眼就吸引住我了。

2020-11-19

9190

数据湖及其架构的一份笔记

https 网络安全数据湖数据库 sql

数据湖（Data Lake）是一个存储企业的各种各样原始数据的大型仓库，其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库，通常是对象blob或文件。数据湖通常是企业所有数据的单一存储，包括源系统数据的原始副本，以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库（行和列）的结构化数据，半结构化数据（CSV，日志，XML，JSON），非结构化数据（电子邮件，文档，PDF）和二进制数据（图像，音频，视频）。

2020-09-01

1.9K0

分布式系统的一个简单的学习框架

分布式数据库 sql 编程算法

最近在看 Martin Fowler 网站上的Patterns of Distributed Systems系列文章，突然想到，是不是也写一篇文章简单梳理一些分布式系统的学习框架，方便以后查阅，于是就有了这篇文章。下篇文章将会编译Patterns of Distributed Systems系列文章，大家可以与这篇文章对比下，选择自己合适的方式学习。

2020-08-25

5700

谷歌的 Spanner 数据库是如何一步步支持 SQL 语法的

api TDSQL MySQL 版 https 网络安全 sql

Spanner 之前是一个键值数据库，与现在谈论的 Spanner 是完全不同的东西。在设计之初，Spanner 就支持事务、外部一致性和透明的故障转移。到后面，Spanner 开始支持带类型的数据库表结构和其它的一些关系型数据库功能，以及支持了 SQL 功能。而现在我们正在努力改进 SQL 语法的兼容性和关系型数据库功能。

2020-08-05

1.2K0

Oracle 数据库编程语言 PL/SQL 的历史

oracle ide sql 数据库 https

在世界编程语言排行榜里，PL/SQL 一直稳稳占据着前二十的位置。尽管我不是 Matthew Symonds，也与 Softwar 这本书无关，但我依然花费了大量的精力在研究 PL/SQL 的历史上。“Oracle 7 架构非常领先，并像 Sybase 数据库一样，Oracle 7 可以使用全新而优雅的 PL/SQL 编程语言进行编程” ，这也是我为什么会写下关于 PL/SQL 历史的文章的原因。

2020-07-22

1.6K0

写在 Spark3.0 发布之后的一篇随笔

sql 机器学习神经网络深度学习

Spark3.0 从2019年开始就说要准备发布了，然后就一直期待这个版本，毕竟对于 Spark 而言，这是一个大版本的跨越，从 2.4 直接到了 3.0，而之前发布都是 Spark2.0 到 Spark2.4 这种小版本的更新。按照 Databricks 博客的说法，这是一次“the culmination of tremendous contributions from the open-source community”(是开源社区有史以来贡献力度最大的一次)。事实上也是如此，最近发布的 Spark3.0 新特性没有让人失望。

2020-06-23

1.3K0

兢兢业业的日志不该被世人遗忘

分布式云计算数据库大数据 sql

前一篇文章聊了 Kafka 和日志，有读者希望我能更加深入的说下日志，解释下为什么没有日志这个概念，就没有现在的大数据，没有现在的数据库，为什么笔者会对日志这个概念推崇备至。所以有了这一篇文章。

2020-05-08

3970

计算应该与存储分离吗？

存储 hadoop 云计算数据分析 sql

这篇文章构思了很久，因为我不是做计算机底层研究的，也没做过数据库，一直在应用层打转转，最多读过几篇相关的文章，所以担心我的知识储备不够写这么一篇比较严肃的话题，后来有朋友说服了我，可以不聊纯技术方面，而是谈谈笔者对大数据时代，计算与存储应该分离吗？于是就有了本文。注意，本文不牵扯到具体的技术细节和代码，要是被读者发现了有错误，请大胆指出。

2020-04-23

2.3K0

不负责任的聊下 Apache Doris

apache hive 数据库云数据库 SQL Server sql

应读者的要求，这篇文章简单聊聊 Apache Doris。说实话，Apache Doris 比前面提到的 Impala 、Presto 这些交互式查询引擎还要不熟。仅仅以自己的经验简单评述下 Apache Doris。

2020-04-07

8.9K1

超越 MapReduce ，要比它更快！

网站 mapreduce 大数据 apache sql

前面介绍了大数据领域里的两个主流引擎：MapReduce 和 Spark 。它们开创了历史，使得世界进入了大数据时代，让很多公司能够处理庞大的数据，并从中找到更多的有价值的东西。所以，Hadoop 刚开始兴起时，大家都兴奋于我终于能够处理这么多数据了，到后面，Hive 被 Facebook 一群人写出来的时候，大家又不用写那么复杂的 MapReduce 程序了，回到了熟悉的 SQL 的怀抱。

2020-03-25

4520

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态