鸿的学习笔记-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

鸿的学习笔记

专栏成员

330

文章

293342

阅读量

49

订阅数

推荐几本书

大数据 TDSQL MySQL 版数据库 sql

这本书的最大特点是通俗易懂，只要有一点点的开发经验就可以读懂这本书。通过这本书，可以很轻易地理解类似于淘宝、京东这样的网站背后是怎么运行的，然后建立起一个比较宏大的视野，了解到自己平时所做的工作在整个团队里的是怎么样的定位。可能唯一的遗憾在于这本书成书于2012年，有些技术已经跟不上现在的技术发展，比如云原生、分布式数据库。

2022-06-08

4190

保证数据质量为什么这么难？

sql 数据处理大数据

关于数据质量的标准有很多，我比较喜欢《DataMan-美团旅行数据质量监管平台实践》文章里的标准：

2022-06-08

5730

sql 网站大数据

突然想到一个问题，对于一个只会写SQL的数据分析师而言，一个好的大数据系统应该是怎么样的呢？

2022-04-14

1540

现代元数据平台

大数据 api html 存储 kafka

这是一个新概念：The Modern Metadata Platform，直译就是现代元数据平台。这个概念是伴随着 Modern Data Stack 概念而生，是其中的一部分。

2022-03-11

6000

闲聊 modern data stack

开源腾讯云数据仓库 TCHouse 大数据编程算法数据分析

2021 年一个有趣的新变化就是：Building the modern stack with open-source data solutions，换成比较容易理解的话，就是基于开源软件构建自己的数据处理流程。如果是在国内玩大数据的人，可能对此还有些不太理解（比如我），现在各家互联网公司基于 Hadoop 生态圈等一系列开源组件构建的大数据平台解决方案早就已经成熟，那modern data stack价值在哪呢？通过对What I Learned From The Open Source Data Stack Conference 2021的阅读，我发现这是为了解决传统企业的数字化转型问题的，让这些企业也能使用上方便高效的处理工具洞察数据，而不用局限于某一家提供闭源的商业解决方案的公司。用文中的话来说，就是通过开源软件，企业可以自己掌控数据，保证用户数据隐私安全，而不用担心数据被第三方公司利用。

2021-12-24

1.3K0

关于数据仓库的一些观点

腾讯云数据仓库 TCHouse hadoop 大数据存储数据湖

2021年有两条主线，一个是生态系统和商业模式的成熟，比如早在2020年就上市的云数据仓库公司 Snowflake 公司站稳了在资本市场的脚跟、Databricks、Dataiku、Datarobot 等公司估值更高了并且募集了大量的资金，甚至正在追求 IPO；另一方面则是新一代的数据和机器学习创业公司正在崛起，无论是几年前还是几个月前成立的公司都在过去一年左右经历了突飞猛进的增长。

2021-10-19

6710

重新解读 MapReduce

windows 分布式 mapreduce 大数据数据库

在没有 MapReduce 编程模型的时候，做分布式系统的大数据量计算都是针对某一问题的开发特定的编程模型，写过代码的都知道这种的开发模式肯定推广不开来，后续的开发和维护都特别麻烦，但是当时也没人想着要弄一个通用的编程模型，直到后面谷歌发表了那篇著名的《MapReduce: Simplified Data Processing on Large Clusters》，大家突然发现原来在编程语言里面常用的编程模型可以用在分布式系统里，而且还能通用。

2021-08-12

2750

大数据知识体系之数据采集

云计算数据挖掘存储网站大数据

数据平台数据采集系统日志采集网络数据采集设备数据采集数据同步数据存储数据计算实时计算离线计算数据挖掘数据服务数据模型数据建模方法论数据模型管理体系表设计数据管理元数据收集和搜索数据血缘数据质量计算任务管理平台成本管理数据应用互联网工业政务

2021-06-17

1.5K0

什么是 Data Mesh ？

数据湖编程算法 https 网络安全大数据

Data Mesh 的概念起源于 ThoughtWorks 的首席技术顾问 Zhamak Dehghani 发表在 martinfowler 官网上的两篇文章How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh和Data Mesh Principles and Logical Architecture。

2021-03-16

3K0

关于 Lakehouse 的一些笔记和看法

大数据存储数据湖数据库 https

这是最经典的数据仓库模型，模型上面的不多说，可以参考数据仓库理论。从技术角度上来说，

2021-02-24

7140

大公司是如何发展元数据的？

https 网络安全大数据 html apache

对于数据工程师而言，元数据知识可能是最需要掌握的，却常常又被忽略的一部分。毕竟在平时做需求时，大家都是用 SQL 完成任务，而和领导汇报时，又常常凸显出数据产生的效益，元数据基本上就被忽视了。如果团队里没有人想去整理元数据的话，随着公司的发展，数据源和数据量的不断增多，就会逐渐发现我怎么找不到数据了？这个数据口径到底是怎么回事，哪一个才是对的？等等问题。

2020-12-29

1.9K0

Procella 数据库的简单介绍

https 大数据网络安全数据库 sql

最近看到了一个很有趣的数据库 Procella ，它的架构图就和当初亚马逊公司发布的数据库论文 Aurora 里面的一样，一眼就吸引住我了。

2020-11-19

9210

浅谈信息茧房的构建和破“茧”的一些思路

大数据推荐系统编程算法

信息茧房这个概念起源于2006年出版的凯斯·桑斯坦的《信息乌托邦》一书。2006年的时候，“信息茧房”还是仅仅停留在概念阶段，其赖以成长的技术基础大数据技术也才刚刚成长起来。直到大数据技术成熟，并孕育出像今日头条这类的信息流 APP 时，信息茧房才引起人们的重视。

2020-06-23

1.4K0

一部《计算机简史》，也是基建与动能的历史

大数据硬件开发

关于《计算机简史》这本书，第一次了解到还是在图灵教育这个公众号上读到了余晟以为为其写的书评《计算机简史这门课，现在补，并不晚》。对于这篇文章里面的观点，比如“但凡学习一个新的知识领域，多半要从了解其历史开始”，非常认同。因为对于自己对于大数据领域的学习而言，真正的入门也是从了解了各个组件的渊源及其发展历史开始的。了解了各个大数据技术历史后，后面又花时间梳理了分布式系统的历史，大数据这块才算是有了一点点的“胸有成竹”的感觉。

2020-05-27

4810

写在 Python 3.9 即将出世的前夕

scala 大数据机器学习神经网络

今天读 PyCoder's Weekly（ PyCoder's Weekly 会收集和整理一周内关于 Python 的最新文章和讨论，并发送给订阅者的邮箱）时候，发现 Python3.9 最新的版本3.9.0a5已经可以用了，有些感慨 Python3.8 还没用起来，Python3.9 就要来了，遂写下此文简单聊下 Python 这门语言。

2020-05-12

5480

兢兢业业的日志不该被世人遗忘

分布式云计算数据库大数据 sql

前一篇文章聊了 Kafka 和日志，有读者希望我能更加深入的说下日志，解释下为什么没有日志这个概念，就没有现在的大数据，没有现在的数据库，为什么笔者会对日志这个概念推崇备至。所以有了这一篇文章。

2020-05-08

3970

Kafka 和隐藏在它背后的幽灵

kafka 大数据分布式官方文档

趁着周末简单聊下 Kafka。Kafka 基本上已经成为了大数据领域里的消息系统的标配，仿佛做实时处理不知道或者不懂 Kafka 就落伍了一样。不过也确实如此，不像很多大数据领域里的其它组件有很多竞品，比如计算引擎领域有 MapReduce、Spark、Impala、Presto等，资源调度有 Yarn 、K8S 等，诸如此类，不胜枚举。但是在大数据领域的消息系统这块除了近些年宣传的比较火的 Apache Pulsar 勉强一争外，基本上都是 Kafka 一家独大，或者是类似于 Kafka 的架构。那么 Kafka 有什么特别的呢？

2020-05-08

5300

看得见的与看不见的 - 计算机科学里的 trade-off

文件存储编程算法大数据缓存

政府或企业的每一个决策、每一次行动，甚至不经意间的个人行为都可能会对现实生活中造成影响，其中有些影响是立马可以感受到的，是看得见的，而有些影响是第一时间很难感受到的，是看不见的。经济学里有一个很经典的例子是来说明看得见和看不见的影响，商店主人的儿子把商店的橱窗打破了，然后商店的主人花钱请玻璃工师傅把橱窗修复了，然后玻璃工师傅拿到了修复的费用，在某种程度上，这笔修复的费用使整个资金链运转起来，商店的橱窗修复了，玻璃工师傅有了收入，这是看的见的影响。同样的，还有看不见的影响，商店主人原本可以用这笔钱去创造更大的价值，比如购进新的货物、让商店更好看，然而因为橱窗的打破这笔钱没有了。

2020-04-23

6820

超越 MapReduce ，要比它更快！

网站 mapreduce 大数据 apache sql

前面介绍了大数据领域里的两个主流引擎：MapReduce 和 Spark 。它们开创了历史，使得世界进入了大数据时代，让很多公司能够处理庞大的数据，并从中找到更多的有价值的东西。所以，Hadoop 刚开始兴起时，大家都兴奋于我终于能够处理这么多数据了，到后面，Hive 被 Facebook 一群人写出来的时候，大家又不用写那么复杂的 MapReduce 程序了，回到了熟悉的 SQL 的怀抱。

2020-03-25

4520

瞎扯 Hadoop 的历史

hadoop mapreduce 开源大数据爬虫

在大数据领域里，Hadoop 是谁都绕不开的话题，它基本上已经成为了事实上的标准，无论是什么企业或者是个人，闭源开始开源，都不得不兼容Hadoop生态圈，即使是谷歌也不例外。虽然谷歌作为大数据领域的鼻祖，手握 GFS 、 MapReduce 和 BigTable 三篇论文（下文称为谷歌的“三驾马车”），秒杀Hadoop生态圈，但是在做谷歌云的时候依然不得不捏着鼻子兼容 Hbase 和 HDFS 的接口。因此，这篇文章就闲聊下 Hadoop 是如何发展壮大的。

2020-02-26

1.5K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态