鸿的学习笔记

247 篇文章
33 人订阅

全部文章

哒呵呵

埋点系统杂谈

做埋点系统的初衷很简单,就是想更加详细了解用户是如何使用我们的产品,并串联起已有的线下数据,从而更好为用户提供服务。

733
哒呵呵

深入分析Python的内存机制

当一个程序需要处理成千上万的object时,为object选择合适的数据结构减少内存的占用量就成了一个很重要的问题。 毕竟一台服务器的内存终究还是有限的。本文就...

982
哒呵呵

简单聊聊数据存储格式

在现实生活中存在着两个不同的数据处理模型,一个是OLTP,另一个是OLAP。两者的区别不在这篇文章详细叙述,感兴趣的可以阅读参考文章。因为OLAP和OLTP所面...

962
哒呵呵

数据平台的那些事(2)

任务调度系统在数据平台中算是非常核心的组件了。在日常的数据处理中,定时运行一些业务是很常见的事,比如定时从数据库将新增数据导入到数据平台,将数据平台处理后的数据...

853
哒呵呵

从历史角度看待科技

科技正在改变着我们的生活。回看近两百年的社会,甚至十几年前的社会,都会让人升起一种恍若隔世的感觉。举个例子:十几年前谁能想象得出一个没有现金或者银行卡的人要怎么...

901
哒呵呵

数据平台的那些事(1)

这篇文章和大家谈谈数据平台中的数据传输层,以及为什么需要数据传输,有哪些解决方案和应用。

951
哒呵呵

如何基于事件流去构建业务系统

随着产品复杂度的提升和微服务架构的流行,一个业务系统背后的数据存储系统也越来越复杂。

1082
哒呵呵

换个视角看SQL Join

本文主要讨论Streaming Join。在Stream & Table Theory的基础上,我们给Classic SQL引入了时间维度,并提出了Time-V...

873
哒呵呵

数据平台的那些事(0)

笔者在大数据领域工作差不多三年了,从第一次接触大数据时的懵懂到现在负责一个服务着上亿用户的数据平台,也算是有了一些小小的经验,借此付诸于笔墨。数据平台是个很庞大...

992
哒呵呵

Presto对ORC格式的优化

最近Presto的官网发表了一篇文章,叙述了新版本的Presto对ORC格式读取的性能优化过程,包含了很多代码细节,非常有趣,故进行简单编译。

2044
哒呵呵

Streaming SQL基础

基于 Stream & Table relativity,《Streaming Systems》将 declarative 的编程方式往前推进到数据系统中最常用...

1365
哒呵呵

实时计算实践:快速分析实时数据的解决方案

在分布式系统中,根据应用的场景选择对应的数据存储方式是非常重要的一件事。这篇文章讨论的是在实时数据不断进入的情况下,如何结合历史数据进行快速分析。

1392
哒呵呵

《Streaming Systems》第五章-精确一次处理

今天的文章简单提下所谓的流计算中精确一次处理的实现。所谓精确一次处理是相对于至少一次和至多一次处理而言的,由系统保证在整个处理过程中所有数据有且仅被处理一次。

1233
哒呵呵

2019-03-31的一周好文推荐

https://kudu.apache.org/2019/03/19/testing-apache-kudu-applications-on-the-jvm.h...

762
哒呵呵

简单聊下最近我对数据系统的看法

1. 因为面向对象语言和关系性数据库存在阻抗不匹配(impedance mismatch),并且随着需要处理的数据量增大,文档型数据以“NoSQL”的名义获得了...

1054
哒呵呵

流表相对论

《Streaming Systems》第二部分讨论的是Stream and Table Relativity,翻译过来就是流表相对论。从Stream and T...

962
哒呵呵

一周好文推荐

942
哒呵呵

一周好文推荐

561
哒呵呵

由Dataflow模型聊Flink和Spark

Dataflow模型(或者说Beam模型)旨在建立一套准确可靠的关于流处理的解决方案。在Dataflow模型提出以前,流处理常被认为是一种不可靠但低延迟的处理方...

1702
哒呵呵

《Streaming Systems》第四章-窗口

《Streaming Systems》第四章相较于前三个章节更为复杂,倘若不是作者给出了大量的动图,恐怕大部分读者都会晕乎乎的了吧(所以强烈建议这一章观看Saf...

1073

扫码关注云+社区

领取腾讯云代金券