HappenLee的技术杂谈-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

HappenLee的技术杂谈

专栏成员

76

文章

98093

阅读量

29

订阅数

可靠的、可扩展的、可维护的数据系统 ------《Designing Data-Intensive Applications》读书笔记1

作为一个开发者来说，目前绝大多数应用程序都是数据密集型的，而不是计算密集型的。CPU的计算能力不再成为这些应用程序的限制因素，而更加亟待解决的问题是海量的数据、数据结构之间的复杂性，应用的性能。

2018-09-05

1.1K0

数据分区------《Designing Data-Intensive Applications》读书笔记9

编程算法数据库 sql zookeeper 存储

分区与副本是很容易混淆的概念，我们这里离清一下两者。数据分区的每个副本可以存储在多个节点上。这意味着，即使每个记录恰好属于一个分区，它仍然可以存储在几个不同的节点上进行容错。

2018-09-05

5730

副本机制与副本同步------《Designing Data-Intensive Applications》读书笔记6

数据库 sql 存储

首先，如果副本的数据不随时间变化，那么副本的管理是比较简单的：只需要将数据复制到每个节点一次，就OK了。副本管理真正的困难在于对副本数据的修改，这会涉及到很多琐碎的问题。其次，副本复制时要考虑许多权衡，使用同步还是异步复制，以及如何处理失效的副本？接下来我们来一一探讨这个问题。

2018-09-05

8760

编码与模式------《Designing Data-Intensive Applications》读书笔记5

1、在内存中，数据是保存在对象、结构、列表、数组、哈希表、树、等等。这些数据结构在内存之中被优化为CPU可以高效访问和操作的结构（通常这是操作系统的任务，并不需要程序员操心）。

2018-09-05

1.4K0

流处理与消息队列------《Designing Data-Intensive Applications》读书笔记16

在流处理之中，当输入是文件时，第一个处理步骤通常是将其解析为一连串的记录。在流处理之中，记录通常被称为事件，每个事件都是一个小的、独立的、不可变的对象，通常每个事件包含一个时间戳，表明事件产生的时间。在流处理之中，事件由生产者产生，然后可能由多个对应消费者，相关的事件通常被分组到同一个主题之中。

2018-09-05

1.1K0

大数据小视角1：从行存储到RCFile

数据的布局结构深刻的影响着数据处理的效率与性能，在底层的存储系统之中如何组织数据。如何对数据进行布局会直接影响数据查询引擎的设计与实现，并且也影响着存储空间的利用效率。好的数据存储与布局能够更好的利用好存储空间，并且契合业务应用场景的查询实践。接下来，我们来看看存储数据的格式是如何随着数据需求的不同进行变迁的。

2018-09-05

8690

大数据小视角3：CarbonData，来自华为的中国力量

对于OLAP查询来说，存在多种不同类型的查询，存储结构的不同会影响到不同查询的数据表现。所以CarbonData的定位是作为一种通用的查询存储数据，通过Spark SQL来解决海量查询的问题，并且能够与Hadoop生态圈进行无缝对接。CarbonData最初的应用是与Spark SQL和Spark DataFrame深度结合，后续由携程团队将CarbonData引入了Presto，滴滴团队将CarbonData引入Hive。

2018-09-05

8820

MapReduce与批处理------《Designing Data-Intensive Applications》读书笔记14

批处理系统通常也叫脱机系统，需要大量的输入数据，运行一个作业来处理它，并产生一些输出数据。工作通常需要一段较长的时间（从几分钟到几天）。批处理作业通常是周期性地运行的（例如，一天一次）。批处理作业的主要性能度量通常是吞吐量。

2018-09-05

6870

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态