首页
学习
活动
专区
工具
TVP
发布

HappenLee的技术杂谈

专栏成员
76
文章
97889
阅读量
29
订阅数
Doris开发手记4:倍速性能提升,向量化导入的性能调优实践
来自社区用户的吐槽:向量化导入太慢了啊,我测试了xx数据库,比Doris快不少啊。有招吗?
HappenLee
2022-10-21
1.3K0
Doris开发手记2:用SIMD指令优化存储层的热点代码
最近在进行Doris的部分查询调优工作,通过perf定位CPU执行热点时,发现了以下的热点部分:
HappenLee
2021-07-09
1.1K0
ClickHouse源码笔记6:探究列式存储系统的排序
老规矩,咱们还是先从一个简单的查询出发,通过一步步的通过执行计划按图索骥ClickHouse的执行逻辑。
HappenLee
2021-07-01
9980
ClickHouse源码笔记5:聚合函数的源码再梳理
话不多说,直接上代码,笔者这里会将所有聚合函数的核心接口代码全部列出,一一梳理各个部分:
HappenLee
2021-04-20
8440
ClickHouse源码笔记4:FilterBlockInputStream, 探寻where,having的实现
Selection是关系代数之中重要的一个的一个运算,通常也会用σ符合来selection的实现。
HappenLee
2021-03-01
1.1K0
ClickHouse源码笔记3:函数调用的向量化实现
这里调用一个abs的函数,我们先打开ClickHouse的Debug日志看一下执行计划。(当前ClickHouse不支持使用Explain语句来查看执行计划,这个确实是很蛋疼的~~)
HappenLee
2021-02-22
2K0
Doris开发手记1:解决蛋疼的MySQL 8.0连接问题
使用MySQL 8.0的客户端连接Doris时,如果不添加如下参数--default-auth=mysql_native_password的话,总会出现如下提示的密码认证错误:
HappenLee
2021-02-18
2.7K0
【TBase开源版测评】Hello, TBase
TBase是腾讯基于PostgreSQL研发的一个分布式HTAP数据库,适用于拥有海量数据、高并发、部分分析场景解决,以及分布式事务能力的应用场景。 从现有的资料来看,TBase本身在腾讯内部是经过业务长期迭代打磨的产品,目前在腾讯云上也提供商业化的版本销售。
HappenLee
2020-08-28
2.3K1
ClickHouse源码笔记1:聚合函数的实现
聚合函数: 顾名思义就是对一组数据执行聚合计算并返回结果的函数。 这类函数在数据库之中很常见,如:count, max, min, sum等等。
HappenLee
2020-06-02
3K2
AeroSpike踩坑手记1:Architecture of a Real Time Operational DBMS论文导读
从论文的题目出发,这篇文章的核心在于实时操作数据库的架构,在论文引言之中对Aerospike的定位是一个高性能分布式数据库,用于处理实时的交互式在线服务。所以说,大多数使用Aerospike的场景是实时决策系统,它们有海量的数据规模,并且有严格的SLA要求,同时是百万级别的 QPS,具有ms的查询时延。显然,这样的场景使用传统的 RDMS 是不现实的,在论文之中,提到 Aerospike 的一个典型的应用场景,广告推荐系统,我们来一起看看它们是如何契合的:
HappenLee
2019-01-20
1.6K0
数据模型与查询语言 ------《Designing Data-Intensive Applications》读书笔记2
作为一个开发者来说,在一个复杂的应用程序中,是存在很多分层模型的,但基本思想还是一样的:每一层都提供了一个干净的数据模型,从而隐藏了底层的复杂性。通过这样的抽象来允许不同的人群有效地协同工作。
HappenLee
2018-09-05
7180
数据分区------《Designing Data-Intensive Applications》读书笔记9
分区与副本是很容易混淆的概念,我们这里离清一下两者。 数据分区的每个副本可以存储在多个节点上。这意味着,即使每个记录恰好属于一个分区,它仍然可以存储在几个不同的节点上进行容错。
HappenLee
2018-09-05
5720
副本机制与副本同步------《Designing Data-Intensive Applications》读书笔记6
首先,如果副本的数据不随时间变化,那么副本的管理是比较简单的:只需要将数据复制到每个节点一次,就OK了。副本管理真正的困难在于对副本数据的修改,这会涉及到很多琐碎的问题。其次,副本复制时要考虑许多权衡,使用同步还是异步复制,以及如何处理失效的副本?接下来我们来一一探讨这个问题。
HappenLee
2018-09-05
8750
OLAP与数据仓库------《Designing Data-Intensive Applications》读书笔记4
联机事务处理过程(On-Line Transaction Processing)也就是我们通常称之的OLTP。 联机分析处理过程(On-Line Analysis Processing)则被称为OLAP。
HappenLee
2018-09-05
6600
存储与索引------《Designing Data-Intensive Applications》读书笔记3
键值对数据库是数据库形式之中最简单的一种模式,我们可以把它简化的实现为下面两个函数:
HappenLee
2018-09-05
9800
线性一致性与全序广播------《Designing Data-Intensive Applications》读书笔记12
大多数分布式数据库至少提供了最终一致性,这意味着如果停止对数据库的写操作并等待一段时间,最终所有读请求将返回相同的值。但是,这是一个非常弱的一致性保证,所谓的一段时间并不确定。如果写入一个值,然后立即读取它,就不能保证读取到刚才写入的值。
HappenLee
2018-09-05
1.2K0
数据系统的未来------《Designing Data-Intensive Applications》读书笔记17
对于任何给定的数据问题,总会有多种解决方案。所有这些解决方案都会有不同的优缺点和权衡。因此,最合适的软件工具选择也要视情况而定。每一个软件,甚至一个所谓的“通用”数据库,都是为特定的使用模式而设计的。所以,在复杂的应用程序中,数据工具通常会串联起来共同工作。不存在有一个软件适合于使用数据的所有不同环境,因此不可避免地要将几个不同的软件串联在一起,以便更好帮助应用程序工作。
HappenLee
2018-09-05
9440
事务与隔离级别------《Designing Data-Intensive Applications》读书笔记10
1983年,Andreas Reuter and Theo Härder 提出了事务之中重要的四个特性:
HappenLee
2018-09-05
5020
分布式系统的一致性算法------《Designing Data-Intensive Applications》读书笔记13
原子提交防止了数据库处于半更新的状态,这对于需要满足多对象事务和维护次级索引的数据库尤为重要。每个次级索引都是从主数据中分离出来的数据结构,因此,如果修改某些数据,也需要在次级索引中做出相应的更改。通过原子性保证二级索引能够与原数据保持一致。
HappenLee
2018-09-05
5440
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档