Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Greenplum系统参数对性能的影响

Greenplum系统参数对性能的影响

原创
作者头像
小徐
修改于 2021-04-22 09:48:33
修改于 2021-04-22 09:48:33
1.4K00
代码可运行
举报
文章被收录于专栏:GreenplumGreenplum
运行总次数:0
代码可运行

数据库中表储存的模式对性能的影响

HEAP表

行存

不压缩

行存

AO表

(orientation=row)

可压缩

(appendonly=true)

列存

(compresstype=zlib,COMPRESSLEVEL=5)

(orientation=column)

类型

创建说明

特点

堆表(heap)

默认或appendonly=false

表中数据不能压缩,堆表只能是行存表,适合数据经常更新,删除,的oltp类型的负载,通常表中的数据量不大,适合用作维度表

追加优化表

appendonly=true

表中数据可以压缩,通常用户只读类型的查询,针对数据批量插入做了优化,不推荐以插入单条数据的方式载入数据。适合用于事务表

行存表

默认或orientation=row

适合用于oltp类型的工作负载

列存表

orientation=column

适合用于数据仓库负载,必须同时制定该表为append optimized,表中数据可以压缩

储存大小对比

类型

文件

堆储存

AO表行存

AO表列存

AO表行存压缩

AO表列存压缩

大小

35G

32G

34G

30G

13G

6822MB

建立压缩表的例子

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
create  table   temp  with (appendonly = true,orientation = row,compresstype = zlib , COMPRESSLEVEL = 5 ) as select *  from pg_tables distributed  randomly;

说明

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
压缩比例越高在数据库中的占用大小越小,在查询数据时减小I/O的开销。当在查询数据时解压的速度大于网络的传输速度,便能提高速度。

GPFDIST 参数设置对性能的影响

参数名

说明

writable_external_table_bufsize

控制主实例向文件服务器发送数据包的大小,默认64kb

gp_external_max_segs

控制访问文件服务器的实例数量,默认64

测试环境及测试方法

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
以下测试的集群环境
1、服务器数量20
2、主备实例数:160
3、网络速率:万兆

gpfdist 导出控制参数writable_external_table_bufsize

文件大小(MB)

导出耗时(s)

速度(MB/s)

参数值(kb)

45441

201

226.07

512

45441

56

811.45

16384

gpfdist 加载控制参数gp_external_max_segs

文件大小(MB)

导出耗时(s)

速度(MB/s)

参数值(kb)

45441

108

420.75

20

45441

59

770.19

40

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Greenplum 列存表(AO表)的膨胀和垃圾检查与空间收缩
Greenplum支持行储存(HEAP储存)与列(append-only)储存,对于AO存储,虽然是appendonly,但实际上GP是支持DELETE和UPDATE的,被删除或更新的行,通过BITMAP来标记删除与修改。AO存储是块级组织,当一个块内的数据大部分都被删除或更新掉时,扫描它浪费的成本实际上是很高的。而PostgreSQL是通过HOT技术以及autovacuum来避免或减少垃圾的。但是Greenplum没有自动回收的worker进程,所以需要人为的触发。接下来就分析AO表与HEAP表的问题以及如何解答,执行空间的释放有3中方法分别是:
小徐
2018/10/12
4.3K2
Greenplum 列存表(AO表)的膨胀和垃圾检查与空间收缩
Greenplum数据库快速调优
为进程分配内存的百分比,默认是50,vm.overcommit_memory = 2 的情况下生效
小徐
2021/01/27
2.8K0
Greenplum数据库快速调优
14.1 greenplum与kafka连接
Kafak作为数据流是比较常用的,接下来就用greenplum对接一下kafka,参考官方资料:
小徐
2019/08/05
1.9K0
14.1 greenplum与kafka连接
Greenplum转换DATE数据类型问题
在工作中使用Greenplum外表时发现date类型中有null或空值,外表不识别类型,问题解答思路,先使用varchar类型把外表的数据加载到Greenplum,在使用数据类型转化转化为date即可。
小徐
2019/08/05
1K0
Greenplum转换DATE数据类型问题
GP使用
为进程分配内存的百分比,默认是50,vm.overcommit_memory = 2 的情况下生效
用户9810185
2022/06/08
1.6K0
Greenplum常见创建表方式与说明
drop table if exists test_head; create table test_head(id int primary key) distributed by (id);
小徐
2018/09/27
5.1K0
Greenplum常见创建表方式与说明
Greenplum性能优化之路 --(二)存储格式
Greenplum(以下简称GP)有2种存储格式,Heap表和AO表(AORO表,AOCO表)。
lambgong
2019/02/20
17.7K3
Greenplum性能优化之路 --(二)存储格式
Greenplum数据库使用总结(干货满满)--常见创建TABLE方式
create table test_head(id int primary key) distributed by (id);
小徐
2019/08/05
3.1K0
Greenplum数据库使用总结(干货满满)--常见创建TABLE方式
Greenplum链接kafka导入与导出数据
15 Greenplum 外接工具 1 15.1 安装kafka 1 15.1.1 安装kafka 1 15.1.2 准备kafka的环境 1 15.2 greenplum外表加载kafka数据 2 15.2.1 准备测试数据 2 15.2.2 编写加载kafka文件 2 15.2.3 创建数据库表 3 15.2.4 使用gpkafka命令插入数据 4 15.2.5 查看数据库保存的偏移量 5 15.2.6 测试复杂数据量的性能 5 15.2.6.1 测试数据 5 152.6.2 查看数据库数据 7 15.
小徐
2019/10/22
1.4K0
Greenplum链接kafka导入与导出数据
GreenPlum装载和卸载工具(外部表、gpfdist、gpload等)
在创建外部表定义时,必须指定文件格式和文件位置 三种用来访问外部表数据源的协议:gpfdist, gpfdists和gphdfs
AiDBA宝典
2023/11/01
1.9K0
GreenPlum装载和卸载工具(外部表、gpfdist、gpload等)
Greenplum 常用设置参数
参考资料:https://blog.csdn.net/kygoal/article/details/75041851
小徐
2019/01/28
2.2K0
Greenplum 常用设置参数
HAWQ技术解析(七) —— 存储分布
        在HAWQ中创建一个表时,应该预先对数据如何分布、表的存储选项、数据导入导出方式和其它HAWQ特性做出选择,这些都将对数据库性能有极大影响。理解有效选项 的含义以及如何在数据库中使用它
用户1148526
2018/01/03
2.1K0
HAWQ技术解析(七) —— 存储分布
Snova运维篇(九):gp数据库中数据的基本操作-1
一个表空间可以让多个数据库使用;而一个数据库可以使用多个表空间。属于"多对多"的关系。
snova-最佳实践
2019/12/30
2.4K0
Snova运维篇(九):gp数据库中数据的基本操作-1
Greenplum 实时数据仓库实践(3)——Greenplum与数据仓库
Greenplum是一个分布式大规模并行处理数据库,在大多数情况下适合做大数据的存储引擎、计算引擎和分析引擎,尤其适合构建数据仓库。本篇重点介绍Greenplum的系统架构和主要功能。我们先从历史演进和所采用的MPP框架对Greenplum做一个概要说明,然后描述其顶层架构,之后详细介绍存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,正是它们支撑Greenplum成为一款理想的分析型数据库产品。本篇最后简单对比Greenplum与另一个流行的大数据处理框架Hadoop,进而阐述可以选择前者的理由。
用户1148526
2021/12/07
4.7K0
Greenplum 实时数据仓库实践(3)——Greenplum与数据仓库
greenplum链接kafka写入与导出数据
15 Greenplum 外接工具 15.1 安装kafka 15.1.1 安装kafka 安装教程请查看:https://www.jianshu.com/p/9d48a5bd1669 15.1.2 准备kafka的环境 创建topic # bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic topic_for_gpkafka 查看topic 集合 $
小徐
2019/10/17
1.2K0
greenplum链接kafka写入与导出数据
Greenplum 实时数据仓库实践(9)——Greenplum监控与运维
想要一个数据库长久健康的运行,离不开完备的运维工作,切忌只运而不维。针对Greenplum分布式数据库,集群由大量服务器组成,对运维人员或DBA,不仅要关注数据库本身,还要注意集群中各硬件的状况,及时发现并处理问题。本篇介绍权限与角色管理、数据导入导出、性能优化、例行监控、例行维护、推荐的监控与维护任务六方面常规工作内容,目标是满足Greenplum系统维护、使用等方面的要求,保证提供稳定高效的数据库服务。
用户1148526
2022/04/13
4K0
GreenPlum分布式数据库存储及查询处理
Greenplum是一个分布式数据库系统,因此其所有的业务数据都是物理存放在集群的所有Segment实例数据库上;在Greenplum数据库中所有表都是分布式的,所以每一张表都会被切片,每个Segment实例数据库都会存放相应的数据片段。在下图中sale、customer、vendor、product四张表的数据都会切片存放在所有的Segment上,所有Segment实例同时工作,由于每个Segment只需要计算一部分数据,所以计算效率会大大提升。
AiDBA宝典
2023/11/16
1.2K0
GreenPlum分布式数据库存储及查询处理
Greenplum gpload命令使用
Runs a load job as defined in a YAML formatted control file.
小徐
2018/12/20
2.8K0
Greenplum  gpload命令使用
GreenPlum列存解密
GreenPlum支持列式存储。叫做AOCO表。那么AOCO列存是如何管理列存文件?如何实现MVCC?是否支持索引,若支持如何实现的呢?下面我们介绍下AOCO的实现机制。
yzsDBA
2022/12/27
1.1K0
GreenPlum列存解密
GreenPlum中的数据库对象
greenplum Schema 是 Database中逻辑组织object和data。 在同一Database中,不同schema的对象可以使用相同的名称。
AiDBA宝典
2023/11/01
8780
GreenPlum中的数据库对象
相关推荐
Greenplum 列存表(AO表)的膨胀和垃圾检查与空间收缩
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验