首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

ClickHouse深度解析,收藏这一篇就够了~

五、核心概念 5.1.表引擎(Engine) 表引擎决定了数据在文件系统中的存储方式,常用的也是官方推荐的存储引擎是MergeTree系列,如果需要数据副本的话可以使用ReplicatedMergeTree系列,相当于MergeTree的副本版本。读取集群数据需要使用分布式表引擎Distribute。 5.2.表分区(Partition) 表中的数据可以按照指定的字段分区存储,每个分区在文件系统中都是都以目录的形式存在。常用时间字段作为分区字段,数据量大的表可以按照小时分区,数据量小的表可以在按照天分区或者月分区,查询时,使用分区字段作为Where条件,可以有效的过滤掉大量非结果集数据。 5.3.分片(Shard) 一个分片本身就是ClickHouse一个实例节点,分片的本质就是为了提高查询效率,将一份全量的数据分成多份(片),从而降低单节点的数据扫描数量,提高查询性能。 5.4. 复制集(Replication) 简单理解就是相同的数据备份,在CK中通过复制集,我们实现保障了数据可靠性外,也通过多副本的方式,增加了CK查询的并发能力。这里一般有2种方式:(1)基于ZooKeeper的表复制方式;(2)基于Cluster的复制方式。由于我们推荐的数据写入方式本地表写入,禁止分布式表写入,所以我们的复制表只考虑ZooKeeper的表复制方案。 5.5.集群(Cluster) 可以使用多个ClickHouse实例组成一个集群,并统一对外提供服务。 六、主要表引擎深入解析 6.1.TinyLog 最简单的表引擎,用于将数据存储在磁盘上,每列都存储在单独的压缩文件中,写入时,数据附加到文件末尾. 缺点:(1)没有并发控制(没有做优化,同时写会数据会损坏,报错) (2)不支持索引 (3)数据存储在磁盘上 优点:(1)小表节省空间 (2)数据写入,只查询,不做增删改操作创建表: create table stu1(id Int8, name String)ENGINE=TinyLog 6.2. Memory 内存引擎,数据以未压缩的原始形式直接保存在内存中,服务器重启,数据会消失,读写操作不会相互阻塞,不支持索引。建议上限1亿行的场景。优点:简单查询下有非常高的性能表现(超过10G/s) 创建表: create table stu1(id Int8, name String)ENGINE=Merge(db_name, 'regex_tablename') 6.3.Merge 本身不存储数据,但可用于同时从任意多个其他的表中读取数据,读是自动并行的,不支持写入,读取时,那些真正被读取到数据的表的索引(如果有的话)会被占用,默认是本地表,不能跨机器。参数:一个数据库名和一个用于匹配表名的正则表达式 创建表: create table t1(id Int8, name String)ENGINE=TinyLog create table t2(id Int8, name String)ENGINE=TinyLog create table t3(id Int8, name String)ENGINE=TinyLog create table t (id UInt16, name String)ENGINE=Merge(currentDatabase(), ‘^t’) 6.4.MergeTree ck中最强大的表引擎MergeTree(合并树)和该系列(*MergeTree)中的其他引擎。使用场景:有巨量数据要插入到表中,高效一批批写入数据片段,并希望这些数据片段在后台按照一定规则合并。相比在插入时不断修改(重写)数据进行存储,会高效很多。优点:(1)数据按主键排序 (2)可以使用分区(如果指定了主键)(3)支持数据副本 (4)支持数据采样 创建表: ENGINE MergeTree() PARTITION BY toYYYYMM(EventDate) ORDER BY (CounterID, EventDate, intHash32(UserID)) SAMPLE BY intHash32(UserID) SETTINGS index_granularity=8192

02

【腾讯云 TDSQL-C Serverless 产品体验】 使用 Python 向 TDSQL-C 添加读取数据 实现词云图

TDSQL-C MySQL 版(TDSQL-C for MySQL)是腾讯云自研的新一代云原生关系型数据库。融合了传统数据库、云计算与新硬件技术的优势,为用户提供具备高弹性、高性能、海量存储、安全可靠的数据库服务。TDSQL-C MySQL 版100%兼容 MySQL 5.7、8.0。实现超百万级 QPS 的高吞吐,最高 PB 级智能存储,保障数据安全可靠。TDSQL-C MySQL 版采用存储和计算分离的架构,所有计算节点共享一份数据,提供秒级的配置升降级、秒级的故障恢复,单节点可支持百万级 QPS,自动维护数据和备份,最高以GB/秒的速度并行回档。TDSQL-C MySQL 版既融合了商业数据库稳定可靠、高性能、可扩展的特征,又具有开源云数据库简单开放、高效迭代的优势。TDSQL-C MySQL 版引擎完全兼容原生 MySQL,您可以在不修改应用程序任何代码和配置的情况下,将 MySQL 数据库迁移至 TDSQL-C MySQL 版引擎。

04

装载数据

装载数据 前面我们一起学习了创建表,那么下一步我们应该学会怎么把数据装载到表中,然后才能去查询吧! *Hive的四种常见的数据导入方式 (1)、从本地文件系统中导入数据到Hive表; (2)、从HDFS上导入数据到Hive表; (3)、从别的表中查询出相应的数据并导入到Hive表中; (4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。 一、从本地文件系统中导入数据到Hive表 --Hive没有行级别的数据插入、数据更新和删除操作,那么往表中装载数据的唯一途径就是使用一种“大量”的数据装载操作。 或者通过其他方式将数据写入到正确的目录下 先在Hive里面创建好表,如下: 1. hive> create table employees 2. > (id int, name string, 3. > tel string) 4. > ROW FORMAT DELIMITED 5. > FIELDS TERMINATED BY '\t' 6. > STORED AS TEXTFILE; 7. OK 8. Time taken: 2.832 seconds 本地文件系统里面有个/home/data/employees/employees.txt文件,内容如下: 1. [data@cdh54 ~]$ cat employees.txt 2. 1 zs 13666666666 3. 2 ls 13888888888 4. 3 ww 13777777777 employees.txt文件中的数据列之间是使用\t分割的,可以通过下面的语句将这个文件里面的数据导入到employees表里面,操作如下: 1. hive> load data local inpath ' /home/data/employees.txt' OVERWRITE table employees; 2. OK 3. Time taken: 3.567 seconds 解析:1.如果目标表是非分区表,那么语句中应该省略 PARTITION 子句 2.通常情况下指定的路径应该是一个目录,而不是单个独立的文件。Hive 会将所有文件都拷贝到这个目录中。 3. 如果使用了 LOCAL 这个关键字,那么这个路径应该为本地文件系统路径,数据将会被拷贝到目标位置 如果省略掉 LOCAL 关键字,那么这个路径应该是分布式文件系统中得路径 4.如果指定了 OVERWRITE 关键字,那么目标文件夹中之前存在的数据将会被先删除 如果没有这个关键字,仅仅会把新增的文件增加到目标文件夹中不会删除之前的数据 如果目标文件夹中已经存在和装载的文件同名的文件,那么旧的同名文件将会被覆盖重写 5.如果目标表是分区表那么需要使用 PARTITION 子句,而且我们还必须为每个分区的键指定一个值 6.对于 INPATH 这个路径有一个限制,那就是这个路径下不可以包含任何文件夹 二、HDFS上导入数据到Hive表   从本地文件系统中将数据导入到Hive表的过程中,其实是先将数据临时复制到HDFS的一个目录下(典型的情况是复制到上传用户的HDFS home目录下,比如/home/employees/),然后再将数据从那个临时目录下移动(注意,这里说的是移动,不是复制!)到对应的Hive表的数据目录里面。既然如此,那么Hive肯定支持将数据直接从HDFS上的一个目录移动到相应Hive表的数据目录下,假设有下面这个文件/home/employees/add.txt,具体的操作如下: 1. [data@cdh54 /home/employees/hadoop-2.2.0]$ bin/hadoop fs -cat /home/employees/add.txt 2. 5 yy1 131222222222 3. 6 yy2 134444444444 4. 7 yy3 132111111111 5. 8 yy4 135555555555 上面是需要插入数据的内容,这个文件是存放在HDFS上/home/employees目录(和一中提到的不同,一中提到的文件是存放在本地文件系统上)里面,

02

Oralce的二维表操作

–创建表并同时添加约束 –主键约束 –非空约束 –检查约束 –唯一约束 –外键约束 –简单的表创建和字段类型 –简单的创建语句: create table student( sno number(10) ,–primary key sname varchar2(100) ,–not null sage number(3), --check(sage<150 and sage>0) ssex char(4) ,–check(ssex=‘男’ or ssex=‘女’) sfav varchar2(500), sbirth date, sqq varchar2(30) --unique –constraints pk_student_sno primary key(sno)–添加主键约束 –constraints ck_student_sname check(sname is not null)–非空约束 –constraints ck_student_sage check(sage<150 and sage>0)–检查约束 –constraints ck_student_ssex check(ssex=‘男’ or ssex=‘女’)–检查约束 –constraints un_student_sqq unique(sqq)–唯一约束 ) –添加主键约束 alter table student add constraints pk_student_sno primary key(sno); alter table student drop constraints pk_student_sno; –添加非空约束 alter table student add constraints ck_student_sname check(sname is not null); alter table student drop constraints ck_student_sname; –添加检查约束 alter table student add constraints ck_student_sage check(sage<150 and sage>0) alter table student drop constraints ck_student_sage; –添加检查约束校验性别 alter table student add constraints ck_student_ssex check(ssex=‘男’ or ssex=‘女’) alter table student drop constraints ck_student_ssex; –添加唯一约束 alter table student add constraints un_student_sqq unique(sqq) select * from student drop table student

02
领券