文章/答案/技术大牛

发布

首页视频50_ClickHouse高级_数据一致性_数据准备

50_ClickHouse高级_数据一致性_数据准备

2022-12-022022-12-02 16:02:17播放43

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之ClickHouse/视频/50_ClickHouse高级_数据一致性_数据准备.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那我们看一下第五章数据的一致性，这个呢，主要是咱们在实际业务场景中的一个问题啊，也是很喜欢问的一个问题，是什么问题呢？驱虫问题，在咱们的架构里面，可house我不管你是作为什么啊，那目至少目前咱们他购里面，可house它是不是作为DWS层啊，那我们查结果是不是直接同他查呀，那如果他出现的重复数据，咱们查询的指标结果是不是不是百分百准确的。对吧，那咱们考虑这个是不是使用了一个repate，呃，什么了，Re不是吧，是副本的意思，Replaceing替换啊replace，然后把E改成ing，不要骗我multi tree对吧？啊，后面我就简写了这个东西合并数嘛，那这个东西它是不是会自动去重啊，但是我们说它去重只有什么时候。
01:11
他只有执行合并的时候，才会真正的将重复的数据去去除，其实这个h base是不是也一样，H base是不是通过版本号管理时间戳。他是不是也是有一个叫大合并呢，只有大合并才真正会去清理和那些数据吧，对过期啊和标记删除的，那肯定house也一样啊，他俩就是有点像啊，那这个时候怎么办呢？其实实现方式很多。很多，看你玩不玩的溜啊，第一种我们先简单一点啊。我们先简单了解一下，一种是通过一些特定的语法，是不是一个手动优化触发合并呢？但你觉得这种方式好吗？
02:04
手动触发优化啊合并好吗？不好，因为它优化是不对外提供服务的吧，合并期间，那这个时候你再生产环境，难道你每插入一次，你都手动执行一次合并吗？那你就别玩了，说实话就别玩了，所以这种方式其实是不太适合，不太适合，那么如果是第二种方式是比较推荐的，因为他。是通过你的蛇口玩得六设计得好来实现的。去图。搜索一会，我们来好好看一看，另外一种就是final final查询是不是也会做一个什么，什么叫final，就取一个，你简单理解就取最新版本的吧，对吧？假设你一条数据重复插入多次，那时间不一样，那我只取最新一条，是不是也可以叫final？
03:01
就是说他只会取最新的数据啊，那这样一定程度也能解决，那接下来我们先准备一些表，然后来挨个来看一下效果，大家就很直观了啊，那上面这个一个词大家记一下叫什么。最终一致性，什么叫最终呢？最后为什么叫最终呢？因为是不是合并后触发合并后它还是一致的，对吧，所以叫最终一致性啊。行，那这个是我在官网的截图，这边有说明啊，在不确定的时间进行合并对吧？Replicating replacing这个东西不保证没有重复数据出现，如果有人告诉你。假设未来你工作了。啊，就假设未来你在公司里面，然后呢，你们缺人，你去招人，由你负责面试，这个时候来了一个哥们啊，或者一个姐妹啊，他说用到click house，这个时候你感兴趣，问他，那你们click house的重复数据怎么办？他说我们用的是。
04:07
Replace me，它会自动去重啊，所以没有重复问题，这个时候你就可以断定他没用过，或者说瞎编的。行，准备数据来，我建一张表啊，就是一个电表语句，你看引擎是。啊，那这个。Order by，我就指定了一个order by，用了ID，就几个字段，用户ID分数，这是什么？这就是咱的设计了。举例子，删除标记我能不能这么来实现呢？未来一跟零，一表示它没被删除，零表示这条数据我想要删除，其实这跟flink是不是一样啊？大家想想，Flink是不是有个东西叫撤回流啊？它怎么实现呢？一条数据变了，它是不是产生两条数据啊，先把老的标记为删除，把新的标记为插入，那咱们就模拟这种思想来实现了，能理解吧，好一会来看吧，先把表现了，这个还是有点含量的啊。
05:18
然后先写入数据1000万。你看写一个这个就1000万呐。那当然了，我用的是什么NUMBER1000万啊，那是不产生一到1000万，1000条1000万条数据啊，一一个临时表啊，这是肯定有耗的用法啊，你不要害还能这么用啊，那不行啊，然后我这边做了啥呢？把这个生成的数字当做用户ID，然后我中间搞了一个临时表未死是不是临时表啊，下载到内存嘛，然后这是写死的几个东西，是不是有点像字典啊。对吧，当然咱们没有去创建字典表，就临时的创建一下啊，然后呢，对这个数字取模，为什么取七呀，这里是不是七个。
06:07
对吧，磨梯，然后再。取到它对应位置的，也就是说这个字段要么肯定是七个里面的其中一个呗。是不是？你不要以为这个是字典啊，这个是什么？表明表明跟上中括号是不是取数组啊啊，那中间里面传的是索引呢，这没啥复杂的啊行，那我们插入1000万行数据，1000万说来就来了，对吧。你看这不很快吗？0.7秒，因为数据比较简单啊，仅仅是一个数字，那么接下来我在也不叫修改啊，我再插入为什么是我，为什么叫修改了，你会发现我的语句还是银色的into。为啥ID是不是一样的？我前面插的是不是一到1000万的ID啊，那我现在用了一个NUMBER50，是不是一到50万呢？那请问这个编号是不是撞了呀，那就是重复数据的嘛，能理解吧。
07:14
好，那我再插入50万。那我这边特意写的是叠字的，跟原始数据做一个区别嘛，看你有没有识别到啊，来我们再快速的插入，插入完我们直接来一个count一下select count from那张表叫什么test a对吧。1050条啊吧，一千一千零五十万条是没拒重啊，所以大家能明显看到，虽然我们用的是这个表引擎，但啥时候他会合并咱不知道对吧，可能你过一会儿再他一下它就变了，但至少目前还没进行合并，对不对，好。
08:01
这就是咱们准备的一个数据。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之ClickHouse

（50/64）

13分13秒

01_ClickHouse总体_课程介绍

520

3分24秒

02_ClickHouse入门_课程介绍

510

24分51秒

03_ClickHouse入门_介绍&特点

490

18分36秒

04_ClickHouse入门_安装_准备工作

490

25分11秒

05_ClickHouse入门_安装_单机安装

440

21分38秒

06_ClickHouse入门_数据类型

470

14分16秒

07_ClickHouse入门_表引擎介绍

390

8分24秒

08_ClickHouse入门_MergeTree引擎_简单使用

370

33分24秒

09_ClickHouse入门_MergeTree引擎_分区详解

400

4分27秒

10_ClickHouse入门_MergeTree引擎_主键

370

6分10秒

11_ClickHouse入门_MergeTree引擎_Order by

420

12分6秒

12_ClickHouse入门_MergeTree引擎_二级索引

490

11分59秒

13_ClickHouse入门_MergeTree引擎_TTL

390

11分38秒

14_ClickHouse入门_ReplacingMergeTree引擎

490

10分21秒

15_ClickHouse入门_SummingMergeTree引擎

400

5分19秒

16_ClickHouse入门_开发中引擎的选择

410

14分6秒

17_ClickHouse入门_SQL操作_Update和Delete

380

11分1秒

18_ClickHouse入门_SQL操作_查询和函数介绍

450

13分31秒

19_ClickHouse入门_SQL操作_多维分析函数

400

4分43秒

20_ClickHouse入门_SQL操作_alter&导出

490

18分38秒

21_ClickHouse入门_副本引擎

370

16分32秒

22_ClickHouse入门_分片集群介绍

350

21分52秒

23_ClickHouse入门_分片集群实操

510

3分56秒

24_ClickHouse高级_课程简介

470

8分29秒

25_ClickHouse高级_新版本安装&.官网在线demo介绍

450

8分23秒

26_ClickHouse高级_执行计划_plan&AST

360

5分45秒

27_ClickHouse高级_执行计划_syntax&pipeline

430

4分19秒

28_ClickHouse高级_执行计划_老版本如何查看

300

8分49秒

29_ClickHouse高级_建表优化_注意数据类型

410

6分27秒

30_ClickHouse高级_建表优化_分区和索引

350

8分59秒

31_ClickHouse高级_表参数&写入和删除优化

430

24分19秒

32_ClickHouse高级_CPU参数设置

360

6分7秒

33_ClickHouse高级_内存参数设置

470

2分48秒

34_ClickHouse高级_存储优化

400

10分40秒

35_ClickHouse高级_语法优化规则_准备测试用表

340

4分36秒

36_ClickHouse高级_语法优化规则_count优化

420

9分55秒

37_ClickHouse高级_语法优化规则_子查询重复字段&谓词下推

290

5分53秒

38_ClickHouse高级_语法优化规则_聚合计算外推&聚合函数消除

320

4分55秒

39_ClickHouse高级_语法优化规则_删除重复字段(不同语法下)

490

6分1秒

40_ClickHouse高级_语法优化规则_标量替换&三元运算优化

370

15分32秒

41_ClickHouse高级_单表查询优化_prewhere&采样

370

7分49秒

42_ClickHouse高级_单表查询优化_数据裁剪&Orderby用法

490

5分4秒

43_ClickHouse高级_单表查询优化_避免构建虚拟列

500

4分48秒

44_ClickHouse高级_单表查询优化_使用uniqCombined

440

9分7秒

45_ClickHouse高级_单表查询优化_使用物化视图&其他事项

410

6分55秒

46_ClickHouse高级_多表关联_使用IN代替JOIN

470

4分8秒

47_ClickHouse高级_多表关联_大小表JOIN

450

6分27秒

48_ClickHouse高级_多表关联_谓词下推

420

11分36秒

49_ClickHouse高级_多表关联_字典表&其他

420

8分4秒

50_ClickHouse高级_数据一致性_数据准备

430

2分4秒

51_ClickHouse高级_数据一致性_手动执行

400

9分58秒

52_ClickHouse高级_数据一致性_通过Group by去重

340

14分26秒

53_ClickHouse高级_数据一致性_使用Final&总结

770

8分17秒

54_ClickHouse高级_物化视图_概述

390

9分24秒

55_ClickHouse高级_物化视图_实操

340

8分16秒

56_ClickHouse高级_MaterializeMySQL引擎_概述

330

17分17秒

57_ClickHouse高级_MaterializeMySQL引擎_实操

380

17分6秒

58_ClickHouse高级_常见问题排查

350

4分21秒

59_ClickHouse监控_概述

370

11分44秒

60_ClickHouse监控_Prometheus&Grafana安装

430

3分8秒

61_ClickHouse监控_ClickHouse配置

470

15分55秒

62_ClickHouse监控_配置监控实现

400

26分48秒

63_ClickHouse备份_手动实现备份及恢复

460

22分36秒

64_ClickHouse备份_使用clickhouse-backup

550

50_ClickHouse高级_数据一致性_数据准备

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐