文章/答案/技术大牛

发布

首页视频018-InfluxDB是如何管理数据的

018-InfluxDB是如何管理数据的

2022-12-022022-12-02 16:02:31播放70

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之InfluxDB/视频/018-InfluxDB是如何管理数据的.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，那么下一步呢，我们要给大家讲这个in Fla DB里面的查询，但是你要说这个数据库呢，它和我们的这个啊，以前见过的这种普通的关系性数据库呢，还很不一样啊，所以说呢，你后面想要写出正确的一个查询或者插入，那么还是有必要了解这个Fla DB它是如何去管理数据的，那么这一节呢，我们就给大家讲一下in Fla DB里面的这个数据模型，呃，需要注意的是，呃，我们这个附录四的这个题目呢，叫做时序数据库，呃，时序数据库中的这个数据模型，呃，是因为in Fla DB呢，它的这个里面数据组织的方式呢，它其实很有代表性。呃，目前呢，呃很多的这个呃时序数据库的这个呃，数据管理的一个结构呢，基本上来说呢，都有一些相似性啊，可以提供参考。好，那么我们这个文档里面呢，它其实是先给大家看一下这个普通关系型数据库里面的表，然后呢，再给大家看一下个啊in Fla DB里面它是怎么管理数据的。
01:01
好，那么接下来呢，我们可以看到啊，就是这个文档里面呢，给大家放了一个啊，我们常见的普通的关系型数据库中的表。哎，可以看到。那么在这个表里面呢，啊，我们要注意啊，这个park ID，然后client，还有这个呃，Time这三，这三个是加了索引的这个字段，这样呢，方便我们根据这个，呃，我们要查询的这个维度，比如说这个帕ID，还有planet。然后呢，还有这个时间戳啊一块呢，去查询我们想要的这个数据，那么这个photoshs呢啊，它是一个呃，数值类型的字段啊，那么这个字段呢，就是没有被加索引的，呃，现在呢。呃，我可以把它这个呃手动翻译成我们的这个呃，In DB里面的行格式。那么我们现在呢，就瞄准这个第一条数据啊，就这一条数据。我们看把它翻译成行，格式应该怎么写？
02:00
呃，首先呢。我们可以给他这个，呃，数据呢，起一个。我们的这个词量名称，比如说就叫这个photoshs。然后呢，我们说这个帕IDPLA，还有time呢，它都是加了索引的啊，那么park ID呢，是一个维度索引。这里的它就可以相当于我们的这个行协议中的标签集，那么帕ID呢就等于一，然后这个plant呢，也是一个维度索引，也算在我们标签集里面。Point等于20。啊，之后呢，我们可以看到这是一个时间，那么我们说时间呢啊，时间戳应该放在这个航线一的最最尾部啊，另外呢，就是有我们的这个photoshs，这个呢是我们没有加索引的啊，相当于我们的字段集打一个空格，然后呢这里。用这个footshs加上它的值是等于零，然后空格最后呢，诶是这个时间戳我这里呢，就不敲这个数字了，直接打一个time stamp。
03:13
好，那么这个呢，就相当于我们这个在in Fla DB里面的一个行格式，那么这一条数据呢，实际上会在这个in Fla DB，那它被这个in Fla DB识别到，然后写到这个数据库中啊，他会怎么样去存储呢？啊，我们可以看一下下面的啊，就是in DB里面的一个存储方式。呃，我们可以看到在普通的关系型数据库里面呢，这些数据实际上是按照按行的方式去存储，那么在一发DB里面呢，它会有一个新的概念叫做序列。我们可以看到啊，就是我这里呢，这个测量的名称就是measurement，叫做foot ships，那么这里的name就是foot ships，然后标签集，它这有个T啊，其实text set t，那么这里呢，有多个标签啊，标签呢是键值对的方式来放的啊，其实就是我们的park ID等于一和plant等于earth，然后呢，这个时间戳呢，可以看到啊，就这个地方，这是文件的一个头，然后这里呢，有一个字段叫time，然后这边呢有一个字段叫做footshs，然后这个时间戳啊，它放在左侧，那么这个时间戳格式呢，我们后面会给大家介绍啊，是为什么是这个，这个写法什么意思，然后后面呢，右边这个就是我们的刚才的这个字段的值，呃，那么你会发现呢，这样存放它和这样存放和这个关系型数据库中的这个存放方式有什么区别呢？我们会发现啊。
04:37
其实在英DB里面。你会发现我们把唯一啊，同样的这个唯一的一个组合，也就是呃，测量名称标签集和这个字段的K，它组成的一个唯一的组合的数据密集的放在了一起。这样的一个好处呢，就是如果我知道这个measurement。
05:01
然后呢，我在查询的时候指定了这个measurement啊，也指定了标签集，那么我可以快速的将这些数据的一个啊集合这一批数据我可以一次性查出来。那么时间戳上呢，又打了索引，那么我就可以呢，快速的按照时间戳呢进行一个过滤，那么如果是我们的普通的关系型数据库呢，实际上这个所以呢设计就要非常考究了啊，因为这个查询呢，如果写不好的话啊，因为这个呃普通关系数据库里面，它其实是按行去维护我们的这个呃数据的，那么我当我需要查询的时候，就很有可能是会触发多次寻址，也就是说啊，我要查这个park ID，然后light等于earth park ID等于一和这个时间戳在哪个范围里面的，它可能会导致这个关系型数据库。啊，怎么运行呢。哎，它可能会导致我要先找出来这条数据，然后再找出来这条数据，再找出来这条数据，最后呢，把这条数据找出来。
06:05
那么这样一来呢，我们的这个查询的效率就会变慢，另外像这个in发TB里面存储数据的方式呢，其实还可以让这个数据的体积更加的小，呃，我们可以看到其实在这个关系型数据库里面，它是按行来管理数据，呃，那么park ID呢，作为一个维度索引，其实我们可以看到它是会有重复的，比如说这里就重复了四次，那么plant等于earth呢，这个地方也重复了四次，但是在我们的这个in Fla DB里面呢，啊，你作为一个维度索引是吧，只在这个图号就可以了，在标签机里面出现一次就可以了。呃，所以说我们行协议的时候呢，每一行数据里面会有一条，但是在in Fla DB里面被解析完之后啊，存储到if s TB里面之后呢，它其实只占一个啊，所以说这样的这个数据的体积更加小，而且更加的方便我们进行压缩。那么我们再往下看一下这个整张表啊，到这个英Fla DB里面存储的方式，呃，你可以看到，因为这个标签级这个park ID它变了，呃，这个这不仅是park ID变了，这个plant也变了。
07:08
啊，那么对于不同的这个标签的组合呢。这个在我们的Fla DB里面都会把它进行分开存放，那么这个分开存放。像这个分开之后呢。这一个新的单位叫什么呢？这一组叫什么呢？哎，这个就是我们说的序列。嗯，那么你要想写出正确的查询呢？理解序列的概念就非常重要，也就是in Fla DB，它并不是按行去组织数据的，它是按照序列时间、序列数据库，按照序列的方式去组织数据的。那么现在呢，假如说我要插入一个新的数据啊，又进来一条插在这个位置。那么新进来的这个数据叫什么呢？新进来的这个数据其实叫做数据点。
08:02
啊叫做point，叫做数据点，那么在这个里面呢，我们可以看到啊，我们的measurement啊测量名称，再加这个标签集，再加这个字段的名称。这三个东西在一块啊，约束成为一个序列，呃，那么当我们按照维度进行查询的时候，比如说我现在要查park ID等于一，然后plant等于earth。那么呢，就可以快速得到我的整个序列，呃，那么我如果要按照时间过滤呢，比如说我就想查询呃，最近的三条数据，我不想查询这个啊，三周之前三条数据之前的了，我又要查这个啊，12.01秒的这个数据。那么当我指定这个时间范围的时候呢，其实就是在序列上去对这个数据点做一个筛选，哎，所以说这其实是一个双重索引的设计，一边是我们的维度索引帮我们定位整个序列，另外一边呢，还有时间索引帮我们过滤数据范围。
09:08
那么我想大家可能看下面的图呢，会更好理解一些，那么这个图呢，是我自己画的，呃，首先呢，可以看到我们有一个这个measurement。然后呢，在measure什么的下面，TAG1TAG2，他们共同共同组成我们的标签集，然后每个标签呢，有不同的取值，另外呢，就是我们整个里面还有两个字段，就FILE1和FILE2。呃，那么现在呢，就是大家关注我们的measurement。然后标签级的不同取值它们的组合啊，就是我圈起来这个地方。再加上我们的字段名称。这三个东西联合在一起。共同定义了一个序列啊，这个绿色的线，这个叫序列。然后序列里面的各个数据点，他们按照时间戳的升序排列。
10:06
那么可以看到我这里面因为tag的变化啊，因为标签集的变化，它组成了不同的序列，那么这里面呢，一共帮我们定义了六条序列，那么我说正常的查询思路应该是什么呢？啊，正常的查询思路是这样。首先我们呢，应该先去指定这个时间的范围，也就是上来呢，先根据这个时间的范围。哎，做一个过滤。之后呢，我们再去根据我们的这个。测量名称还有标签集，哎，指定查询的维度啊，最后呢，我再说我想查这个FIELD2。指定的指定好这条序列，那么这样一来呢，呃，我从这个这个查询呢，将在这个整个六个序列这个数据里面查询出来这一条序列。
11:01
里面的这些数据点。那么这就是我们在时序数据库里面的一个查询思路。那么我如果说啊。没有说这个指定这个F2啊，或者说我指我查询的时候呢，只指定这个TAG1等于hello啊，那么会怎么样呢？其实在这个实习数据库里面呢，呃，我们支持你一次性的查询多条序列，像这个样子。那么现在这个图里的场景呢？哎，就是我指定了一个数据范围，我指定了一个我指定了一个时间范围。呃，然后呢，我查询的时候呢，诶只指定这个TAG1为海。哎，那么我们这个查询真正执行的时候啊，真正执行的时候会在我提交一条这个查询语句，然后呢，数据库会给我返回过来四条序列啊，我现在图里面标亮的这四条。然后呢，你可以在这个四条序列基础之上去应用各种查询函数，比如开窗呀，或者说是统计sum啊，中位数啊，平均值什么的。
12:05
呃，然后后面呢，我们还有一个问题就是告诉大家啊，是这个时序时序数据库里面呢，啊，一个通病叫做时间线膨胀高基数问题。就是当你的这个数据库里面呢，就整个数据库里面，当你的这个序列数过多的时候，实际上会带来一个啊性能问题。一旦序列数开始变多，那么这个时候呢，你的这个整个数据库的呃，写入和查询速度，它都会有一个呃基本上是断崖式的下降，所以说呢，我们平时把这个标签呢，你看这个最影响这个呃序列数量呢，其实就是标签啊，搞咱们的标签集，所以说标签集呢，一定要用在这种值，可与枚举啊，可以有限的，比如说是这个啊，你的工厂的编号是吧，你可能一共就100个厂子啊，那么这种的呃字段上去。啊，不要用在一种连续性啊，比如数字可以无限变化那种啊，它会导致你的这个整个序列的快速膨胀啊，这个时候呢，啊，我们的这个in DB里面呢，会有一个设置，就它不允许你单个的这个标签呢，它的值超过10万种取值，呃，当然这个你在这个in class DB里面可以调设置，把这个限制呢给它解开，嗯，但是呢，呃，为了性能考虑的话呢，不要解开这个设置啊，那么这一节内容呢，呃，可以理解的同学就可以开始学习我们后面的这个呃英SDB的查询了。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之InfluxDB

（18/107）

2分11秒

001-课程介绍

650

17分35秒

002-了解InfluxDB的使用场景与生态

920

6分5秒

003-下载与安装

710

1分25秒

004-InfluxDB初始化

780

1分8秒

005-与InfluxDB的交互方式

830

1分36秒

006-Web UI 初识Web UI

670

5分14秒

007-Web UI 数据源和存储桶

670

51秒

008-示例1-在Web UI写入数据-创建Bucket

640

4分34秒

009-示例1-在Web UI写入数据-插入数据

760

9分31秒

010-InfluxDB行协议

560

1分57秒

011-Web UI 管理Telegraf配置

690

8分49秒

012-示例2-使用Telegraf向InfluxDB写入数据

1010

2分12秒

013-Web UI 管理Telegraf配置（补充）

540

3分2秒

014-Web UI管理抓取任务（采集Prometheus格式的数据）

510

5分53秒

015-了解prometheus架构

420

8分22秒

016-示例3-定时任务采集Prometheus格式的数据

490

3分24秒

017-prometheus数据格式

450

13分30秒

018-InfluxDB是如何管理数据的

700

11分47秒

019-查询工具-DataExplorer

820

6分40秒

020-查询工具-Notebook

420

33分31秒

021-与时间标准相关的知识

500

17分53秒

022-示例4-使用查询构造器查询数据

530

8分13秒

023-FLUX语法-前言：什么是FLUX语言

550

1分14秒

024-FLUX语法-FLUX开发工具

510

8分4秒

025-FLUX语法-变量与基本表达式

520

9分48秒

026-FLUX语法-谓词表达式

540

3分23秒

027-FLUX语法-控制语句

480

16分29秒

028-FLUX10种基本数据类型-bool和bytes

500

16分54秒

029-FLUX10种基本数据类型-duration和time

430

15分50秒

030-FLUX10种基本数据类型-字符串与正则

320

17分10秒

031-FLUX10种基本数据类型-整数、无符号整数和浮点数

430

4分13秒

032-FLUX10种基本数据类型-null

440

5分10秒

033-如何使用FLUX文档

490

17分36秒

034-FLUX4种复合类型-记录

410

15分1秒

035-FLUX4种复合类型-字典

430

13分27秒

036-FLUX4种复合类型-数组

330

10分27秒

037-FLUX4种复合类型-函数

410

14分45秒

038-FLUX查询InfluxDB-入门

540

21分51秒

039-FLUX查询InfluxDB-序列、表和表流

440

13分37秒

040-FLUX查询InfluxDB-filter维度过滤

470

8分39秒

041-FLUX查询InfluxDB-类型转换函数与下划线字段

540

6分4秒

042-FLUX查询InfluxDB-map函数

530

10分45秒

043-FLUX查询InfluxDB-自定义管道函数

360

11分35秒

044-FLUX查询InfluxDB-window和aggregateWindow

800

9分9秒

045-FLUX查询InfluxDB-yield和join

950

1分40秒

046-InfluxDB开发工具-前言

380

3分21秒

047-HTTP API-安装ApiPost7并准备调试环境

430

3分9秒

048-HTTP API-如何使用InfluxDB API文档

520

16分38秒

049-HTTP API-示例：Token与权限

720

11分58秒

050-HTTP API-登录获取权限

550

10分14秒

051-HTTP API-为InfluxDB配置https

630

5分20秒

052-HTTP API-将API文档直接导入ApiPost

590

10分6秒

053-组织、权限与其他生产安全措施

280

1分57秒

054-HTTP API-HTTPS补充

340

7分22秒

055-influx命令行工具-下载与安装

390

4分41秒

056-influx命令行工具-如何获取帮助信息

470

5分23秒

057-influx命令行工具-配置

530

5分27秒

058-influx命令行工具-配置详解

500

1分39秒

059-JAVA操作InfluxDB-开发技巧

610

4分13秒

060-JAVA操作InfluxDB-项目与依赖

500

12分58秒

061-JAVA操作InfluxDB-同步写入与异步写入

620

5分19秒

062-JAVA操作InfluxDB-同步写入InfluxDB行协议

480

9分1秒

063-JAVA操作InfluxDB-同步写入Point

520

8分46秒

064-JAVA操作InfluxDB-同步写入POJO类

900

14分5秒

065-JAVA操作InfluxDB-异步写入

1090

8分59秒

066-JAVA操作InfluxDB-查询原始数据

720

11分5秒

067-JAVA操作InfluxDB-查询序列集合

470

2分7秒

068-JAVA操作InfluxDB-补充

400

8分34秒

069-拓展的带注释的CSV

430

6分11秒

070-使用模板快捷开发-认识InfluxDB模板

330

17分42秒

071-使用模板快捷开发-示例-安装使用docker模板

320

4分34秒

072-使用模板快捷开发-InfluxDB模板的不足

370

1分9秒

073-定时任务-什么是定时任务

460

13分57秒

074-定时任务-示例-定时向别的系统发送数据

470

12分5秒

075-定时任务-定时任务的原理

450

3分56秒

076-定时任务-定时任务的使用场景

400

3分34秒

077-定时任务-数据迟到问题

340

6分11秒

078-定时任务-cron表达式与开发工具

440

1分58秒

079-定时任务-抓取任务的本质

360

4分21秒

080-仪表盘-基本功能

390

4分43秒

081-仪表盘-示例：一个监控CPU的仪表盘

380

6分45秒

082-仪表盘-示例：变量与交互式仪表盘

380

4分27秒

083-仪表盘-更加灵活的变量

360

4分8秒

084-仪表盘-优化展示效果

430

2分37秒

085-influxd命令-基本用法

330

4分8秒

086-influxd命令-常用配置项

400

6分0秒

087-influxd命令-添加配置的三种方法

480

11分5秒

088-influxd命令-查看磁盘数据与数据迁出

340

7分6秒

089-influxd命令-管理token、组织与用户

2170

5分49秒

090-FLUX性能优化-优化的要点

390

7分45秒

091-FLUX性能优化-如何查看FLUX的执行性能

410

3分55秒

092-FLUX性能优化-示例：fliter条件对谓词下推的影响

360

7分15秒

093-FLUX性能优化-示例：开窗操作的性能优化

350

5分21秒

094-FLUX性能优化-示例：map与set的性能差异

420

4分28秒

095-报警实践-认识检查与报警

350

25分37秒

096-报警实践-创建检查

370

3分54秒

097-报警实践-配置报警终端

260

12分44秒

098-报警实践-配置提醒规则

440

18分36秒

099-报警实践-睿象云：报警平台的SaaS方案

400

100

2分33秒

100-报警实践-报警终端的痛点

360

101

21分4秒

101-报警实践-Notebook与报警任务的底层

280

102

11分27秒

102-报警实践-完成与睿象云的对接

450

103

6分4秒

103-报警升级-更值得信任的架构

330

104

3分0秒

104-报警升级-网络环境

420

105

9分25秒

105-报警升级-搭建内网穿透

390

106

8分38秒

106-报警升级-业务可用性检查

340

107

12分33秒

107-报警升级-配置报警1

330

018-InfluxDB是如何管理数据的

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐