文章/答案/技术大牛

发布

首页视频057 - Elasticsearch - 优化 - 分片策略

057 - Elasticsearch - 优化 - 分片策略

2022-12-022022-12-02 16:01:53播放43

点赞0 收藏 0

尚硅谷项目课程系列之Elasticsearch/7.x/视频/057 - Elasticsearch - 优化 - 分片策略.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
说一说这个分片策略，分片的概念呢，我们之前给大家讲过一个索引呢，它其中的数据过多以后，会导致它的查询性能降低，所以我们会把一个索引的数据呢，分成一个部分，一个部分的，每一个部分呢，它可以用于独立的查询，我们把它称之为叫分片，但是呢，你的一个分片呢，会导致什么呢？数据不安全，所以我们还会有副本的概念，那么这个副本呢，可以进行我们数据的备份，那么相对来说我们数据会安全一些，对吧？这个咱们都讲过了，而这个分片和副本的设计呢，是为了ES提供了支持分布式和故障转移的特性，但是你要记住了，我们这个分片和副本不是无限的。你不能一上来把这个分片设计的很大，是不合理的，为什么？因为我们这个分片一旦设计完成之后，它是不能重新修改的，你说我的副本啊，我可以动态修改，但是你的分几片是不能改的，为什么？因为我们会有一个路由计算的规则，你的数据往哪放，这是我们能算出来的，一旦你的这个分片你动态发生变化了，那么你想查这个数据可能就查不到了。所以我们的分片它一定是在我们创建索引时就已经确定好的，要千万注意了。
01:10
那么可能有人会说了，就说我们这个索引到底要有多大，以后的数据能有多少，我不确定，那我能不能一上来把这个分片数弄得很多呢？其实也不行，为什么？因为我们的分片其实是有代价的，大家可以看到一个分片的底层就是一个luion的索引，它会消耗一定的文件、句柄、内存以及CPU的运转，你可以把一个我们的分片就当成一个独立的搜索引擎，那么这样的话它会占用一个独立的空间，那么就意味着当你的分片越多，你的资源会被消耗的更多，对吗？那么每一个搜索请求都需要命中索引的每一个分片，那么每一个分片都处于不同的节点还好，但如果多个分片在同一个节点上，就意味着他们要竞争相同的资源了。因为你分片过多，在你的节点数太少，那么就导致一个节点上会有大量的分片，对不对，那么我们的资源是有限的呀，那所以性能就会降低了啊，还有呢，就是我们计算相关度的词项统计呢，是基于分片的，如果有许多分片的话，那么每一个都只有很少的数据，会导致很低的相关度，就意味着我们的数据啊被平均分到太多的分片当中，它的匹配度就会非常的差，懂我的意思吗？同学们，诶，所以啊，我们的一个业务索引具体需要分配多少个分片，是需要我们的技术人员去进行分析的，看看我们业务的增长是什么样子的，我们要有一个预判，预判之后呢，再判断我们的数据容量，再做一些操作，这样的话，对于我们的集群，对于我们的节点，对于我们的索引都做一个评估就会好很多。好吧，同学们，嗯，当你判断好之后，我们就可以进行分片了。但是我们还需要遵循一些原，大家可以看到控制每个分片占用的硬盘容量不超过ES。
02:55
最大的加入虚拟机的堆空间设置，一般设置不超过32G，那这句话是什么意思呢？首先其实我们后面也会讲，我们的这个内存呢，其实主要是用来存储一些我们的数据操作，可是你要记住啊，我们把内存中的数据操作完成以后，建立索引呢，建立我们的段文件呀，其实是不行的，为什么这个时候用户是查不到的，你只有把我们内存当中的内容给他暂存到我们的系统缓存当中，他才能够什么去查询。
03:26
所以在这种情况下，你的内存设计的很大，那么你的操作系统的可用缓存就会变少，那这样的话你的数据就会频繁的落盘，那你想想吧，同学们就会有问题，所以呢，我们希望的是一般不要超过32G啊，有个大概的标准对吧？还有一个就是我们考虑一下node的数量，节点的数量，一般一个节点有时候就是一台物理机，如果分片数过多，大大超过了节点数，就会导致一个节点上会有多个分片，一旦当前的节点出现故障，那么保持了一个以上的副本，就同样有可能会导致数据丢失，所以啊，它有一个标准，就是一般设置分片数量不超过节点数的三倍，比方说我现在有三个节点，那其实我们写九个分片是不是就可以了，大家还记得吗？我们之前好像就是这么配置的呀啊。
04:17
还有一个他说了主分片副本和节点最大数之间的数量，我们可以参考以下关系，节点数小于等于主分片数乘以副本数加一啊，把这个稍微记一下就可以了啊，推词分片分配其实指的是集群当中啊，如果某个节点突然当掉了，那么这个时候呢，我们原则上来讲应该把我们的分片呢重新分配，分配到别的节点上面去。可是在你重新分配的过程当中，这个时候那个节点又恢复了怎么办？其实你想想啊，那个节点恢复的话，是不是保留的旧的数据，那这个时候如果你可以推迟这个重新分片的这个过程的话，你旧的数据不就回来了吗？那这样的话性能上不就得到提高了嘛，对不对，你就不用再重新打乱整个数据重新分配了，那不挺好的吗？但是呢，我们需要考虑一个事情，就是说这个时间啊，怎么去调整，我们可以通过修改参数呢，来延长这个什么推迟分片分配的时间，也可以全局设置在索引上面也是可以的，大家看到在这边就有设置，我们这就不给大家演示了啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷项目课程系列之Elasticsearch/7.x

（57/62）

3分14秒

001 - Elasticsearch - 开篇

560

3分8秒

002 - Elasticsearch - 技术选型

390

47秒

003 - Elasticsearch - 教学大纲

430

2分40秒

004 - Elasticsearch - 入门 - 环境准备

460

6分52秒

005 - Elasticsearch - 入门 - RESTful & JSON

360

1分17秒

006 - Elasticsearch - 入门 - Postman客户端工具

470

5分11秒

007 - Elasticsearch - 入门 - 倒排索引

470

3分16秒

008 - Elasticsearch - 入门 - HTTP - 索引 - 创建

420

2分29秒

009 - Elasticsearch - 入门 - HTTP - 索引 - 查询 & 删除

420

5分20秒

010 - Elasticsearch - 入门 - HTTP - 文档 - 创建（Put & Post）

450

2分15秒

011 - Elasticsearch - 入门 - HTTP - 查询 - 主键查询 & 全查询

390

5分23秒

012 - Elasticsearch - 入门 - HTTP - 全量修改 & 局部修改 & 删除

440

7分18秒

013 - Elasticsearch - 入门 - HTTP - 条件查询 & 分页查询 & 查询排序

490

5分16秒

014 - Elasticsearch - 入门 - HTTP - 多条件查询 & 范围查询

350

4分4秒

015 - Elasticsearch - 入门 - HTTP - 全文检索 & 完全匹配 & 高亮查询

330

2分51秒

016 - Elasticsearch - 入门 - HTTP - 聚合查询

420

5分24秒

017 - Elasticsearch - 入门 - HTTP - 映射关系

480

4分48秒

018 - Elasticsearch - 入门 - JavaAPI - 环境准备

380

3分59秒

019 - Elasticsearch - 入门 - JavaAPI - 索引 - 创建

360

4分37秒

020 - Elasticsearch - 入门 - JavaAPI - 索引 - 查询 & 删除

360

8分56秒

021 - Elasticsearch - 入门 - JavaAPI - 文档 - 新增 & 修改

370

4分4秒

022 - Elasticsearch - 入门 - JavaAPI - 文档 - 查询 & 删除

410

5分20秒

023 - Elasticsearch - 入门 - JavaAPI - 文档 - 批量新增 & 批量删除

370

5分24秒

024 - Elasticsearch - 入门 - JavaAPI - 文档 - 高级查询 - 全量查询

380

7分25秒

025 - Elasticsearch - 入门 - JavaAPI - 文档 - 高级查询 - 分页查询 & 条件查询 & 字段查询

580

5分51秒

026 - Elasticsearch - 入门 - JavaAPI - 文档 - 高级查询 - 组合查询 & 范围查询

340

5分28秒

027 - Elasticsearch - 入门 - JavaAPI - 文档 - 高级查询 - 模糊查询 & 高亮查询

290

3分59秒

028 - Elasticsearch - 入门 - JavaAPI - 文档 - 高级查询 - 最大值查询 & 分组查询

470

2分26秒

029 - Elasticsearch - 环境 - 简介

430

9分6秒

030 - Elasticsearch - 环境 - Windows集群部署

410

7分15秒

031 - Elasticsearch - 环境 - Linux单节点部署

470

9分46秒

032 - Elasticsearch - 环境 - Linux集群部署

250

7分11秒

033 - Elasticsearch - 进阶 - 核心概念

410

2分35秒

034 - Elasticsearch - 进阶 - 系统架构 - 简介

380

3分58秒

035 - Elasticsearch - 进阶 - 单节点集群

400

2分8秒

036 - Elasticsearch - 进阶 - 故障转移

330

4分38秒

037 - Elasticsearch - 进阶 - 水平扩容

440

2分52秒

038 - Elasticsearch - 进阶 - 应对故障

380

7分24秒

039 - Elasticsearch - 进阶 - 路由计算 & 分片控制

470

7分18秒

040 - Elasticsearch - 进阶 - 数据写流程

470

4分2秒

041 - Elasticsearch - 进阶 - 数据读流程

470

2分4秒

042 - Elasticsearch - 进阶 - 更新流程 & 批量操作流程

420

6分46秒

043 - Elasticsearch - 进阶 - 倒排索引

460

3分24秒

044 - Elasticsearch - 进阶 - 文档搜索

390

15分54秒

045 - Elasticsearch - 进阶 - 文档刷新 & 文档刷写 & 文档合并

420

12分1秒

046 - Elasticsearch - 进阶 - 文档分析

300

8分33秒

047 - Elasticsearch - 进阶 - 文档控制

400

2分30秒

048 - Elasticsearch - 进阶 - 文档展示 - Kibana

390

2分48秒

049 - Elasticsearch - 框架集成 - SpringData - 整体介绍

420

8分7秒

050 - Elasticsearch - 框架集成 - SpringData - 代码功能集成

330

2分49秒

051 - Elasticsearch - 框架集成 - SpringData - 集成测试 - 索引操作

400

8分0秒

052 - Elasticsearch - 框架集成 - SpringData - 集成测试 - 文档操作

300

3分33秒

053 - Elasticsearch - 框架集成 - SpringData - 集成测试 - 文档搜索

330

10分51秒

054 - Elasticsearch - 框架集成 - SparkStreaming - 集成

420

10分54秒

055 - Elasticsearch - 框架集成 - Flink - 集成

400

2分17秒

056 - Elasticsearch - 优化 - 硬件选择

360

5分20秒

057 - Elasticsearch - 优化 - 分片策略

430

1分6秒

058 - Elasticsearch - 优化 - 路由选择

320

5分32秒

059 - Elasticsearch - 优化 - 写入速度优化

380

2分25秒

060 - Elasticsearch - 优化 - 内存设置

370

2分39秒

061 - Elasticsearch - 优化 - 重要配置

350

21分44秒

062 - Elasticsearch - 面试题

390

057 - Elasticsearch - 优化 - 分片策略

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐