前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >实战问题:Elasticsearch 2.X 数据如何迁移到 7.X?

实战问题:Elasticsearch 2.X 数据如何迁移到 7.X?

作者头像
铭毅天下
发布2023-09-20 17:22:03
4200
发布2023-09-20 17:22:03
举报
文章被收录于专栏:铭毅天下

1、实战问题

老师,我想请问一下,我们有个版本是2.4.x版本的es,想把他里面的数据(数据量比较大,十几T)导入到7.10.x版本,但是升级版本,需要的变更太多,只能选择数据迁移,不知道用什么方法去迁移,老师能给一些建议吗? 死磕 Elasticsearch 知识星球 https://t.zsxq.com/1250CqALT

2、问题拆解回复

从 Elasticsearch 2.4.x 到 7.10.x 的迁移确实是一个大跨步,直接升级的确存在很多不兼容的变更。数据迁移在这种场景下是一个相对稳妥的选择。以下是一些建议:

2.1 方案1——使用Elastidump:

Elasticdump 是一个用于从一个集群导入和导出数据的工具。你可以先从2.4.x版本的ES导出数据,然后导入到7.10.x版本。

代码语言:javascript
复制
# 导出
elasticdump --input=http://source-es-cluster:9200/myindex --output=/path/to/data.json --type=data

# 导入
elasticdump --input=/path/to/data.json --output=http://destination-es-cluster:9200/myindex --type=data

特别提醒球友:考虑到你的数据量很大,这可能需要一些时间,并且你可能需要分批次执行,而不是一次导出/导入所有数据。

2.2 方案二:使用 Reindex API

Elasticsearch 提供了一个Reindex API,允许你在远程的集群上重新索引。但由于版本之间的差异,你可能需要一个中间集群,例如一个6.x的Elasticsearch

先从2.4.x迁移到6.x,再从6.x迁移到7.10.x。

先试试直接 7.X 行不行吧。

2.3 方案三:Logstash

使用 Logstash 也是一个可行的选择。你可以设置 2.4.x 版本的Elasticsearch作为输入源,7.10.x 版本的Elasticsearch作为输出目标。

3、迁移特别注意事项

3.1 数据模型和映射

在迁移数据之前,检查你的数据模型和索引映射。

图片来自:https://github.com/LisaHJung

一般先迁移 Mapping,再迁移数据。这样能有效避免索引 Mapping 不一致的情况。

7.x版本对于某些数据类型和设置有所不同,你可能需要对映射进行调整。

比如:早期版本支持多type,7.X 及之后版本已不支持。如果要迁移,多个 type 数据 可以迁移到多个不同索引。

3.2 备份

在进行任何操作之前,确保你有2.4.x版本的完整备份

虽然你不打算进行版本升级,但始终保持数据备份是一个好习惯。

3. 3 先测试小规模数据

在进行大规模迁移之前,建议你先测试一小部分数据的迁移,以确保过程是正确的,并对可能出现的问题有所了解。

如果小规模可行,再验证大规模集群数据。

3.4 考虑集群性能和容量

由于数据量很大,导入新的 7.10.x 版本时,确保你的集群有足够的容量和性能来处理数据导入的负载。

详细新版本集群规划的时候已经考虑了这一点,如果当时没有考虑数据激增情况,现在就得考虑一下。

3.5 监控

在迁移过程中,持续监控集群的性能和健康状况,确保所有事情都在预期之内进行。

3.6 特别提醒球友

迁移总是有其挑战性的,尤其是跨多个主版本。但通过结构化和步骤化的方法,你可以确保流程尽可能顺畅。

4、迁移实战反馈

4.1 可行性验证

球友反馈:老师,经过部署测试,logstash2.4.1版本可以把 es2.4.1版本的数据迁移到 7.10.2上去。

4.2 中间遇到的坑及解决方案

但是需要升级插件版本(logstash-output-elasticsearch插件版本6.2.5及以上),我们的源es版本2.4.1版本太低,所以没敢升太高,最后选择了6.3.0版本的插件。

4.3 迁移速率及耗时

由于2.4.1版本太低,没法调优,只能使用默认的配置。

  • 集群配置:主机4c 16g,单个logstash迁移 482M 数据。
  • 文档行数: 7189899
  • 耗时: 26分钟23秒。

至此,验证完成,问题解决。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-18 19:56,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 铭毅天下Elasticsearch 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、实战问题
  • 2、问题拆解回复
    • 2.1 方案1——使用Elastidump:
      • 2.2 方案二:使用 Reindex API
        • 2.3 方案三:Logstash
        • 3、迁移特别注意事项
          • 3.1 数据模型和映射
            • 3.2 备份
              • 3. 3 先测试小规模数据
                • 3.4 考虑集群性能和容量
                  • 3.5 监控
                    • 3.6 特别提醒球友
                    • 4、迁移实战反馈
                      • 4.1 可行性验证
                        • 4.2 中间遇到的坑及解决方案
                          • 4.3 迁移速率及耗时
                          相关产品与服务
                          Elasticsearch Service
                          腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
                          领券
                          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档