前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MongoDB分片到副本集改造实践

MongoDB分片到副本集改造实践

作者头像
MongoDB中文社区
发布2019-05-24 13:13:05
9030
发布2019-05-24 13:13:05
举报
文章被收录于专栏:MongoDB中文社区MongoDB中文社区

生产环境分片改造为复制集的解决方案

背景

生产线上使用 MongoDB Sharidng 的场景非常多,但由于业务初期评估不到位或者业务发展不符合预期,为了管理起来更方便,可能需要将 Sharding 改造为 复制集。 我就针对生产级业务环境需求提供最小影响服务将分片改造为复制集(含减分片场景)的解决方案。

首先,我提供两种可选方案: > 1)如果有同步工具支持,可以选择从分片全量+增量的方式同步到复制集,然后选个时间点切换; > 2)从集群中减分片(removeShard),最后只保留一个shard(复制集),业务接入从mongos改为复制集;

当然,如果业务数据量特别少,而且可接受一定程度上的业务停服,那也可以选择逻辑导出导入的方式。尽管这种方法最为简便,但因影响服务时间过长,所以很少会在生产环境中使用。 本文,我主要讲第二种方案,其核心技术点为removeShard,但经验告诉我们,这个操作往往不会那么顺利完成,大家可能会遇到primary shard提示,也可能会遇到jumbo chunk无法迁移的问题。下面我拿一个线上正式服务的案例来详细说明。

线上案例

简单描述业务背景,起初业务评估需求特别高,因此我们采用了分片架构,设计了3个shard,通过_id进行hash分片,但后来业务远远没能达到预期目标,再后来业务越来越萎缩,到现在分片集群反而成为了业务负担。为了减少其成本,业务决定将分片替换为复制集,同时将物理机部署改为容器化。因此,我们提供了如下迁移步骤:

> 1)目前有三个shard,remove两个shard > 2)业务从分片访问方式改为复制集访问方式 > 3)复制集做一次迁移,迁移到容器上

进入正题,目前我们系统有三个shard,第一步要提前确认primary shard,何为primary shard,官方说明。

> Each database in a sharded cluster has a primary shard that holds all the un-sharded collections for that database. Each database has its own primary shard. The primary shard has no relation to the primary in a replica set.

简单理解就是没有进行分片的集合所在库的shard。那如何确认,其实也简单,笨一点办法就是连接每个分片show collection查看即可。也可以执行sh.status查看。

那为什么要提前确认primary shard,因为如果是primary shard就无法remove,会有如下提示:

这时候如果该shard为你要删除的对象,那么需要先删除或者移动这些对象,删除不用解释,正式环境也不允许你操作,下面看下movePrimary,官方文档。

之后,我们就可以进行removeShard了,其操作说明官方文档也非常详细: 首先保证均衡器是开启的,因为在draining数据的过程中均衡器负责将该shard上面的数据迁移至其余的shard。

执行完removeShard,我们再通过sh.status查看的时候可以看到指定shard正在draining数据。

draining数据过程非常缓慢,可以继续通过执行removeShard命令来查看当前状态:

另外也可以通过sh.status命令看到被删除shard上的chunk数量不断减少,其余shard的chunk数量增多。

mongos以及shard的日志里面也可以看到相关迁移记录。 如果业务选择了合理的片键,removeShard会顺利完成,但在我们业务中仅仅拿_id进行了hash分片,在removeShard过程中我们遇到了jumbo chunk,导致无法迁移。

应对 jumbo chunk

jumbo chunk如何产生呢?每个分片都会有最大chunk的大小,保存在config.settings里面:

如果片键设计不合理很容易会导致有些chunk超出上面大小,这样均衡器就无法移动这个块儿。执行sh.status(true)可以看到jumbo chunk,也可以通过查看config.chunks来获取jumbo chunk的信息:

从上可以看到,anav_team_2里面存在7个jumbo chunk。 遇到jumbo chunk不必慌张,解决方法必然是有的。首先,我们能够想到的方法是能否直接给手动移动?官方也的确提供了moveChunk功能,参考文档

提供两种方式来定位移动的对象,find后接文档查询query条件,bound则提供要移动块儿的边界,更为精准。 MongoDB不允许移动大于chunksize的chunk,所以我们可以临时将chunk大小调大,方法为:

备注:chunksize单位为M。 使用moveChunk命令移动块儿到指定的shard:

我这里是moveChunk失败了,原因是MongoDB 3.4版本手动moveChunk命令做了个限制。但失败归失败,如果其他版本中使用该功能时,务必注意加上_secondaryThrottle,加上会强制要求迁移过程间歇进行,每迁移完一些数据,需等待集群中大多数分片成功完成数据复制后再进入下一次迁移。尽管放慢迁移的过程,但同时减缓了对系统性能的影响。这在生产环境中还是尤为重要。当然,该选项仅仅适用于复制集shard。 移动块儿不可行我们还有一招可以尝试,那就是splitChunk,官方文档。 思路就是拆分jumbo chunk为更小的块儿,然后通过均衡器来自动迁移。拿一个jumbo chunk来举例说明:

我们取一个min._id和max._id的大概中间值来进行split。

这时候我们再去查config.chunks,已经看不到该chunk信息。以此类推,其他chunk都split下,sh.status可以看到要删除shard上的chunk数量翻倍

最后打开均衡器,这时候我们庆幸的发现,均衡器又开始迁移chunk了。 当然迁移过程中可能还会出现jumbo chunk,解法就是重复上面splitChunk操作。

待迁移完shard上所有chunk,执行removeShard会返回成功信息。

通过该方式我成功remove了两个shard,只留下primary shard,然后通知业务服务从mongos访问改为复制集方式,后面物理机改容器这种不在本文范围内,所以不再往下去讨论。

经验教训

最后,如果是分片场景,请务必重视: 设计合理片键****!****设计合理的片键****!****设计合理片键****!念之再三,铭之肺腑。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Mongoing中文社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MongoDB
腾讯云数据库 MongoDB(TencentDB for MongoDB)是腾讯云基于全球广受欢迎的 MongoDB 打造的高性能 NoSQL 数据库,100%完全兼容 MongoDB 协议,支持跨文档事务,提供稳定丰富的监控管理,弹性可扩展、自动容灾,适用于文档型数据库场景,您无需自建灾备体系及控制管理系统。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档