我们的Cassandra集群在亚马逊EC2上运行,环中有4个节点。我们希望将整个环境迁移到Azure。我们使用这个过程添加了一个新的数据中心(Azure)和我们现有的数据中心(亚马逊EC2),使用的策略是NetworkTopology和使用的GossipingPropertyFileSnitch。
添加新数据中心后,我们在新数据中心的所有节点上运行以下命令。#nodetool rebuild --“数据中心名称”
现有数据中心中所有节点上的总数据量约为3 TB。重建新的数据中心花了大约6-7天的时间,一旦system.log说完,所有的会话都完成了。我们检查了新数据中心中每个节点上的数据库大小,发现所有4个节点的大小都比现有数据中心中的要小(每个节点约75 db,即总计约300 db)。
有没有人可以告诉我这是不是检查新数据中心和现有数据中心数据是否相同的正确方法?
发布于 2016-10-12 21:09:35
数据大小不是检查数据不匹配的正确方法。
由于各种原因,大小可能会有所不同,其中一些我可以想到:
我的建议是先查看每个表中的行数。确保两个DC的所有设置相同。然后编写一个spark作业来检查一致性(通过校验和或单个字段,校验和可能更快)。确保spark作业以最佳方式运行,并且不需要混洗数据,它应该能够在几个小时内运行并给出结果。
注意:这是我在不了解更多细节的情况下所能做的最好的事情。
https://stackoverflow.com/questions/39997124
复制相似问题