问使用NetworkTopology迁移Cassandra后的数据不匹配
EN

Stack Overflow用户

提问于 2016-10-12 19:10:45

回答 1查看 73关注 0票数 0

我们的Cassandra集群在亚马逊EC2上运行，环中有4个节点。我们希望将整个环境迁移到Azure。我们使用这个过程添加了一个新的数据中心(Azure)和我们现有的数据中心(亚马逊EC2)，使用的策略是NetworkTopology和使用的GossipingPropertyFileSnitch。

添加新数据中心后，我们在新数据中心的所有节点上运行以下命令。#nodetool rebuild --“数据中心名称”

现有数据中心中所有节点上的总数据量约为3 TB。重建新的数据中心花了大约6-7天的时间，一旦system.log说完，所有的会话都完成了。我们检查了新数据中心中每个节点上的数据库大小，发现所有4个节点的大小都比现有数据中心中的要小(每个节点约75 db，即总计约300 db)。

有没有人可以告诉我这是不是检查新数据中心和现有数据中心数据是否相同的正确方法？

发布于 2016-10-12 21:09:35

数据大小不是检查数据不匹配的正确方法。

由于各种原因，大小可能会有所不同，其中一些我可以想到：

压缩:您的压缩策略是什么？您的数据按应用程序是不变的吗？如果是，那么压缩不是原因，否则可能是。
刷新:您是否在检查这些大小之前刷新了节点？如果不是，那么一些数据可能在memtables.
What中，关键字缓存大小等？您是如何准确计算出数据大小的？它是数据目录上的一个简单的"du“，还是将单个表文件加在一起？因为数据目录包含索引文件、表中的实际数据等。同样，这不是正确的方法。

我的建议是先查看每个表中的行数。确保两个DC的所有设置相同。然后编写一个spark作业来检查一致性(通过校验和或单个字段，校验和可能更快)。确保spark作业以最佳方式运行，并且不需要混洗数据，它应该能够在几个小时内运行并给出结果。

注意:这是我在不了解更多细节的情况下所能做的最好的事情。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39997124

复制

相似问题

问使用NetworkTopology迁移Cassandra后的数据不匹配EN