首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >卡桑德拉数据中心之间的单向复制

卡桑德拉数据中心之间的单向复制
EN

Stack Overflow用户
提问于 2018-06-05 15:12:34
回答 2查看 675关注 0票数 4

我们建议将Cassandra作为大型归档解决方案的数据库后端来实现(与读取相比,有大量的写操作)。我们正在寻找关于Cassandra的复制和部署策略的输入,以适应我们的用例。

卡桑德拉的选择是基于以下因素:

  • 支持“写”操作的大吞吐量-每秒数千次同步写入
  • 适合工程数据(主要是时间序列数据)
  • 支持连续望远镜操作的高可用性
  • 工具支持,例如分析、报告

数据估计

  • 每年增长250 TB (系统寿命50年)

用例

我们有两个数据中心-操作DC和Analytics (隔离读写工作负载)。在这篇文章的末尾是描述提议的体系结构的图表。由于存储限制,我们无法在操作DC上存储在整个生命周期内生成的数据.因此,我们计划根据定义的策略将数据从Operations转移到Analytics (假设在1周后)。

问题

  1. 数据中心之间是否有可能在Cassandra中进行单向复制?从操作DC的数据转移到分析DC。但在分析DC中处理后存储的数据不应复制到操作DC中。
  2. 卡桑德拉对复制的东西提供控制吗?我们不想让两个区议会同步。我们希望配置复制(实际上是移动)到Analytics的内容。卡桑德拉有可能天生的吗?如果我想指定仅在最后一周的数据应该从操作数据中心复制到Analytics数据中心。
  3. 我们计划使用Cassandra内置的时间直播功能来删除数据(仅从DC操作中删除)。从操作DC中删除的数据不应从Analytics DC中删除。如何防止已删除数据的复制?
  4. 我读过一个Cassandra节点可以处理高达2-3 TB的数据。任何有关任何大型Cassandra实现的文档引用都将有所帮助。
  5. 将部署多少卡桑德拉节点来处理这种增长?建议的部署策略是什么?
  6. 性能考虑:虽然操作DC的存储将是有限的(3-7天的数据,大约5-10 TB),但Analytics DC的数据存储是累积的,并且随着时间的推移而继续增长。分析DC的数据库增长会影响复制并降低DC操作的性能吗?

这里的目的是知道是否可以使用Cassandra的内置功能来支持上述需求。我知道最明显的解决办法。不能在两个DC之间进行复制。将最后一周的数据从操作DC中转储到Analytics。

拟议架构图

EN

回答 2

Stack Overflow用户

发布于 2018-06-05 20:47:13

我认为,在您的情况下,“分离”DC (例如,一个DC中的键空间不会复制到另一个DC)只是有意义的,只需创建具有必要的相应复制设置的键空间。

或者您可以将“事务性”加载复制到两个DC中,并有一个任务定期将数据从“事务性”密钥空间复制到“分析”密钥空间,然后从“事务性”密钥空间中删除数据以释放空间。

但是,在使用DSE的高级复制(但不是DC,而是更多关于单独的集群)之前,不可能有像您所描述的那样的东西。

票数 2
EN

Stack Overflow用户

发布于 2018-06-26 05:25:29

  1. 不是
  2. 是的,每个键空间都配置了复制。
  3. 这是不可能的,但它是可以工作的。我可以想到两个相对容易的选择。最简单的方法是对两个键空间/DC进行批量写入,其中一个带有TTL,另一个没有。您还可以每月/每年创建一个密钥空间,从复制到多个DC开始,并在适当时删除“正常”DC。
  4. Cassandra集群-数据密度(每个节点的数据大小)-寻求反馈和建议
  5. Cassandra确实可以在一个集群中使用800-1000个实例,但是为了您自己的操作方便起见,通常建议将较小的实例切分。
  6. DCs可以是不对称的。
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50703464

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档