文章/答案/技术大牛

发布

社区首页 >问答首页 >具有6到7个节点硬件配置的分布式Spark和HDFS群集

问具有6到7个节点硬件配置的分布式Spark和HDFS群集
EN

Stack Overflow用户

提问于 2017-07-19 19:56:14

回答 1查看 152关注 0票数 0

我计划旋转我的开发集群，用于基础设施监控应用程序的趋势分析，我计划使用Spark来分析故障趋势，使用Cassandra来存储传入的数据和分析的数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同的应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒，我计划将其推送到Cassandra表中，该表具有时间戳，服务器作为主键，应用程序以及一些重要的矩阵作为聚类键。我将在此存储的信息之上运行Spark作业，以进行性能矩阵故障趋势分析。

关于这个问题，考虑到上面的场景，我需要多少个节点(机器)以及在CPU和内存方面的配置来启动我的集群。

apache-spark

matrix

cassandra

hardware-infrastructure

hadoop

回答 1

Stack Overflow用户

发布于 2017-07-19 21:01:50

Cassandra需要一个计划良好的数据模型才能正常运行。在你拥有一个大型数据集之前，在这个阶段花时间计划事情是非常值得的，并发现你可能会做得更好，重新安排数据模型！

“一般”经验法则是你根据查询来调整你的模型，同时注意避免像非常大的行，大的删除，批处理之类的东西，这可能会有很大的性能损失。

这些文档为您提供了一个关于planning和testing的良好开端，您可能会发现它们很有用。我还推荐使用Cassandra stress工具。您可以使用它将性能测试推送到您的Cassandra集群中，以检查延迟和任何性能问题。你也可以使用你自己的模式，我个人认为这非常有用！

如果你使用的是像AWS这样的基于云的硬件，那么可以相对容易地放大/缩小，看看哪种硬件最适合你。你不需要在Cassandra上投入大的硬件，水平扩展比垂直扩展更容易。

我假设您也将数据拉回一个单独的spark集群用于分析，这样这些节点就可以运行普通的Cassandra (更少的硬件规格)。但是，如果您使用的是Datastax企业版(可以在spark“模式”下运行节点)，那么您将需要更强大的硬件，以及spark驱动程序、执行器和类似程序所需的额外负载。另一个好的文档链接是DSE hardware recommendations。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45189822

复制

相似问题

问具有6到7个节点硬件配置的分布式Spark和HDFS群集
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有6到7个节点硬件配置的分布式Spark和HDFS群集EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有6到7个节点硬件配置的分布式Spark和HDFS群集
EN