首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >具有6到7个节点硬件配置的分布式Spark和HDFS群集

具有6到7个节点硬件配置的分布式Spark和HDFS群集
EN

Stack Overflow用户
提问于 2017-07-19 19:56:14
回答 1查看 152关注 0票数 0

我计划旋转我的开发集群,用于基础设施监控应用程序的趋势分析,我计划使用Spark来分析故障趋势,使用Cassandra来存储传入的数据和分析的数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同的应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒,我计划将其推送到Cassandra表中,该表具有时间戳,服务器作为主键,应用程序以及一些重要的矩阵作为聚类键。我将在此存储的信息之上运行Spark作业,以进行性能矩阵故障趋势分析。

关于这个问题,考虑到上面的场景,我需要多少个节点(机器)以及在CPU和内存方面的配置来启动我的集群。

EN

回答 1

Stack Overflow用户

发布于 2017-07-19 21:01:50

Cassandra需要一个计划良好的数据模型才能正常运行。在你拥有一个大型数据集之前,在这个阶段花时间计划事情是非常值得的,并发现你可能会做得更好,重新安排数据模型!

“一般”经验法则是你根据查询来调整你的模型,同时注意避免像非常大的行,大的删除,批处理之类的东西,这可能会有很大的性能损失。

这些文档为您提供了一个关于planningtesting的良好开端,您可能会发现它们很有用。我还推荐使用Cassandra stress工具。您可以使用它将性能测试推送到您的Cassandra集群中,以检查延迟和任何性能问题。你也可以使用你自己的模式,我个人认为这非常有用!

如果你使用的是像AWS这样的基于云的硬件,那么可以相对容易地放大/缩小,看看哪种硬件最适合你。你不需要在Cassandra上投入大的硬件,水平扩展比垂直扩展更容易。

我假设您也将数据拉回一个单独的spark集群用于分析,这样这些节点就可以运行普通的Cassandra (更少的硬件规格)。但是,如果您使用的是Datastax企业版(可以在spark“模式”下运行节点),那么您将需要更强大的硬件,以及spark驱动程序、执行器和类似程序所需的额外负载。另一个好的文档链接是DSE hardware recommendations

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45189822

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档