Spark - GraphX与spark-submit的性能差异 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

Spark - GraphX与spark-submit的性能差异

、、

我们已经使用Spark 1.6.1和Scala2.10编写了一些代码来通过GraphX连接和链接数据集。如果我们在spark-shell中运行这段代码，它将在30分钟内完成，具有10个执行器，10g内存和每个执行器5个cpu。如果我们使用spark-submit在一个fat jar中运行它，那么这个过程就会因为内存不足错误而失败，并且需要一个半小时才能到达那个点。有没有人知道这可能是什么原因？有谁知道SparkContext和SQLContext是如何在shell中设置的，以及我们在设置自己的<

浏览 18提问于2017-02-02得票数 1

回答已采纳

1回答

为emr上的``spark* submit`作业指定marksweep*

、、、

在emr上运行spark-submit作业时，我如何指定希望jvm使用MarkSweep gc？我可以与作业(即spark-submit -- conf...)一起提交它吗?如果可以，命令是什么？这是否必须在spark启动时设置，如果是，我如何在emr配置中指定？谢谢!

浏览 5提问于2019-03-26得票数 0

回答已采纳

2回答

火花-提交java.lang.ClassNotFoundException

、

我试图以独立的模式执行spark submit，我的项目在IntelliJIdea工具中编译成功，我还创建了相关的jar文件，但当我尝试运行以下内容时： [cloudera@quickstart bin]$ spark-submit --verbose --class graphx /home/cloudera/ideaProjects/grafoTelefonos/target/graphx-1.0->

浏览 3提问于2016-05-05得票数 2

回答已采纳

1回答

如何在Google平台上提交星火图形作业示例？

、、、

我在Google平台上创建了一个集群，有五个基于linux的虚拟机(VM)：一个主服务器和4个工作人员。我在主VM上运行./start-master.sh，在worker VM上运行./bin/spark-submit.运行一个已经在Spark中的PageRank算法./bin/spark-submit \ --master <maste

浏览 6提问于2021-02-07得票数 1

回答已采纳

1回答

从内存错误中触发GraphX

、

我正在运行GraphX上的星火与输入文件大小约100 of的aws EMR。我的集群配置如下:节点- 10内存-122 My每个HDD -320 My每个spark-submit --deploy-modecluster \ncgaka-graphx-assembly-1.0.jar tr

浏览 0提问于2016-09-21得票数 0

回答已采纳

1回答

团簇(纱线)模式下火花放电的Kerberos问题

、、、

我正在使用带有Kerberos身份验证的Spark。spark-submit --class "graphx_sp" --master local[16] --driver-memory 20G target/scala-2.10/

浏览 5提问于2016-12-05得票数 3

回答已采纳

2回答

如何在spark中找到action的job id？

、、

我想取消spark中的一个作业，因为有时它需要更多的时间，而且还没有完成。当我们调用一个操作时，就会创建一个作业。例如，当我调用collect时，它需要更多的时间才能完成。我想取消此操作的作业。我不使用spark-submit，我在Scala代码中创建SparkContext。我的应用程序是一个基于GraphX的web应用程序。我如何在spark中做到这一点？

浏览 52提问于2020-06-28得票数 1

回答已采纳

1回答

Neo4j可以和Hadoop一起工作吗？

、

Neo4j能否与Hadoop协同工作，用于大数据的社交网络分析？如果是，是否很难让它们协同工作，以及这样一个系统的瓶颈是什么？基本上，我正在寻找一种用于大数据的社交网络分析的解决方案，该网络可以是数亿个顶点。我也期待一个用户友好的图形交互浏览和分析图形界面。Hadoop+Neo4j能满足上述目的吗？或者Hadoop+Griph或Spark+GraphX是更好的解决方案？任何意见或建议都将不胜感激。谢谢。

浏览 2提问于2015-02-26得票数 1

1回答

声明类型为Edge Graphx的空数组

、、、

我正在从文件中读取数据来创建图形的边缘。我已经声明了一个数组，并一个一个地在其中添加边。edgeArray = edgeArray ++ Array(Edge(VertexId, VertexId, edgeProperty("", "")) ) 但是，在第一行中，我不需要用虚拟值声明额外的边<：org.apache.spark.graphx.Edge_ [org.apache.spark.graphx.Edge_ >：(Long，Lo

浏览 0提问于2018-05-05得票数 0

回答已采纳

1回答

ModuleNotFoundError:没有名为“graphframes”的模块

、、、

我找到了这个answer，并按照它的说明操作，但它不起作用。这是我的代码hello_spark.py import pyspark from graphframes import * 当我使用此命令运行时： spark-submi

浏览 86提问于2021-04-07得票数 0

回答已采纳

1回答

Apache zepplin spark作业运行速度比spark-submit快

、、

我想知道为什么我在Zepplin段落中写的spark作业的执行速度比运行spark-submit要快得多？我基本上在Zepplin和spark-submit中使用相同的配置(执行器、内存)，但是在执行时间上有很大的不同。如何解释这种差异？

浏览 0提问于2016-12-28得票数 2

1回答

如何在集群中高效地执行spark程序

然后打开主机1(这是集群的namenode )终端&运行spark命令，如因此，实际上只有一个节点正在执行程序(主机2)。为什么？有没有办法让我的驱动程序也能执行这个程序。这样它就跑得更快了？

浏览 2提问于2016-12-28得票数 0

回答已采纳

2回答

SparkContext和SparkSession :如何获得"parallelizePairs()"？

、

首先，我让我的司机： .builder() .config("driver", "org.postgresql.Driver")但是spark没有我需要的功能。首先，我从不需要JavaSparkContext，因为我使用spark-submit

浏览 2提问于2017-09-10得票数 2

回答已采纳

3回答

纱线上火花的性能问题

、

我们正尝试在yarn上运行我们的spark集群。我们有一些性能问题，特别是与独立模式相比。我们有一个由5个节点组成的集群，每个节点都有16 We的RAM和8个核心。根据我的理解，我们的任务应该分配4个14 of的容器。但是spark UI只显示了3个每个7.2 UI的容器。我们无法确保分配给它的容器数量和资源。与独立模式相比，这会导致有害的<

浏览 1提问于2015-02-05得票数 9

3回答

Apache :客户端和集群部署模式的不同

、

我们有一个星火独立的集群，有三台机器，所有这些机器都有Spark1.6.1： (...)对于独立集群，Spark目前支持两种部署模式。在客户端模式下，驱动程序在与提交应用程序的客户端相同的进程中启动。但是，通过阅读这篇文章，我并不真正理解实际的差异，我也不明白不同部

浏览 5提问于2016-05-04得票数 40

回答已采纳

3回答

设置星火NoSuchMethodError图时获取GraphX

、、

我得到一个类似的错误遇到的 -我可以运行GraphX使用火花外壳，但我得到一个NoSuchMethodError时，我试图使用火花提交的jar文件。)Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.graphx.._ import org.apache.spark

浏览 5提问于2015-02-18得票数 2

回答已采纳

1回答

用空值填充的GraphX顶点

、、

我正在尝试一个在星火GraphX和有困难的零代码。map at <console>:51 res77: org.apache.spark.rdd.RDD[org.apache.spark.graphx.Edge[Boolean[(String, Long),Boolean] = org.apache.spark.graphx.impl.GraphImpl@9533103 如果我拉出顶点属性，我就得到了一些空值。MapP

浏览 2提问于2018-04-19得票数 1

回答已采纳

1回答

AWS EMR step Vs命令行火花-提交

、

在EMR集群的主节点上提交EMR步骤与运行火花提交步骤有什么区别？EMR step aws emr add-steps --cluster-id j-2AXXXXXXGAPLF --steps Type=Spark,Name="Spark Program",ActionOnFailure=CONTINUE,Args=[--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/

浏览 5提问于2021-11-09得票数 1

回答已采纳

2回答

spark-submit和pyspark有什么区别？

、、

如果我启动pyspark，然后运行以下命令：Command: /usr/local/spark/bin/spark-submit my_script.py collapse= Sparker(sc)

浏览 0提问于2014-11-04得票数 20

1回答

GraphLoader对象中的抽象方法错误

、、

我已经在Graphx中创建了一个简单的项目，当我试图运行这个测试项目时，我得到了AbstractMethodError，这个方法edgeListFile内部出现错误，看起来像是与记录器相关的东西，我不是abe看到的，请帮助我。这是我的.scala file object graphtest extends App { import org.apache.spark.graphx.org.apache.spark.interna

浏览 23提问于2019-02-05得票数 0

点击加载更多