Spark并行操作_Spark并行运行多个操作_并行操作 - 腾讯云开发者社区

、

要将函数映射到RDD的所有元素，需要首先使用collect方法将RDD转换为Array类型： scala> val x = sc.parallelize(List(List("a"), List("b"), List("c", "d"))) x: org.apache.spark.rdd.RDD[List[String]] = ParallelCollectionRDD[1] at parallelize at <console>:12 scala> x.collect() res0: Array[Lis

浏览 3提问于2014-05-21得票数 2

回答已采纳

1回答

使用Apache Spark/Apache Flink进行缩放

、、

我计划了一个从Apache读取的应用程序，经过(可能耗时的)处理后，将数据保存到数据库中。我的例子是消息，而不是流，但为了可伸缩性，我正在考虑将其插入Spark或Flink，但无法理解这些扩展:我的应用程序，当Spark/Flink的一部分读取了Kafka的一些数据，然后退出或继续阅读吗？那么，Spark/Flink将如何决定他们必须生成更多的我的应用程序实例来提高吞吐量呢？谢谢!

浏览 4提问于2017-09-20得票数 0

回答已采纳

1回答

Spark并行操作

、

下面是我的驱动程序(伪代码)： // read all the files df1 = spark.read(f1) df2 = spark.read(f2) df3 = spark.read(f3) ..。 df10 = spark.read(f10) // crossjoin each pair and report the count<br> cdf1 = df1.crossjoin(df2) print cdf1.count ... cdf5 = df9.crossjoin(df10) print cdf5.count 当我执行spark-submit并转到跟踪器UI时

浏览 16提问于2019-03-13得票数 1

回答已采纳

1回答

在Azure上使用hadoop和spark的WordCount

、、、、

我必须在Azure中的一个集群Hdinsight上运行一个简单的字数统计。我已经用hadoop和spark创建了一个集群，并且我已经有了jar文件和代码，问题是我不知道如何设置集群和在Azure上启动spark的正确代码行，我想尝试不同的节点组合(workers，2-4-8)来看看程序的伸缩性。每次我使用spark-submit in mode yarn-client启动应用程序时，它总是工作，但总是使用2个执行器和1个核心处理1 1gb的输入文本文件，大约3分钟，而且如果我设置更多的执行器和更多的核心他接受设置，但他不使用，所以我认为问题出在RDD上，它没有在正确的模式下拆分输入文件，因为

浏览 0提问于2015-11-18得票数 0

1回答

使用scala火花并行重命名HDFS文件时的序列化问题

、

我想重命名HDFS文件在并行使用火花。但是我得到了序列化异常，我已经在我的代码之后提到了异常。我在使用spark.sparkContext.parallelize时遇到了这个问题。此外，我还可以重命名所有的文件，当它在一个循环。 def renameHdfsToS3(spark : SparkSession, hdfsFolder :String, outputFileName:String, renameFunction: (String,String) => String, bktOutput:String, folderOutput:S

浏览 0提问于2018-10-05得票数 0

回答已采纳

1回答

spark.mllib中的并行性

、、、

假设我有一个类型为data的对象Array[RDD]。我想在这个对象中的每个上学习独立的机器学习模型。例如，随机森林： data.map{ d => RandomForest.trainRegressor(d,2,Map[Int,Int](),2,"auto","gini",2,10) } 当我使用spark-submit --master yarn-client ...启动这项工作时，独立的学习任务似乎不会在多个节点上并行化。几乎所有的工作都是由一个节点(即此处的节点10 )完成的，从应用程序UI的截图中可以看到：附录为了完整起见，整个代码

浏览 4提问于2015-12-16得票数 4

回答已采纳

3回答

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id已设置

、、、

我使用的是spark 1.6，当我运行以下代码时遇到了上面的问题： // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import scala.concurrent.ExecutionContext.Implicits.global import java.util.Properties import scala.concurrent.Future // Se

浏览 2提问于2016-01-11得票数 16

2回答

如何在火花放电中进行并行处理

、、

我想做并行处理在for循环中使用吡火花。 from pyspark.sql import SparkSession spark = SparkSession.builder.master('yarn').appName('myAppName').getOrCreate() spark.conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false") data = [a,b,c] for i in data: try: df =

浏览 8提问于2020-01-10得票数 0

3回答

如何从单独的java程序中在集群上运行spark程序？

、、

我有一个运行单独小spark程序的java程序，那么我如何让我的java程序在集群上运行小spark模块/程序呢？例如:我有一个程序名为executor(java程序)。还有一些spark程序--加两个数--减两个数那么，我如何在集群上从我的java程序运行那些spark程序，在本例中是executor。谢谢！

浏览 2提问于2015-07-23得票数 0

1回答

类型失配- (Int，Vector)代替向量

、

我需要parallelize我的数据集，但是，当我试图使用重新分区的数据实例化一个RowMatrix时，会发生type mismatch错误。下面是读取和重新分区数据的代码： val data = sc.textFile("data.txt.gz").flatMap(r => r.split(' ') match { case Array(doc, word, count) => Some((doc.toInt, (word.toInt - 1, count.toDouble))) case _ => None }).groupByK

浏览 3提问于2017-04-20得票数 0

回答已采纳

1回答

SparkSql -连接查询执行抛出“object不是声明类的实例”

、、、

我正在对抛出SparkSession的Object is not an instance of declaring class执行查询，下面是下面的代码 Dataset<Row> results = spark.sql("SELECT t1.someCol FROM table1 t1 join table2 t2 on t1.someCol=t2.someCol"); results.count(); 异常发生在方法count()期间。我还观察到，如果查询是简单的select col from table1，则运行良好，但上面的联接查询会导致错误。我正

浏览 2提问于2017-03-27得票数 0

回答已采纳

1回答

为什么spark中的并行聚合速度不快？

、

正如上面提到的最后一个问题与我2011年的问题有关，我再次询问.. 我试图证明，在并行Spark阵列上聚合比在普通阵列上聚合(全部在4核Dell XPS上)更快。 import org.apache.spark.{SparkConf, SparkContext} object SparkStuffer extends App { val appName: String = "My Spark Stuffer" val master: String = "local" val conf = new SparkConf().setA

浏览 20提问于2020-07-17得票数 0

1回答

使用XGBoost和hyperopt在python中使用mlflow和机器学习项目的错误

、、、

我在一个机器学习项目中遇到了一些问题。我使用XGBoost对仓库项目的供应进行预测，并尝试使用hyperopt和mlflow来选择最佳的超级参数。这是代码： import pandas as pd import glob import holidays import numpy as np import matplotlib.pyplot as plt from scipy import stats from sklearn import metrics,model_selection from sklearn.model_selection import train_test_split

浏览 8提问于2022-11-10得票数 0

回答已采纳

1回答

如何在不使用Oozie、Airflow等工作流管理器的情况下，在Apache Spark中执行工作流的顺序/并行任务？

、

我的工作流程由几个任务(顺序和并行)组成，包括从Hbase收集数据和对这些数据执行各种机器学习算法等。有没有可能不使用工作流管理器就在Apache Spark中执行它们？我问的原因是我有一个算法来对任务进行批量排序(可以一起运行的任务)。我可以直接提交给Spark吗？

浏览 20提问于2019-10-23得票数 0

回答已采纳

2回答

Apache Spark中的CPU使用率是否有限？

、、

我最近发现，在UDF中添加并行计算(例如使用并行集合)可以显著提高性能，即使在local[1]模式下运行spark或使用具有一个执行器和一个核心的Yarn时也是如此。例如，在local[1]模式下，Spark-Jobs会消耗尽可能多的CPU (即，如果我有8个核心，使用top测量，则为800% )。这似乎很奇怪，因为我认为Spark (或纱线)限制了每个Spark应用程序的CPU使用率？所以我想知道为什么会这样，是否建议在spark中使用并行处理/多线程，或者我应该坚持sparks并行模式？这里是一个要玩的例子(在一个实例和一个核心的纱线客户端模式下测量的时间) case class

浏览 6提问于2017-03-06得票数 4

1回答

如何实现比spark集群内核数更高的并行度？

、

作为最后一步，我有一个通过网络发送数据的spark作业。另一端的接收器可以处理比我当前发送的多10到50倍的并发请求，所以我正在寻找一种方法来进一步并行化，而不是内核的数量。我找到了为一个执行器提供多个核心的方法，但没有找到如何在每个核心上使用多个执行器的方法。spark-submit的--num-executors选项没有帮助。选项也是如此。 spark.dynamicAllocation.enabled spark.dynamicAllocation.minExecutors spark.dynamicAllocation.maxExecutors

浏览 6提问于2020-07-31得票数 0

回答已采纳

1回答

Spark中的日志|懒惰评估对日志的影响

、

我有下面用Java编写的spark代码的逻辑流程。我需要捕获每个第i次迭代的时间。 // Start Spark Job - create configuration and spark context for ( i < 10) { log.info("Start Time of i" + new Date()) DataFrameObj.Count sqlContext.sql("select * from employee") SaveAsTextFile log.info("End Time Time of i&

浏览 4提问于2018-02-20得票数 0

1回答

如何在java中使用Spark并行化算法？

、、

import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.commons.lang.time.StopWatch; import java.util.ArrayList; import java.util.List; public class Prime { //Method to calculate and count the prime numbe

浏览 2提问于2021-01-13得票数 0

1回答

以独立模式提交多个spark应用程序

、、、、

我使用4种不同的语言(R，python，java，scala)编写了4种spark应用程序(从文本文件中查找wordcount )。 ./wordcount.R ./wordcount.py ./wordcount.java ./wordcount.scala 火花在独立模式下工作..。1.4worker节点2.1每个工作节点的核心3.1gb内存为每个节点的4.core_max设置为1 ./conf/火花-env.sh export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1" export SPARK_WORKER_OP

浏览 0提问于2017-06-15得票数 0

1回答

RDD只部分写入mongo。

、、

我正在使用Spark1.3.1，并试图使用版本1.3.2和mongo驱动程序3.0.1将RDD保存到mongodb。当我在独立集群上运行下面的应用程序时，驱动程序会被标记为失败。这是我用来复制问题的代码， import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.hadoop.conf.Configuration import org.apache.spark.rdd.RDD import o

浏览 3提问于2015-05-15得票数 1

回答已采纳

1回答

在R中并行预测

、、、、

我正在使用R中的预测模型，并且我正在使用mgcv包。当前的预测模型与GAM一起运行。然而，使用R需要很多天的时间，我想优化命令。我正在研究Hadoop和Spark R的并行性。我在Spark R上找到了预测命令，但我认为它没有GAM。你能告诉我是否有任何方法来运行我们在R中使用的预测，与并行和使用GAM？换句话说，我可以使用一个有(例如)4个节点的集群运行下面的R代码吗？ PS:有可能使用Azure，HDInsight PS2:花费很多时间的代码(实际上只在R服务器上运行，只使用一台机器) cl <- makeCluster(detectCores()-1) predict_x &

浏览 0提问于2017-06-20得票数 0

1回答

合并减少JDBC读取并行性

我利用Spark的JDBC功能如下：将MySQL表读入DataFrame 变换它们聚在一起把它们写到HDFS 在DataFrame的整个生命周期中，不对其执行**。它曾经像预期的那样起作用，但最近我遇到了一些问题。由于Spark的懒惰评估，coalesce减少了读取操作的并行性。因此，如果我使用带有DataFrame的DataFrameReader.jdbc(..numPartitions..)读取numPartitions=42，然后在编写之前将其读到6partition，那么它读取DataFrame时的并发性仅为6(只向MySQL发出6次查询)。我想重复一

浏览 2提问于2018-04-18得票数 2

回答已采纳

2回答

PySpark中的CrossValidator是否分发执行？

、、、

我正在使用PySpark中的机器学习，并且使用的是RandomForestClassifier。到目前为止，我一直在使用Sklearn。我正在使用CrossValidator来调整参数并获得最佳模型。下面是取自Spark网站的示例代码。根据我所读到的内容，我不明白spark是否也分发了参数调整，或者它与Sklearn的GridSearchCV的情况相同。任何帮助都将不胜感激。 from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.ml.eva

浏览 0提问于2017-08-22得票数 5

1回答

用于交叉验证器的sparkml setParallelism

、、、、

因此，我尝试使用SparkML设置交叉验证，但我得到一个运行时错误，说明 "value setParallelism is not a member of org.apache.spark.ml.tuning.CrossValidator" 我目前正在关注spark页面教程。我对此是新的，所以任何帮助都是感激的。Bellow是我的代码片段： import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.classification.LogisticRegression impor

浏览 0提问于2018-04-23得票数 1

1回答

星火如何在多核或超线程机器上实现一项任务内的并行性？

、、、

我一直在阅读并试图了解星火框架如何在独立模式下使用其核心。根据Spark文档，默认情况下参数"spark.task.cpus"'s值设置为1，这意味着要为每个任务分配的核数。问题1:当"spark.task.cpus = 4“时，一台多核机器的(例如，4个核心，8个硬件线程)，会使用4个核心(每个核心一个线程)还是两个超级线程？如果我设置"spark.task.cpus = 16"，比这台机器上可用的硬件线程数还要多，会发生什么情况？问题2:是如何实现这种硬件并行的？我试图查看代码，但没有发现任何与硬件或JVM通信的内核级并行性。例如，如果

浏览 2提问于2016-04-17得票数 12

回答已采纳

2回答

如何利用星火中集群模式下的所有驱动核？

、

我有一个RDD final_rdd，我正在使用累加器在驱动程序上收集它，并将其转换为List。 val acumFileKeys = sc.collectionAccumulator[String]("File Keys") var input_map_keys = ListBuffer(input_map.keys.toSeq: _*) final_rdd.keys.foreach(m => acumFileKeys.add(m.trim)) import collection.JavaConverters._ acumFileKeys.value

浏览 3提问于2019-11-22得票数 1

1回答

spark-elasticsearch连接器是否支持以多个并行方式读取es索引数据

我在https://www.elastic.co/guide/en/elasticsearch/hadoop/master/spark.html#spark-read上阅读我想读取属于某个索引的所有数据。我想问一下这个spark-elasticsearch连接器是否支持多个并行的读取，以便我可以加快读取速度。

浏览 64提问于2021-08-04得票数 0

2回答

火花并行流对象不可串行化

、、

我正在使用星火的多输入流阅读器来阅读卡夫卡的信息。我得到了下面提到的错误。如果我不使用多输入流读取器，我不会收到任何错误。要实现性能，我需要使用并行概念，测试目的我只使用一个。误差 java.io.NotSerializableException: org.apache.kafka.clients.consumer.ConsumerRecord Serialization stack: - object not serializable (class: org.apache.kafka.clients.consumer.ConsumerRecord, value: ConsumerR

浏览 0提问于2018-03-15得票数 1

回答已采纳

1回答

这是在pyspark上做乘法的正确方法吗？

、、、

火花源新手。下面是我的代码： def sparkApp(): spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config("spark.sql.catalogImplementation", "hive") \ .config("spark.executor.memory", "4g") \ .config("

浏览 1提问于2018-03-03得票数 0

2回答

执行顺序和缓存需求

、、、、

让我们考虑这样一个使用spark的python伪代码片段。 rdd1 = sc.textFile("...") rdd2 = rdd1.map().groupBy().filter() importantValue = rdd2.count() rdd3 = rdd1.map(lambda x : x / importantValue) 在spark的tasks的DAG中，有两个分支，在创建rdd1之后。两个分支都使用rdd1，但第二个分支(计算rdd3)也使用来自rdd2的聚合值(importantValue)。我假设DAG看起来像这样：我

浏览 1提问于2018-05-08得票数 2

1回答

如何在写入Cassandra时控制Spark任务的数量

、、

在mesos上使用spark与kafka和cassandra ( spark- cassandra -connector)结合使用spark-streaming我正在听一个kafka主题，然后使用.saveToCassandra插入到cassandra中我有60个CPU分配给spark (30个spark节点和5个cassandra节点)，我正在尝试遵循apache spark的建议“一般来说，我们建议集群中每个CPU核心2-3个任务”。也就是说120-180个任务。但是，根据接收到的输入数据，插入阶段似乎有许多任务。示例(我的流水批次持续1分钟)： 900 per minute -&

浏览 0提问于2015-09-17得票数 1

1回答

火花:磁芯缩放数中不一致的性能数

、、、、

我正在做一个简单的测试星火使用排序基准-从一个核心，最多8个核心。我注意到8个核心比1个核心慢。 //run spark using 1 core spark-submit --master local[1] --class john.sort sort.jar data_800MB.txt data_800MB_output //run spark using 8 cores spark-submit --master local[8] --class john.sort sort.jar data_800MB.txt data_800MB_output 每种情况下的输入和输出目录都在

浏览 1提问于2016-12-11得票数 14

回答已采纳

1回答

如何与partitionBy或InsertInto Hive并行保存Dataframe/Dataset的每个分区

、、

我目前使用的是spark 2.0.1，我尝试将数据集保存到一个带有insertInto()的“分区表单元”中，或者保存在S3存储中，使用partitionBy("col")和并发(并行)作业。但是使用这两个方法，我的数据集的每个分区都是一个接一个地保存的。非常慢。我已经知道必须同时使用insertInto()或partitionBy()。我假设在Splk.2.0.1中，Dataframe是弹性数据集。我现在的代码是： df.write.mode(SaveMode.Append).partitionBy("col").save("s3://bucket/d

浏览 4提问于2016-11-03得票数 2

1回答

如何对星火数据进行逐行并行计算？

、、、、

我收集了30万点，我想计算它们之间的距离。 id x y 0 0 1 0 1 1 28 76 … 因此，我在这些点之间做了一个笛卡儿积，然后我过滤，因为我只保留一个点的组合。实际上，就我的目的而言，(0, 1)与(1,0)之间的距离是相同的。 from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.functions import udf from pyspark.sql.types import Intege

浏览 2提问于2021-02-04得票数 2

回答已采纳

1回答

将SparkR DataFrame序列化为jobj

、、、、

我希望能够在SparkR SparkDataFrame上使用Java方法向Cassandra写入数据。例如，使用sparklyr扩展，我可以这样做： sparklyr::invoke(sparklyr::spark_dataframe(spark_tbl), "write") %>>% sparklyr::invoke("format", "org.apache.spark.sql.cassandra") %>>% sparklyr::invoke("option", "keyspace

浏览 7提问于2017-01-22得票数 0

回答已采纳

1回答

Spark toLocalIterator和迭代器方法的区别

、、、

在编写Spark程序时，我遇到了这个toLocalIterator()方法。如前所述，我只使用了iterator()方法。如果有人曾经使用过这种方法，请抛砖引玉。我是在Spark程序中使用foreach和foreachPartition方法时遇到的。是否可以将foreach方法的结果传递给toLocalIterator方法，反之亦然。 toLocalIterator() -> foreachPartition() iterator() -> foreach()

浏览 1提问于2015-08-25得票数 4

回答已采纳

1回答

在spark-submit命令中，是否存在用于控制并行级别的标志

、、、、

在Apache Spark中，对于"Spark-submit“命令，是否存在一个”标志“来控制并行级别。

浏览 0提问于2016-08-27得票数 0

2回答

在Spark作业中利用多个执行者和工作者

我在独立模式下运行spark，配置如下- export SPARK_WORKER_INSTANCES=4 export SPARK_WORKER_CORES=2 export SPARK_WORKER_MEMORY=4g 有了这个，我可以在我的spark UI8080上看到4个工人。现在有一件事是，我的主URL (4040)上的执行器数量只有一个，我如何才能将其增加到每个工作节点2个。另外，当我运行spark的一个小代码，仅仅使用一个执行器时，我是否需要进行任何配置更改，以确保使用多个工作线程上的多个执行器。任何帮助都是非常感谢的。

浏览 0提问于2015-05-20得票数 3

1回答

MapOutputTracker serializeMapStatuses内存中的火花输出错误

、

我有一个火花作业，在第0阶段有几十万个任务(300000个或更多的任务)，然后在洗牌过程中，以下异常抛到驱动端： util.Utils: Suppressing exception in finally: null java.lang.OutOfMemoryError at java.io.ByteArrayOutputStream.hugeCapacity(ByteArrayOutputStream.java:123) at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:117) at java.io.By

浏览 3提问于2017-09-30得票数 0

2回答

获取异常"submit- job -thread-pool-0“spark job kafka

、、

运行spark作业时，从Kafka队列中获取结果。获取下面的错误，这是工作良好，如果在kafka队列有400个项目，如果我处理1000个项目比它崩溃。从kafka队列中获取项目的代码， SparkConf sparkConf = new SparkConf().setAppName("JavaKafkaWordCount11").setMaster("local[*]"); sparkConf.set("spark.streaming.concurrentJobs", "20"); // Cr

浏览 0提问于2016-11-18得票数 1

1回答

星火外壳:不可序列化的任务

、、、、

我是星火，斯卡拉和卡桑德拉的新手。使用Spark，我正在尝试从MySQL获取一些I。 import org.apache.spark.rdd.JdbcRDD import java.sql.{Connection, DriverManager, ResultSet} Class.forName("com.mysql.jdbc.Driver").newInstance import com.datastax.spark.connector._, org.apache.spark.SparkContext, org.apache.spark.SparkContext._, org

浏览 5提问于2016-08-23得票数 1

1回答

Apache spark和Map reduce之间的关系是什么？

、、

我有些关于星火框架的问题。首先，如果我想编写一些运行在星星团上的应用程序，那么遵循地图减少过程是不可避免的吗？由于要遵循map-还原过程，许多代码必须更改为并行化表单，所以我正在寻找一些简单的方法来将当前的项目移动到代码很少变化的集群中。第二是关于火花壳.我尝试使用以下代码在集群上启动星火壳：MASTER=spark://IP:PORT ./bin/spark-shell。然后，我在星火壳上编写了一些scala代码，例如： var count1=0 var ntimes=10000 var index=0 while(index<ntimes) { index+=1 val t1 =

浏览 2提问于2014-06-11得票数 0

回答已采纳

1回答

Spark将不会加载大型MySql表: Java通信链路故障-超时

、、、、

我正在尝试从mysql中获取一个相当大的表，这样我就可以使用spark/databricks进行操作。我不能让它加载到spark中--我已经尝试了更小的子集，但即使在最小的合理单元，它仍然无法加载。我尝试过在mysql中使用wait_timeout和interactive_timeout，但似乎没有什么不同我还加载了一个较小的(不同的)表，并且加载得很好。 df_dataset = get_jdbc('raw_data_load', predicates=predicates).select('field1','field2', 'f

浏览 2提问于2018-01-08得票数 1

2回答

如何使用scala并行化spark中的for循环？

、、、

例如，我们有一个拼图文件，其中包含2000个股票代码在过去3年的收盘价，我们想要计算每个股票代码的5日移动平均值。所以我创建了一个spark SQLContext然后 val marketData = sqlcontext.sql("select DATE, SYMBOL, PRICE from stockdata order by DATE").cache() 为了获得符号列表， val symbols = marketData.select("SYMBOL").distinct().collect() 下面是for循环： for (symbol <-

浏览 5提问于2016-05-03得票数 4

回答已采纳

1回答

火花纱> spark.default.parallelism >从粗粒的角度看，无论大小

、

从Spark的粗粒度特性来看，当运行一个包含Join或Reduce键的Spark作业时，将spark.default.parallelism更改为一个大数目是个好主意，这样很多线程就可以同时在单个分区上工作了吗？据我理解，这应该没问题，对吧？但缺点是，这可能会使网络I/O通信繁忙。缺省值是所有可用核心的数量。有人能对此发表评论吗？提前感谢

浏览 4提问于2015-11-04得票数 0

1回答

为什么Spark应用程序将包含多个csv文件的DataFrame保存到S3存储桶

、、、

嗨，我是Spark和Amazon EMR集群的新手。我试图编写一个可以在Amazon EMR集群上运行的演示spark应用程序。当代码在Zeppelin notebook上运行时，它会返回输出，我认为输出会保存为Amazon EMR集群上的单个文件，如下所示： %pyspark spark.conf.set('spark.sql.repl.eagerEval.enabled', True) if type(df.c) == type(upper(df.c)) == type(df.c.isNull()): df_new = df.withColumn('up

浏览 31提问于2021-04-16得票数 0

回答已采纳

1回答

使用spark并行计算多个数据帧

、、

我想使用spark的parallelize属性来并行计算多个spark数据帧。我要做的是:获取一个IDList的id (由超过100000个元素组成)，从数据库中查询df(id)并在df上执行算法。 def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("scTest") val sparkContext = new SparkContext(sparkConf) val sparkSession = org.apache.spark.

浏览 28提问于2019-02-28得票数 0

回答已采纳

1回答

如何使用数据库中的Spark将JSON文件并行写入挂载目录

、、

我有一个包含50,000个JSON文件的RDD，需要写到Spark (Databricks)的挂载目录中。挂载的路径看起来类似于/mnt/myblob/mydata (使用Azure)。我尝试了以下方法，但发现我不能在Spark作业中使用dbutils。 def write_json(output_path, json_data): dbutils.fs.put(output_path, json_data) 我现在要做的就是把数据带到本地(驱动程序)，然后调用write_json方法。 records = my_rdd.collect() for r in records:

浏览 21提问于2019-04-09得票数 2

回答已采纳

1回答

Spark Sql执行是否使用线程本地jobgroup？

从我的发现来看，在不同的作业组中运行多个sparksql并不会将它们放入指定的组中。https://issues.apache.org/jira/browse/SPARK-29340 创建新的threadlocal jobgroup适用于spark dataframe作业，但不适用于sparksql。有没有办法将所有的线程本地spark sql执行放在一个单独的作业组中？ val sparkThreadLocal: SparkSession = DataCurator.spark.newSession() sparkThreadLocal.sparkContext.setJobGroup(

浏览 38提问于2019-10-03得票数 0

1回答

星火是否在内部节点间分发数据？

、、

我正在尝试使用Spark处理集群上的csv文件。我想了解是否需要显式读取每个工作节点上的文件来并行处理，还是驱动节点读取文件并在集群中分发数据以便内部处理？(我正在使用Spark2.3.2和Python) 我知道RDD可以使用SparkContext.parallelize()并行化，但是在DataFrames?的情况下会怎样呢？ if __name__=="__main__": spark=SparkSession.builder.appName('myApp').getOrCreate() df=spark.read.csv('d

浏览 0提问于2019-04-03得票数 5