使用spark并行计算多个数据帧_使用scala将json读入多个spark数据帧_从多个文件读取Spark数据帧 - 腾讯云开发者社区

、、、

我是这个领域的新手。我正在尝试将数据从spark推送到phoenix。数据的大小超过100万。spark作业在10万条记录的情况下运行良好，但当记录数超过100万条时就会卡住。我正在从hive加载数据 val hive_data = spark.sql(query) 把它推向凤凰城 hive_data.write.format("org.apache.phoenix.spark").mode(SaveMode.Overwrite).options(collection.immutable.Map( "zkUrl" -> zkUrl,

浏览 26提问于2021-06-26得票数 0

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true") 但是，

浏览 11提问于2021-11-19得票数 0

1回答

-Spark Scala Mongodb- MongoTypeConversionException不能将字符串转换为StructType(...)

、、、

任何帮助都将不胜感激。我正在尝试使用mongodb中的数据构建一个数据帧。 val spark = SparkSession.builder() .master("local") .appName("app") .config("spark.mongodb.input.uri", uri) .config("spark.mongodb.input.collection", "collectionName") .config("spark.mon

浏览 83提问于2021-07-27得票数 0

1回答

字段标识，在Spark中的except()操作期间

、

spark工作中的except()函数，用于比较两个数据帧并从第一个数据帧返回不匹配的记录。但是，我也想跟踪字段详细信息，这是不匹配的。在spark中怎么做?？请帮帮忙

浏览 1提问于2018-06-21得票数 0

2回答

Spark中的转换和动作的行为是什么？

、、

我们正在执行一些测试，以评估Spark和Spark SQL中的转换和操作的行为。在我们的测试中，首先我们设想一个具有2个转换和1个操作的简单数据流： LOAD (result: df_1) > SELECT ALL FROM df_1 (result: df_2) > COUNT(df_2) 第一个数据流的执行时间是10秒。接下来，我们向数据流中添加了另一个操作： LOAD (result: df_1) > SELECT ALL FROM df_1 (result: df_2) > COUNT(df_2) > COUNT(df_2) 分析数据流的第二个版本，由

浏览 2提问于2016-12-09得票数 0

1回答

如何在Spark中连接其他数据帧时从其中一个数据帧中选择结果列？

、、、

我有两个数据帧： val df1 = List(("Sid", 1), ("Teni", 2), ("Bob", 3), ("Spark", 4), ("Hbase", 5)).toDF("name", "value") val df2 = List(("Sidhartha", 1), ("Tammineni", 2), ("Bobby", 3), ("Spark", 4)).toDF("name", &

浏览 0提问于2021-04-14得票数 0

1回答

是什么决定了spark应用程序中的作业数量

、

以前我的理解是，一个动作会在spark应用程序中创建一个职位。但是让我们看看下面的场景，其中我只是使用.range()方法创建一个数据帧 df=spark.range(10) 因为我的spark.default.parallelism是10，所以结果数据帧是10个分区。现在我只是在数据帧上执行.show()和.count()操作 df.show() df.count() 现在，当我检查了spark历史记录时，我可以看到.show()的3个作业和.count()的1个作业。为什么.show()方法有3个任务？我读过一些文章，其中.show()最终将在内部调用.take()，它将遍历

浏览 1提问于2021-03-24得票数 0

1回答

通过在不同线程中执行多个查询来触发数据帧缓存

、

我想知道spark中的数据帧缓存是否是线程安全的。在我们的一个用例中，我从一个hive-table创建一个dataframe，然后通过不同的线程在同一个dataframe上运行多个SQL。由于我们的存储和计算是解耦的，而且由于某些原因读取非常慢，我在考虑将数据帧缓存到内存中，并将缓存的数据帧用于所有查询。数据帧缓存是线程安全的吗？这样做还有其他的陷阱吗？我的计算集群中有足够的内存(磁盘和内存)来缓存表，我将在相同的数据帧上执行10+查询。谢谢, 阿卡什

浏览 17提问于2020-03-10得票数 0

1回答

PySpark查询多个JSON文件

、、、

我已经使用命令(python Spark)将一个目录中包含的许多JSONL文件(所有文件的结构都相同)上传到Spark 2.2.0中: df = spark.read.json(mydirectory) df.createGlobalTempView("MyDatabase") sqlDF = spark.sql("SELECT count(*) FROM MyDatabase") sqlDF.show()。上传工作正常，但是当我查询sqlDF (sqlDF.show())时，似乎Spark只计算了一个文件的行数(第一个？)而不是所有的人。我假设"My

浏览 2提问于2017-09-16得票数 0

2回答

在写入数据帧时，从Spark到数据库的连接数是多少？

、、

在下面的场景中，我搞不懂Spark会建立多少到数据库的连接：假设我有一个Spark程序，它只在一个具有一个执行器的工作节点上运行，一个数据帧中的分区数是10，我想将这个数据帧写入Teradata。由于并行度是10，但是executor只有1，那么在保存数据时会建立10个连接，还是只有1个连接？

浏览 3提问于2020-11-05得票数 1

2回答

org.apache.spark.SparkException:不可序列化的错误任务

、、、

..。 val cols: Seq[String] = Seq("item", "SR", "RP") val vecToSeq = udf((v:org.apache.spark.ml.linalg.Vector) => v.toArray) val exprs = cols.zipWithIndex.map{ case(c,i) => $"_tmp".getItem(i).alias(c)} val DoubleDF = result5.select(vecToSeq($"vectorCol").

浏览 0提问于2017-02-28得票数 0

1回答

使用Spark进行json的多个表

、、

你们能向我解释一下使用Apache Spark从各种Oracle和SQL Server模式中以json格式导出表的最佳方式是什么吗？Spark可以在同一应用程序中处理多个数据帧吗？谢谢!

浏览 0提问于2020-11-25得票数 0

3回答

字符串列包含通过spark scala进行精确匹配的单词

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike、contains等函数，但它没有给出我想要的输出。有人知道如何在spark scala SQL中或使用dataframe的spark scala函数来开发此逻辑吗？请帮我弄一下这个。

浏览 1提问于2021-02-12得票数 0

1回答

将.corrWith pandas转换为pySpark

、、、

? 大家好。你能帮我处理一下.corrWith吗？我找不到一个解决方案来“翻译”熊猫到火花编辑:我使用两个数据帧，所以我需要在两个数据帧之间建立一个关联代码： pd.DataFrame({col:x.corrwith(y[col]) for col in y.columns}) 下面的图像显示了完美的输出，但需要在spark上写入

浏览 6提问于2021-09-30得票数 0

1回答

无法将pyspark中的dataframe复制到Databricks中的csv文件

、

我在Databricks的Pyspark环境中工作，有一个pyspark数据框架，我将其称为df。我需要将这个spark数据帧推送到csv文件中，我无法这样做。虽然没有弹出错误，但数据帧没有复制到csv中。下面是通用代码 path = “ “ #CSV File Location header = “This is the header of the file" With open(path,”a”) as f: f.write(header+”\n”) df.write.csv(path=path,format=“csv”,mode=“append”)

浏览 17提问于2020-06-21得票数 0

3回答

删除spark数据帧中重复的所有记录

、、、、

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala 2.10。

浏览 4提问于2018-04-10得票数 5

回答已采纳

1回答

有没有一种更快的方法来根据重复值的数量来过滤Pandas数据帧？

、

目前，我正在使用以下函数； df['i'] = df.groupby(['i']).filter(lambda i: len(i) > 500) 在其他数据帧上测试后，这可以按预期工作，但处理大量组时除外。我正在尝试对大约50,000个组使用它，到目前为止还没有看到我的程序处理这一行。我让程序运行的最长时间是不到48小时。 Edit:假设lambda函数不会删除所有组，该方法适用于大型组。将一个组的最小长度减少到250，允许程序在30秒内执行。

浏览 17提问于2021-01-20得票数 1

回答已采纳

2回答

异常:只能在流式数据集/DataFrame上调用“writeStream”

、、

正在尝试创建spark数据流writeStream函数的测试，如下所示： SparkSession spark = SparkSession.builder().master("local").appName("spark session").getOrCreate() val lakeDF = spark.createDF(List(("hi")), List(("word", StringType, true))) lakeDF.writeStream .trigger(Trigger.Once) .format

浏览 0提问于2018-07-19得票数 8

2回答

Azure Synapse -如何从同一集合中包含多个类型的Azure Cosmos DB容器中读取数据？

、

我在Azure Cosmos DB中有一个容器，在同一个容器中有多个文档类型。因此，根据类型，密钥对会发生变化。我正在尝试使用以下代码从Synapse的这个容器中读取数据： cfg = { "spark.cosmos.accountEndpoint": Endpoint, "spark.cosmos.accountKey": accountKey, "spark.cosmos.database": databaseName, "spark.cosmos.container": containerName, } df = spa

浏览 58提问于2021-10-28得票数 0

回答已采纳

1回答

Spark问题:如果我不缓存数据帧，它会被多次运行吗？

、、

如果我不缓存使用带有limit选项的spark SQL生成的dataframe，当我编辑得到的dataframe并显示它时，我会得到不稳定的结果吗？描述。我有一个类似下面的表格，它是通过使用带有limit选项的spark SQL生成的： +---------+---+---+---+---+ |partition| | 0| 1| 2| +---------+---+---+---+---+ | 0| 0| 0| 10| 18| | 1| 0| 0| 10| 17| | 2| 0| 0| 13| 17| +---------

浏览 6提问于2021-04-21得票数 0

回答已采纳

1回答

在spark中重新分区数据帧不起作用

我有一个cassandra数据库，其中有大约400万条记录。我有3个从机器和一个驱动程序。我想将这些数据加载到spark memory中，并对其进行处理。当我执行以下操作时，它会读取一个从机器中的所有数据(6 Gb中的300MB)，而所有其他从机器的内存都是未使用的。我将数据帧修复为3帧，但数据仍然在一台机器上。因此，由于每个作业都在一台机器上执行，因此需要花费大量时间来处理数据。这就是我正在做的事情 val tabledf = _sqlContext.read.format("org.apache.spark.sql.cassandra").options(Map( "

浏览 0提问于2015-09-25得票数 0

1回答

如何在Pandas中将多个地块文件附加到一个数据框中

、、、

我正在用Spark和Pandas解压snappy.parquet文件。我有180个文件(我的Jupyter笔记本中有7 7GB的数据)。在我的理解中，我需要创建一个循环来抓取所有的文件-用Spark解压它们并附加到Pandas表中？以下是代码 findspark.init() import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() parquetFile = spark.read.parquet("file_name.snappy.parque

浏览 27提问于2019-12-04得票数 0

回答已采纳

1回答

查看通过Azure ADF执行的作业的Spark UI

、、、

我无法查看通过Azure数据工厂中的notebook活动执行的databricks作业的spark-ui。有人知道需要添加哪些权限才能启用相同的权限吗？

浏览 5提问于2021-11-10得票数 0

1回答

星星之火-可以控制分区到节点的位置吗？

在Spark中，可以为RDD提供自定义的Partitioner。通常，生成的分区被随机分配给一组工作人员。例如，如果我们有20个分区和4个工作人员，每个工作人员将(大约)得到5个分区。但是，将分区放置到工人(节点)似乎是随机的，如下表所示。 trial 1 trial 2 worker 1: [10-14] [15-19] worker 2: [5-9] [5-9] worker 3: [0-4] [10-14] worker 4: [15-19] [0-4] 对于单个RDD上的操作来说，这是很好的，但是当您使用跨越多个RDD的

浏览 1提问于2017-06-07得票数 3

2回答

如何确定数据帧是Pandas还是Spark？

、、

我将一个数据帧传递给一个函数。有时是Pandas数据帧，有时是Spark数据帧。我的函数需要采取相应的行动。有没有简单的方法，比如df.isPandas()，来确定一个数据帧(作为“df”接收)是Pandas数据帧还是Spark数据帧？提前谢谢。

浏览 17提问于2019-05-14得票数 1

回答已采纳

1回答

为什么一个动作会产生两个工作？

、、

我使用Spark2.1.0。为什么下面的一个操作会产生两个相同的作业(每个动作中的DAG相同)？它不应该只产生一个吗？这里有代码： val path = "/usr/lib/spark/examples/src/main/resources/people.txt" val peopleDF = spark. sparkContext. textFile(path, 4). map(_.split(",")). map(attr => Person(attr(0), attr(1).trim.toInt)). toDF peopleDF

浏览 3提问于2017-06-06得票数 2

回答已采纳

3回答

取消持久化(py)spark中的所有数据帧

、、、、

我是一个spark应用程序，有几个点我想要持久化当前状态。这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例，该示例演示了此行为。 cache_test.py： from pyspark import SparkContext, HiveContext spark_context = SparkContext(appName=&#

浏览 9提问于2016-04-28得票数 39

回答已采纳

2回答

Pyspark将多个csv文件读取到一个数据帧中(或RDD?)

、、、、

我有一个Spark 2.0.2集群，我正在通过Pyspark通过Jupyter Notebook访问它。我有多个以管道分隔的txt文件(加载到HDFS中。我需要使用spark-csv将其加载到三个独立的数据帧中，具体取决于文件的名称。我认为我可以采取三种方法--或者我可以使用python以某种方式遍历HDFS目录(还没有想出如何做到这一点，加载每个文件，然后执行联合。我还知道在spark中有一些通配符功能(参见) -我可能可以利用最后，我可以使用pandas从磁盘加载vanilla csv文件作为pandas数据帧，然后创建spark数据帧。这里的缺点是这些文件很大，加载到单个节点上的内

浏览 0提问于2016-12-14得票数 7

回答已采纳

1回答

将字典从spark数据帧中的StringType列中分离出来

、、

我有一个spark表，我想在python中读取(我在databricks中使用的是python3)，实际上结构如下。日志数据存储在单个字符串列中，但它是一个字典。我如何拆分字典中的条目来阅读它们。 dfstates = spark.createDataFrame([[{"EVENT_ID":"123829:0","EVENT_TS":"2020-06-22T10:16:01.000+0000","RECORD_INDEX":0}, {"

浏览 39提问于2020-07-01得票数 1

回答已采纳

6回答

如何在spark中将rdd对象转换为dataframe

、、、

如何将RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row])转换为数据帧org.apache.spark.sql.DataFrame。我使用.rdd将数据帧转换为rdd。在处理之后，我想把它放回数据帧中。我该怎么做呢？

浏览 56提问于2015-04-01得票数 150

回答已采纳

1回答

如何从一个位置读取表并将数据写入其他集群的表

、

我从设置hive.metastore.uris的metastore启动spark应用程序中读取表统计数据。但是，我需要将数据写入另一个配置单元。我已经尝试清理活动会话和默认会话，使用新的metastore uri构建另一个会话，但spark继续尝试写入第一个hive的表。 val spark = SparkSession.builder() .appName(appName) .enableHiveSupport() .config("hive.metastore.uris", FIRST_METASTORE)

浏览 9提问于2019-04-11得票数 0

2回答

跨分区的spark中的Reduce函数

、、

我已经用python编写了一个使用spark的示例函数。函数如下所示 #!/usr/bin/env python from __future__ import print_function from pyspark.sql import SparkSession import os import sys os.environ["SPARK_HOME"] = "/usr/local/spark" os.environ["PYSPARK_PYTHON"]="/usr/bin/python3.4" spark = SparkSessi

浏览 7提问于2017-07-20得票数 1

回答已采纳

5回答

如何在pyspark中获取dataframe列的名称？

、

在熊猫中，这可以通过column.name来完成。但是，当它的spark数据帧列时如何做同样的事情呢？例如，调用程序有一个spark数据帧: spark_df >>> spark_df.columns ['admit', 'gre', 'gpa', 'rank'] 此程序调用我的函数: my_function(spark_df 'rank‘)在my_function中，我需要列的名称，即’rank‘ 如果是pandas数据帧，我们可以在my_function内部使用 >>> pand

浏览 1提问于2016-09-28得票数 55

1回答

在spark中拆分、操作和合并数据帧

、、

假设我有一个包含以下列的dataframe。然后我需要重新组合结果。帐户、渠道、number_of_views groupBy只允许简单的聚集操作。在每个拆分的数据帧上，我需要进行特征提取。目前，spark-mllib的所有功能转换器都只支持单个数据帧。

浏览 2提问于2017-05-03得票数 2

1回答

分组依据列表中的元素

、、

浏览 4提问于2019-10-09得票数 0

1回答

在sparklyr中断开连接后，spark数据帧会自动删除吗？如果没有，我们该怎么做呢？

、、、、

在关闭连接时，以以下方式复制到spark的数据帧会发生什么情况？ library(sparklyr) library(dplyr) sc <- spark_connect(master = "local") iris_tbl <- copy_to(sc, iris) spark_disconnect(sc) 如果它们不是自动删除的，除了通过下面的方法删除每个数据帧之外，有什么简单的方法可以删除在会话期间创建的所有数据帧吗？ sc %>% spark_session() %>% invoke("catalog") %>% invoke

浏览 5提问于2018-08-24得票数 0

回答已采纳

2回答

在R和Sparklyr中，向.CSV (spark_write_csv)写入表会产生许多文件，而不是一个文件。为什么？我能改变吗？

、、、、

背景我正在做一些数据操作(联接等)在R中的一个非常大的数据集上，所以我决定使用Apache和sparklyr的本地安装，以便能够使用我的dplyr代码来操作它。(我正在运行Windows10Pro；R是64位的。)我已经完成了所需的工作，现在希望将sparklyr表输出到.csv文件中。问题下面是用于将.csv文件输出到硬盘驱动器上的文件夹的代码： spark_write_csv(d1, "C:/d1.csv") 但是，当我导航到有问题的目录时，我没有看到一个csv文件d1.csv。相反，我看到一个名为d1的新创建的文件夹，当我单击其中的文件夹时，我看到~10个.csv文

浏览 0提问于2021-08-10得票数 1

回答已采纳

1回答

以第三行为标题读取pyspark中的excel文件

、、

我想读取excel文件作为spark数据帧，第3行作为header.The synatax，读取excel文件作为spark数据帧，第1行作为标题是： s_df = spark.read.format("com.crealytics.spark.excel") \ .option("header", "true") \ .option("inferSchema", "true") \

浏览 86提问于2021-04-07得票数 2

回答已采纳

1回答

如何最好地处理将大型本地数据帧转换为SparkR数据帧？

、

如何有效地将大型本地数据帧转换为SparkR数据帧？在我的本地开发机器上，当我尝试将~ 650MB的本地数据帧转换为SparkR数据帧时，它很快就会超出可用的内存，而我的开发机器上有40 of的Ram。 library(reshape2) years <- sample(1:10, 100, replace = T) storms <- sample(1:10, 100, replace = T) wind_speeds <- matrix(ncol = 316387, nrow = 100, data = sample(0:25

浏览 0提问于2016-09-08得票数 3

1回答

从多个文件读取Spark数据帧

、、

假设您有两个s3存储桶，您想要从中读取spark数据帧。对于在spark数据帧中读取的一个文件，将如下所示： file_1 = ("s3://loc1/") df = spark.read.option("MergeSchema","True").load(file_1) 如果我们有两个文件： file_1 = ("s3://loc1/") file_2 = ("s3://loc2/") 我们如何读取spark数据帧？有没有办法合并这两个文件位置？

浏览 9提问于2021-10-18得票数 0

回答已采纳

1回答

在数据帧上使用聚合操作比使用spark.sql()直接实现SQL聚合有好处吗？

、

我在spark工作了6个多月。我见过来自数据仓库和SQL背景的人正在使用SQL实现聚合和其他转换逻辑 spark.sql() (where spark is the sparkSession object) 直接通过配置单元表或在将数据帧注册为TempView之后使用 dataframe.createOrReplaceTempView(). 但是，如果我们看到，我们还有其他选择，比如windows函数或其他选项，它们可以直接在dataframes.Or上实现，甚至我们可以将函数注册为UDF，并可以在dataframe上实现。假设我需要在数据帧CITY_CENSUS上实现按城市分组的人口

浏览 1提问于2019-05-05得票数 0

1回答

使用Hive表迭代Spark数据帧

、、、、

我有一个非常大的csv文件，所以我使用spark并将其加载到spark数据帧中。我需要从csv上的每一行提取纬度和经度，以便创建folium地图。使用pandas，我可以用一个循环解决我的问题： for index, row in locations.iterrows(): folium.CircleMarker(location=(row["Pickup_latitude"], row["Pickup_longitude"]), radiu

浏览 27提问于2018-05-30得票数 0

1回答

如何从PySpark中一个DataFrames的每一行生成大量的DataFrame集合，然后将其缩减？

、、、

不幸的是，我不能分享我的实际代码或数据，因为它是专有的，但如果问题对读者来说不是很清楚，我可以生成一个MWE。我正在处理一个包含大约5000万行的数据帧，每行都包含一个大型XML文档。从每个XML文档中，我提取了一个与出现次数和标记之间的层次关系相关的统计数据列表(没有什么比无文档记录的XML格式更让人愉快的了)。我可以在数据帧中表达这些统计信息，并且可以使用GROUP BY/SUM和DISTINCT等标准操作在多个文档中组合这些数据帧。目标是提取所有5000万个文档的统计数据，并在单个数据帧中表示它们。问题是，我不知道如何有效地从Spark中的一个数据帧的每一行生成5000万个数据帧，

浏览 21提问于2021-10-26得票数 0

1回答

这是在pyspark上做乘法的正确方法吗？

、、、

火花源新手。下面是我的代码： def sparkApp(): spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config("spark.sql.catalogImplementation", "hive") \ .config("spark.executor.memory", "4g") \ .config("

浏览 1提问于2018-03-03得票数 0

2回答

用于计算Spark中频率(值的等级)的UDF

、、、

我想要计算数据帧Spark中列值的频率，即计算出现频率最高的values.How的等级。我们在Spark中为此定义数据帧UDF了吗？

浏览 7提问于2017-07-31得票数 0

1回答

合并时spark sql数据大于节点内存(1)

、、

我正在开发spark 1.6.1 我有一个分布式的数据帧，而且肯定比我的集群中的任何节点都大。如果我把所有的东西都放在一个节点里，会发生什么？ df.coalesce(1) 作业会失败吗？谢谢

浏览 14提问于2019-04-24得票数 1

1回答

将一个数据帧拆分为多个数据帧，并对这些数据帧并行执行过程

、、

我有一个数据框dfA。其中包含超过一百万条记录。我想根据'GROUP_ID‘将数据帧拆分成多个数据帧，然后对这些数据帧执行一些操作。此循环将基于唯一的组id创建数据帧。问题是，这段代码需要3天的时间才能运行，所以我想知道如何使用多进程并行来实现这一点。请指教 for group in dfA['GROUP_ID']: dftest = dfA.loc[dfA['GROUP_ID'] == group]

浏览 1提问于2018-01-31得票数 0

3回答

Spark异常“无法广播大于8 8GB的表”，'spark.sql.autoBroadcastJoinThreshold'：'-1‘不工作

、、、、

在我们的一个Pyspark作业中，我们有一个场景，我们在一个大的数据帧和相对较小的数据帧之间进行连接，我相信spark正在使用广播连接，我们遇到了以下错误 org.apache.spark.SparkException: Cannot broadcast the table that is larger than 8GB: 8 GB at org.apache.spark.sql.execution.exchange.BroadcastExchangeExec$$anonfun$relationFuture$1$$anonfun$apply$1.apply(BroadcastExch

浏览 752提问于2020-04-22得票数 0

1回答

将数据帧写入现有csv文件scala

、、、

浏览 20提问于2021-02-25得票数 0

2回答

PySpark:在连接两个spark数据帧时，如何将一列分组为一个列表？

、、

我想在名字上加入以下spark数据帧： df1 = spark.createDataFrame([("Mark", 68), ("John", 59), ("Mary", 49)], ['Name', 'Weight']) df2 = spark.createDataFrame([(31, "Mark"), (32, "Mark"), (41, "John"), (42, "John"), (43, "John")],[ 'A

浏览 0提问于2016-10-15得票数 1