在PySpark中高效地合并两个或多个数据帧/数据描述_Pandas:高效地合并多个数据帧_在pyspark中高效地添加大量数据帧 - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我正在尝试基于相同的键合并三个RDD。以下是数据。和另外两个作为列表。我希望有一种更好的方法来使用pyspark来做这件事。这是我写的代码。Revenue"] = y["Total"] potato = new_rdd.map(lambda row: transform(row)) #first rdd 我应该如何有效地合并这三个寻找更好的高效点子。另外，我还是个火花新手。我的代码的结果如下所示，这就是我所需

浏览 59提问于2021-02-09得票数 1

1回答

如何合并或连接spark中列号不相等的数据帧

python、apache-spark、pyspark、apache-spark-sql、spark-dataframe

在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列的数据</

浏览 13提问于2016-09-22得票数 0

1回答

将多个PySpark* DataFrames与MergeSchema合并*

python、pyspark、pyspark-dataframes

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

2回答

如何反转pyspark* dataframe*

python-2.7、pyspark

我需要反转我的pyspark数据帧。有没有一种高效的方式在pyspark中做到这一点？？28.02||2018-11-30 23:58:24| 28.03| +-------------------+-------+ 有没有办法在pyspark中反转数据帧？

浏览 33提问于2019-10-18得票数 0

回答已采纳

2回答

Pandas:高效地合并多个数据帧

pandas、dataframe、merge

我有一种情况，我需要合并多个数据帧，我可以使用以下代码轻松完成： # Merge all the datasets togetherdf_prep6 = df_prep5.merge(df_6,on='e_id',how='left') 但我想了解的是，如果有任何其他有效的方法来执行这种合并

浏览 20提问于2021-07-14得票数 0

3回答

大型data.frames R合并的有效方案

r、merge、dataframe、plyr、data.table

我正在寻找一种高效的(计算机资源方面和学习/实现方面)方法来合并两个更大的(size>1百万/ 300 KB RData文件)数据帧。基本R中的"merge“和plyr中的"join”似乎耗尽了我所有的内存，有效地破坏了我的系统。示例并尝试或 test.merged<-join(test, test, ty

浏览 10提问于2012-06-21得票数 29

回答已采纳

1回答

是否可以在Pandas中构建自己的多变量数据集？

python、pandas、time-series、forecasting、multi-step

我想根据天气数据来预测难民抵达欧洲的情况。到达数据来自不同的来源，天气数据也是如此。有没有办法将这两者结合起来，以便有一个用于多变量时间序列预测的数据集?1个时间序列:每月到达数据2个时间序列:天气数据有没有可能用天气数据和到达数据制作一个数据帧，用于多变量时间序列预测？

浏览 6提问于2021-07-05得票数 0

1回答

如何在AWS胶水作业中将多个源映射到单个目标

amazon-web-services、aws-glue、aws-dms

我有一个MySQL数据库和一个包含200个表的Mongo数据库，我正在尝试将它连接到Glue并合并一些表，最终得到合并数据的20个表，以及一些过滤器和脚本，在数据到达需要的地方之前过滤掉其中的一些数据。我正在使用AWS Glue来做这件事，在使用爬虫生成1-1个表之后，我想开始将这些表合并在一起，但当我创建作业时，我只能选择一个表作为源，这意味着我最终会有200个作业。有没有一种方法可以让作业指向多个源，并将这些源映

浏览 6提问于2018-08-17得票数 1

回答已采纳

1回答

Pyspark - Loop and for in Range -仅获取最后一个值

python、loops、apache-spark、pyspark、range

我想两个两个地合并数据帧的两列，所以我使用了"for in range“函数。但是，在显示时，我只是显示最后的结果。from pyspark.sql.functions import concat_ws, col df = spark.read.load('abfss://......')

浏览 21提问于2021-03-10得票数 0

回答已采纳

3回答

从csv文件向现有apache spark数据帧添加数据

python、apache-spark、pyspark、spark-dataframe

我有一个spark dataframe，它有两列: name，age，如下：数据帧是使用以下命令创建的sqlContext.createDataFrame() 两个数据源中<

浏览 9提问于2016-09-16得票数 0

回答已采纳

1回答

如何在pyspark中实现多个array_union和array_intersection

apache-spark、pyspark、pyspark-sql、pyspark-dataframes

假设我有一个pyspark数据帧，其中包含以下列:数组类型的c1、c2、c3、c4和c5。现在我要做的是：(c1)交集(c2 union c3)交集(c2 union c4 union c5) 我可以在一个循环中的两个列上使用array_union，并在withColumn的帮助下不断添加一列如何在PySpark中高效地完成此操作？有没有更聪明的方法来做这件事？

浏览 21提问于2019-10-31得票数 0

1回答

合并R中的两个数据帧

我想合并两个行数大致相同的数据帧。但合并需要以一种特殊的方式进行。A1 B <- data.frame(col1 = paste("B", 1:6, sep = &quo

浏览 0提问于2014-03-26得票数 0

3回答

通过范围内的成员资格将一个数据框连接到另一个数据框

我有两个数据框，如下所示：1 0.000 2 0.003实际上，每个数据帧中有更多的列，第一个数据帧中有更多的时间，它们没有规则的间隔；第二个数据帧中没有太多的行。我希望合并这两个数据帧，以便第一个数据<

浏览 0提问于2012-05-07得票数 4

回答已采纳

1回答

将python列表中的数据合并到一个dataframe中

python、pandas

我在AAMC_K.txt、AAU.txt、ACU.txt、ACY.txt中的一个名为AMEX的文件夹中有以下文件。我正在尝试将这些文本文件合并到一个数据帧中。我曾尝试使用pd.merge()来执行此操作，但得到一个错误，即merge函数需要一个向右和向左的参数，并且我的数据在python列表中。如何将data_list中的数据合并为一个pandas数据帧<

浏览 52提问于2019-03-02得票数 0

1回答

在pyspark上运行python库的速度会加快吗？

apache-spark、dataframe、pyspark

当我运行python库如pandas或scikit learn时，我试着通读并理解spark中的加速是从哪里来的，但我没有看到任何特别有用的东西。如果我可以在不使用pyspark数据帧的情况下获得相同的加速比，我可以只使用pandas部署代码，它的性能大致相同吗？我想我的问题是：如果我有可用的pandas代码，为了提高效率，我应该把它翻译成PySpark吗？

浏览 2提问于2018-06-22得票数 0

1回答

在PySpark中合并(包括左侧和右侧)

pandas、dataframe、pyspark、merge

在PySpark中，用来合并两个不同数据帧(包括左侧和右侧)的等效代码是什么？

浏览 19提问于2021-11-21得票数 0

回答已采纳

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

python、apache-spark、memory、pyspark、bigdata

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。我有16 of的RAM，当我访问前几百个文件时，我一直在耗尽RAM。这些文件的总大小只有300-400MB的数据。所以现在我改用PySpark，但是我不知道连接所有文件的最有效的方法是什么，对于pandas数据帧，我会像这样连接单个

浏览 14提问于2020-02-17得票数 2

回答已采纳

1回答

使用pyspark比较两个大型数据帧

python-3.x、apache-spark、pyspark、spark-dataframe、rdd

我目前正在做一项数据迁移任务，试图使用pyspark比较来自两个不同数据库的两个数据帧，找出两个数据帧之间的差异，并将结果记录在csv文件中，作为数据验证的一部分。我正在尝试一个性能高效的解决方案，因为有两个原因。大型数据帧和表键是未知的 #Approach 1 - Not sure about the per

浏览 11提问于2018-01-31得票数 1

回答已采纳

1回答

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

pyspark、apache-spark-sql、spark-streaming、pyspark-sql

我尝试运行upsert/delete命令来插入/删除DB2数据库源表中的一些值，这是DB2上的一个现有表。是否可以使用Pyspark/Spark SQL/Dataframes。

浏览 2提问于2019-05-10得票数 0

2回答

如何将Python列表添加到Spark DataFrame？

python、apache-spark、pyspark

我有一个10000*1的Python列表，我想把它添加到一个Spark DataFrame中，这样DataFrame就有10000行了。我该怎么做？

浏览 6提问于2017-03-01得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云