PySpark -如何使用join更新数据帧？_Pyspark -在循环内更新数据帧_如何使用Pyspark缓存增强的数据帧 - 腾讯云开发者社区

、、

我有一个数据帧a： id,value2,221,1231,1233,345 如何使用datafame joins (或其他方法)实现这一点？已尝试： a.join(b, a.id == b

浏览 7提问于2019-10-14得票数 1

1回答

在Databricks中使用Pyspark更新数据库表

、、、

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数据帧中，然后将新文件合并到

浏览 2提问于2020-04-20得票数 0

3回答

对子字符串匹配(或包含)加入PySpark数据帧

我想在两个数据帧之间执行左连接，但是列并不完全匹配。第一个数据帧中的联接列相对于第二个数据帧有一个额外的后缀。from pyspark import SparkContext ['AB-101', 3], ['A

浏览 1提问于2017-08-08得票数 3

回答已采纳

2回答

按创建日期获取不同的行

、、

我正在使用这样的数据帧： DeviceNumber | CreationDate | Name1002 | 1.1.2019 | Lamp 我使用databricks和pyspark来完成ETL过程。我如何减少数据帧，

浏览 14提问于2019-05-16得票数 0

回答已采纳

2回答

比较两种不同的pyspark数据帧

、、

我目前正在使用一个需要使用pyspark的API环境。这样，我需要在两个数据帧之间执行每日比较，以确定记录是新的、更新的和删除的。以下是两个数据帧的示例： today = spark.createDataFrame([ [2, "Banana", 4000, "A"],Tangerine", 3000, &

浏览 24提问于2021-08-27得票数 0

1回答

如何使用pyspark合并来自两个不同数据帧的数据？

、、、、

我有两个不同的(非常大的)数据帧(详细信息如下)。我需要合并他们两个人的数据。由于这些数据帧非常庞大(第一个数据帧有数百万行，第二个数据帧有数千行)，我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成的，我看到的教程大多只显示了一个数据帧的说明。所以，我一直想知道如何使用pyspark来处理两个不同的

浏览 11提问于2021-06-03得票数 0

回答已采纳

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

、、、

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user/output”中写入数据帧"dfFinal“.But它在

浏览 0提问于2018-10-03得票数 6

1回答

Spark SQL更新/删除

、、、、

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的工作来在我的数据帧

浏览 7提问于2019-11-15得票数 1

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

、、、、

我之前发布了这个问题，并得到了一些使用PySpark的建议。 bigframe = pd.concat(listofframes使用PySpark

浏览 14提问于2020-02-17得票数 2

回答已采纳

1回答

Pyspark:如何填充另一行中的缺失值

、

按id分组后，如何替换pyspark中的null值？

浏览 5提问于2017-08-04得票数 0

回答已采纳

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

2回答

使用python将两个spark数据帧合并到一个模式中

、、、

我有两个不同的pyspark数据帧，需要合并成一个。有一些逻辑需要为合并编码。其中一个数据帧具有以下模式：(id，类型，计数)，另一个具有模式：(id，timestamp，test1，test2，test3) 第一个数据帧是通过sql "group by“查询创建的。从第一模式中检索计数数据。我有一个空的模式，并且我使用字典来更新模式。如果我这样做，我并没有真正使用spark特性。, te

浏览 46提问于2020-01-29得票数 0

回答已采纳

2回答

在pyspark中混淆内连接

、

我在pyspark shell中使用内部连接，如下所示：由于我对内部连接使用相同的表，因此tab_df.count

浏览 4提问于2017-01-25得票数 0

3回答

如何解决"SparkException:在Future.get中抛出异常“问题？

、、、

我正在处理两个pyspark数据帧，并对它们进行左反联接，以跟踪日常更改，然后发送电子邮件。我第一次尝试： Table_b, how='left_anti'预期输出是包含一些数据或不包含任何数据的pyspark数据帧。这个

浏览 0提问于2019-06-22得票数 3

1回答

如何在Spark SQL中优化非equi-join？

、、

我有两个数据帧，我需要使用具有两个连接谓词的非相等连接(即不等式连接)将它们连接在一起。一个数据帧是直方图DataFrame[bin: bigint, lower_bound: double, upper_bound: double] )基本上，它是非常慢的，我正在寻找一些

浏览 1提问于2018-10-02得票数 1

1回答

Pyspark通过列表理解从datetime获取时间属性

、、、

我有一个pyspark dataframe df：| timestamplast||2019-08-||2019-08-03 00:00:27|我想通过列表理解将列‘年’、‘月’、‘日’、‘小时’添加到现有的数据帧中month', 'day', 'hour'] date_gen = (getattr

浏览 4提问于2020-05-27得票数 0

回答已采纳

1回答

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

、、、

我尝试运行upsert/delete命令来插入/删除DB2数据库源表中的一些值，这是DB2上的一个现有表。是否可以使用Pyspark/Spark SQL/Dataframes。

浏览 2提问于2019-05-10得票数 0

1回答

在pyspark中连接同名的Dataframe

、、、、

我有两个数据帧，它们是从两个csv文件中读取的。pyspark代码dfFinal = dfFinal.join(df2, on=['NUMBER'], how='inner')连接这两个使用NUMBER coumn的数据，生成的新数据帧如下。30| 4| 70|但我无法

浏览 1提问于2018-10-03得票数 1

1回答

在执行pyspark dataframe自连接时，我收到一条错误消息： Py4JJavaError: An error occurred while calling o1595.join. : org.apache.spark.sql.AnalysisExceptionPlease check if the right attribute(s) are used.;; 这是一个简单的数据帧自连接，如下所示，运行良好，但在对数据帧执行了几个操作后，如添加列或与其他数据<e

浏览 152提问于2019-07-03得票数 2

回答已采纳

2回答

如何比较PySpark中两个数据帧的计数？

、、

我使用的是PySpark，在这里我从数据帧中构建临时视图。作为其中的一部分，我想知道如何比较两个数据帧的计数，如果它们不匹配，就抛出一个错误。df1") df2.createOrReplaceTempView("df2") df_join= spark.

浏览 8提问于2020-08-21得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云