Dataframe join返回pyspark的空结果_处理pyspark dataframe中的空值_如何对返回的结果使用join？ - 腾讯云开发者社区

、、

我正在尝试连接两个Spark数据帧(一个的源是Postgres表，另一个是CosmosDB集合)，但是尽管验证了它们都有连接的键，但我没有看到这个键连接的表。123456 |Fizzbuzzer 2000 | +----------------+--------------------+ 如上所述，当使用id进行查询时，两个数据帧都返回一行但是当我试着加入他们的时候该操作看起来没有连接id为== '123456‘的表 _ 名称在下面保留为空<

浏览 24提问于2021-03-01得票数 -1

回答已采纳

1回答

与单独运行相比，具有多个聚合的吡火花旋转数据要长/冻结得多。

、、

假设这一步骤是必要的，它似乎无休止地运行在16节点4 cpu上，每个cpu的内存为30 16，cpu利用率为100% (4)。见我做错了什么？df_groupby.pivot(pivot_col, pivot_distinct_values).agg(a, b).count()print(toc-tic)df_groupby.pivot(pivot_col, pivot_distinct_values).agg(a).count

浏览 1提问于2021-01-28得票数 1

2回答

如何删除星火表列中的空白

、、、、

我想从特定列(Purch_location)中的所有值中删除空格。我使用的是spark表，而不是dataframe或SQL表(但如果需要，我可以使用dataframe或SQL表)。下面是我的星火表的生成方式：cols = dataset.columns+----------+----TORONTO | 4| 0| +----------+-------------+-

浏览 6提问于2017-12-03得票数 2

1回答

加入PySpark不加入任何值

、、、、

在PySpark中，我想用键值对对两个RDD进行完全的外部连接，其中键可以是None。= rdd1.join(rdd2)print(rdd1.join(rdd2).take(10))我有一个空的结

浏览 0提问于2016-03-02得票数 1

2回答

在Pyspark中将任意数量的列合并为Array类型的新列

、

我有一个pyspark dataframe，它包含N个包含整数的列。某些字段也可能为空。f为前缀的列组合成一个新列中的pyspark数组。我越接近这一点： features_filtered = features.select(F.concat(* features.columns[1:]).alias('combined')) 它返回null (我假设是由于初始dataframe中的null)

浏览 67提问于2020-06-18得票数 1

回答已采纳

1回答

PySpark和Pandas读取从S3中分离的csv文件跳过空文件

、、、、

使用PySpark，我有一些代码可以运行在一系列查询中。to_put_in.append(pandas.read_csv(csv)) passmy_big_dataframe = pandas.concat(to_concat) 问题是Pyspark编写了大量的空文件。所以我的代码花了很多时间试图读取一个空的</em

浏览 3提问于2018-02-07得票数 1

1回答

左反团员

、、、

我有一个dataframe，它有两个列a和b，其中b列中的值是a列中值的a子集。有没有人知道一个更好的火花成语来完成这个任务，比如anti_join**?** df = spark.createDataFrame(pandas.DataFrame(numpy.array(('b').alias('bs&#

浏览 2提问于2019-11-18得票数 0

2回答

如何创建空的考拉df

、

我正在尝试使用以下命令创建空的考拉DataFrame但是我得到了以下错误我也尝试了执行命令，但发现了类似的错误 df = ks.DataFrame(columns=['col1

浏览 3提问于2020-08-24得票数 0

1回答

如何将dataframe列转换为字典

、

首先，我要预先感谢大家的帮助！我有4张桌子，我加入了它们，得到了一个PySpark数据。：无论如何，我再次尝试使用"loads“方法：但我也犯了同样的错误：我尝试使用不同的选项来

浏览 4提问于2022-04-26得票数 0

1回答

具有数据帧查询的PySpark* UDF函数？*

、

我有另一种解决方案，但我更喜欢使用PySpark 2.3来实现它。我有一个二维PySpark数据框架，如下所示：---------- | ----09/31/2018 | 1009/01/2018 | null我希望通过查找过去最接近的值来替换ID空值，或者如果该值是空<

浏览 0提问于2019-02-02得票数 0

回答已采纳

2回答

在数据库环境中尝试合并或连接两个pyspark.sql.dataframe.DataFrame

、、、

两种类型都是: pyspark.sql.dataframe.DataFrame Error Message: TypeError: cannot concatenate object of type "<class 'pyspark.sql.dataframe.DataFrame'>";

浏览 8提问于2020-02-06得票数 0

回答已采纳

1回答

PySpark比较空地图文字

、、、

我想在PySpark DataFrame中删除行，其中某个列包含一个空映射。我该怎么做？我似乎不能声明一个类型化的空MapType来比较我的列。我已经看到，在Scala中，您可以使用typedLit，但是在PySpark中似乎没有类似的东西。我还尝试过使用lit(...)并将其转换为struct<string,int>，但我没有为lit()找到可接受的参数(尝试使用返回null的None和返回</

浏览 2提问于2019-09-29得票数 2

回答已采纳

1回答

pyspark.sql.functions -计数以考虑空值：

、

我试图让pyspark.sql.functions.count()函数或pyspark.sql.functions.count_distinct()函数在计算列中不同元素的数量时考虑null值。(4,"vikram",None,None)],\结果的从我的研究来看，这似乎与

浏览 12提问于2022-06-07得票数 0

2回答

PySpark.sql.filter没有按其应有的方式执行

、、、

我在执行以下代码时遇到了问题：from pyspark.sql import Row, HiveContext df1 = hc.createDataFrame(rows1)df3 = df1.join(df2, df1.id2 == df2.id1, &

浏览 0提问于2018-04-24得票数 7

回答已采纳

2回答

如何从另一个火花放电数据中使用isin进行过滤

、、

df1有很多数据，我想过滤那些在df2中有id的数据。以下是我所做的这是错误信息， 1216 1217 args_command = "

浏览 8提问于2022-07-20得票数 0

回答已采纳

1回答

并行运行任务- pyspark

、、、

我有一个pyspark dataframe，并使用相同的dataframe来创建新的dataframe，并在最后连接它们。例如：df3 = function3(source_<

浏览 16提问于2020-05-27得票数 0

回答已采纳

2回答

基于条件的火花放电连接

、、

bbb| 23| 12| red|| 14| 32|L22| 32|L22|blue|但上述结果是通过提取条件(如join_condition = (when(B.type == 'red', A.id == B.id2) ... )得到的。(reds, A.id1 == B.id2, 'left') a_blues = A.join(blues, (A.id2 == B.

浏览 1提问于2022-06-22得票数 0

1回答

在Dataproc上获取Pyspark* join失败*

、、、

我试图在Dataproc集群上运行一些python pyspark脚本，但失败了，错误如下：if isinstance(on[0], basestring): IndexError: list index out o

浏览 0提问于2018-01-05得票数 0

1回答

用户定义函数返回序列

、、

该函数将列名与列值连接起来，然后以行方式连接生成的字符串。例如： d2 = dataframe.astype(s

浏览 3提问于2021-07-21得票数 2

回答已采纳

2回答

Dataframe空检查pyspark

我正在尝试使用下面的代码检查Pyspark中的dataframe是否为空。我检查了我的对象是否真的是使用类型(Df)的dd，以及它是否是类'pyspark.sql.dataframe.Dataframe‘

浏览 207提问于2021-09-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云