来自两个不同表Pyspark的数据帧中的CountDistinct_如何使用pyspark合并来自两个不同数据帧的数据？_Pyspark:匹配来自两个不同数据帧的列并添加价值 - 腾讯云开发者社区

python、dataframe、pyspark、count

我对pyspark上的CountDistinct有点问题。我有两个连接表，我想要显示这两个不同表的不同键值的数量。(ppp.select(["T1_"+c for c in impacted_columns.key1.split("-")])) pluc=F.countDistinct(plu.select(["T2_"

浏览 56提问于2021-10-07得票数 0

回答已采纳

1回答

Apache Spark中的agg(计数)不工作

apache-spark、pyspark

尝试使用聚合在Apache Spark (PySpark)中聚合我的数据帧。5| 3||Mark| 5| 5||Mark| 8| 7|我有以下代码，它为我提供了一行记录的不同计数：我尝试添加一个正常计数作

浏览 5提问于2017-02-10得票数 4

2回答

在PySpark中计算groupby后的sum和countDistinct

python、pyspark、group-by、aggregate-functions、distinct

我有一个PySpark数据框架，我想按几列分组，然后计算一些列的总和，并计算另一列的不同值。因为countDistinct不是一个内置的聚合函数，所以我不能使用我在这里尝试过的简单表达式： sum_cols = ['a', 'b']exprs1 = {x: "sum" for x in sum_cols} exprs2 = {x:

浏览 126提问于2021-09-16得票数 2

回答已采纳

1回答

与Pandas结果相比，dataframe中唯一值的Pyspark数量不同

pandas、dataframe、pyspark、unique、pyspark-dataframes

我有400万行的大型数据帧。其中一列是名为"name“的变量。当我通过：df['name].nunique()检查Pandas中唯一值的数量时，我得到了一个与Pyspark df.select("name").distinct().show()不同的答案(在Pandas中大约为1800，在Pyspark中为350 )。这是一个数据分区

浏览 0提问于2020-05-24得票数 0

1回答

使用PySpark统计每个窗口的用户数

json、apache-spark、pyspark、apache-kafka、spark-streaming

其中一个关键字是用户的email。下面是我的PySpark代码： from pyspark import SparkCont

浏览 2提问于2018-11-21得票数 0

1回答

空值与火花数据的countDistinct

apache-spark、pyspark、pyspark-sql

我有一个非常简单的数据 +----+---+---+ | 2| 1| 3| +----+---+---+ 当我在这个数据文件上应用一个countDistinct时，我会根据不

浏览 2提问于2016-10-31得票数 11

回答已采纳

1回答

spark中的数据类型转换

python-3.x、pyspark、apache-spark-sql、pyspark-dataframes

我有一个列id，它的类型是int，但后来更改为bigint。它具有这两种类型的值。from pyspark.sql.functions import *res1=df.select("id1", "code&quo

浏览 107提问于2021-01-11得票数 0

1回答

如何合并或连接spark中列号不相等的数据帧

python、apache-spark、pyspark、apache-spark-sql、spark-dataframe

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列<

浏览 13提问于2016-09-22得票数 0

1回答

使用map函数应用于列列表

python、apache-spark、pyspark、apache-spark-sql

我有下面的列表，其中包含来自dataframe df的一些列名我想在这些列中计算不同的值。我看到下面的代码，但它似乎不起作用。from pyspark.sql.functions import * def countDistinctCats(colName): count = df.agg(countDistinct(colNa

浏览 2提问于2020-08-13得票数 0

3回答

如何在pyspark中检测空列

apache-spark、pyspark、apache-spark-sql、spark-dataframe、pyspark-sql

我有一个定义了一些空值的数据帧。某些列是完全空值。D||1.0|4.0|7.0|null||3.0|6.0|5.0|null|在我的例子中，我想返回一个列名的列表，这些列名中填充了null值。我的想法是检测常量列(因为整个列包含相同的空值)。我是这样做的： nullCoulumns = [c for

浏览 1提问于2017-11-23得票数 2

回答已采纳

1回答

从在azure云上运行的databricks向外部配置单元群集写入pyspark

pyspark、hive、azure-databricks、pyhive

我有在databricks中运行的pyspark笔记本。我使用pyhive中的'hive.Connection‘连接到外部配置单元群集。我的数据存储在spark数据帧中。我的问题是，如何将来自dataframes的数据写入Hive中的新表，该表位于databrick

浏览 11提问于2020-09-26得票数 0

3回答

PySpark -查找具有多个不同值的DataFrame列的有效方法

python、apache-spark、dataframe、pyspark

我需要一种有效的方法来列出和删除Spark中的一元列(我使用PySpark DataFrame )。我将一元列定义为最多具有一个不同值的列，并且出于定义的目的，我也将null算作一个值。这意味着在某些行中有一个不同的non-null值而在其他行中有null的列不是一元列。，这是很快的，因为方法摘要同时操作整个数据帧(我的初始DataFrame中大

浏览 40提问于2019-04-12得票数 0

2回答

用带countDistinct函数的字典聚合火花放电

sql、dataframe、pyspark、group-by

然后，我要计算每一列的不同值。我生成一个用于聚合的字典，其内容如下：df.groupBy("id")

浏览 7提问于2021-07-07得票数 2

回答已采纳

1回答

使用pyspark比较两个大型数据帧

python-3.x、apache-spark、pyspark、spark-dataframe、rdd

我目前正在做一项数据迁移任务，试图使用pyspark比较来自两个不同数据库的两个数据帧，找出两个数据帧之间的差异，并将结果记录在csv文件中，作为数据验证的一部分。我正在尝试一个性能高效的解决方案，因为有两个原因。大型数据帧</em

浏览 11提问于2018-01-31得票数 1

回答已采纳

1回答

将多个PySpark* DataFrames与MergeSchema合并*

python、pyspark、pyspark-dataframes

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并

浏览 2提问于2020-06-22得票数 0

1回答

不带groupby的计数和非重复计数使用PySpark

python、pyspark、pyspark-sql

我有一个数据帧(testdf)，希望在另一列(booking/rental)不为null或非空(即“”)的列(memid)上获得计数和非重复计数。= ""mydf.filter("booking!=''").groupBy('booking').agg(count("patid"), countDistinct("patid")) 但我

浏览 44提问于2018-06-05得票数 0

5回答

如何计算火花放电中groupBy后的唯一ID

python、pyspark、apache-spark-sql

我每年都会使用下面的代码来提高学生的年龄。目的是了解每年的学生总数。from pyspark.sql.functions import colgr = Df2.groupby(['Year'])gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year')) 我发现这么多ID被重复的</em

浏览 2提问于2017-09-26得票数 62

回答已采纳

2回答

在pyspark中混淆内连接

pyspark、pyspark-sql

我在pyspark shell中使用内部连接，如下所示：由于我对内部连接使用相同的表，因此tab_df.count()应该与ori_df.count()相等，但tab_df.count()给我的值是0！

浏览 4提问于2017-01-25得票数 0

1回答

PySpark:计数对出现频率

pyspark

假设我有一个数据集，如下所示： 1: a, b, c3: c, d, e 我想写一个Pyspark代码来计算每个对的出现次数，比如(a,b), (a,c), (b,c)等。到目前为止，我已经编写了从文本文件中读取数据的代码，如下所示- sc = SparkContext("local", "bp")data = sc.textFile

浏览 72提问于2021-11-17得票数 0

1回答

基于一列将pyspark.sql dataFrame拆分为多个表

python、dataframe、pyspark、pyspark-sql

John 2 415 54 John 3 33 10 John 4 82 82 是否可以根据名称列(作为索引)将表拆分为两个表，并将这两个表嵌套在同一个对象下(不确定要使用的确切术语)。因此，在上面的示例中，表将是：name day earnings revenue Oliver 1 100 44 Oliver 2 200 69

浏览 0提问于2018-10-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云