Spark DataFrame:忽略groupBy中in为空的列_多列的Apache Spark Dataframe Groupby agg()_Spark Dataframe列可为空的属性更改 - 腾讯云开发者社区

scala、apache-spark、aggregate

我有一个数据帧，其中有几个数值列是不固定的(它们在每次执行过程中都会发生变化)。假设我有一个带有数字列名称的Seq对象。我想对这些列中的每一列应用一个聚合函数。我尝试过以下几种方法： println(numeric_cols) // -> Seq[String] = List(avgTkts_P1, avgTkts_P2, avgTkts_P3, avgTkts_P4) var sum_ops = for (c <- numeric_cols) yield org.apache.spark.sql.functions.sum(c).as(c) var result = df.g

浏览 2提问于2018-09-04得票数 0

2回答

在空的dataframe中保留组后的列

python、pandas、dataframe、group-by、pandas-groupby

dataframe是query.when groupby之后的一个空df，引发运行时警告，然后获得另一个没有columns.How的空数据raise来保留列？ df = pd.DataFrame(columns=["PlatformCategory","Platform","ResClassName","Amount"]) print df 结果： Empty DataFrame Columns: [PlatformCategory, Platform, ResClassName, Amount] Index: [] 然后分组讨论

浏览 5提问于2017-09-07得票数 9

回答已采纳

4回答

Spark scala删除仅包含空值的列

scala、null、spark-dataframe

有没有一种方法可以删除spark dataFrame中只包含空值的列？(我使用的是scala和Spark 1.6.2) 目前我正在做这件事： var validCols: List[String] = List() for (col <- df_filtered.columns){ val count = df_filtered .select(col) .distinct .count println(col, count) if (count >= 2){ validCols ++= List(col) } } 构建至少包含两个不

浏览 6提问于2016-09-11得票数 7

2回答

Scala Spark -统计Dataframe列中特定字符串的出现次数

scala、apache-spark、dataframe、aggregate、window-functions

如何使用按id分区的Spark来计算df列中字符串的出现次数例如，在df的列"name"中查找值"test" 在SQL中是： SELECT SUM(CASE WHEN name = 'test' THEN 1 else 0 END) over window AS cnt_test FROM mytable WINDOW window AS (PARTITION BY id) 我试过使用map( v => match { case "test" -> 1.. }) 以及像这样的东西： def g

浏览 0提问于2017-10-29得票数 4

1回答

使用scala将一行添加到空的数据文件中

scala、apache-spark、dataframe、apache-spark-sql

我试图使用scala自动地将随机数据加载到一个空数据中。 import org.apache.spark.sql.DataFrame import org.apache.spark.sql.Row import org.apache.spark.rdd.RDD val df = spark.sql("select * from test.test") val emptyDF= spark.createDataFrame(spark.sparkContext.emptyRDD[Row], df.schema) 在这里，我尝试用测试表模式创建一个空的dataframe。在本例中，

浏览 0提问于2018-10-22得票数 2

回答已采纳

1回答

Microsoft Spark聚合方法

c#、.net、apache-spark

我正在使用Microsoft.Spark Spark API并将GroupBy应用于DataFrame对象。我想在分组后将Agg应用于多个列。在pyspark中，我会用下面这样的东西来表达我想要实现的目标 new_df = df.groupBy("customer_id") .agg( func.mean("a").alias("Mean"), func.stdev("a").alias("StDev") ) # ... 使用.NET应用程序接口，我已经设置了DataFrame

浏览 18提问于2021-10-01得票数 0

回答已采纳

1回答

如何在Scala Dataframe中显示分组数据

scala、dataframe、apache-spark、databricks

浏览 31提问于2019-09-19得票数 0

回答已采纳

1回答

创建空的dataframe Java Spark

java、dataframe、apache-spark

关于如何使用Spark Scala/Python创建空的dataframe/Dataset，有很多示例。但是我想知道如何在Java Spark中创建一个空的dataframe/Dataset。我必须创建一个空的dataframe，其中只有一列，标题为Column_1，类型为String。

浏览 27提问于2020-07-14得票数 0

回答已采纳

1回答

如何在SQL中使用枢轴(不是作为DataFrame分组操作符)？

sql、scala、apache-spark、apache-spark-sql

我有这个dataframe，我试图将这个dataframe操作转换成sql使用pivot函数。 val df = Seq( (1, "a,b,c"), (2, "b,c") ).toDF("id", "page_path") df.createOrReplaceTempView("df") df.show() df .withColumn("splitted", split($"page_path", ","))

浏览 0提问于2020-05-11得票数 4

回答已采纳

1回答

新的Dataframe列作为其他行的通用函数(spark)

python、apache-spark、pyspark、spark-dataframe

如何有效地在 DataFrame 中创建一个新列，该列是 spark 中其他行的函数这是我描述的问题的spark实现 from nltk.metrics.distance import edit_distance as edit_dist from pyspark.sql.functions import col, udf from pyspark.sql.types import IntegerType d = { 'id': [1, 2, 3, 4, 5, 6], 'word': ['cat', 'hat'

浏览 0提问于2018-01-09得票数 0

回答已采纳

2回答

星星之火:在星星之火上，agg函数和窗口函数之间有区别吗？

apache-spark、dataframe、aggregate-functions、window-functions

我想在spark (Spark2.1)中的一列上应用一个sum。我有两种方法： 1-具有窗口功能： val windowing = Window.partitionBy("id") dataframe .withColumn("sum", sum(col("column_1")) over windowing) 2-具有agg职能： dataframe .groupBy("id") .agg(sum(col("column_1")).alias("sum")) 就表演而言，最好的方法是什么？这两种方

浏览 1提问于2019-04-03得票数 4

回答已采纳

1回答

(py)Spark中分组数据的模式

python、apache-spark、pyspark、spark-dataframe

我有一个有多列的spark DataFrame。我想根据一列对行进行分组，然后为每组找到第二列的模式。与熊猫DataFrame一起工作时，我会这样做： rand_values = np.random.randint(max_value, size=num_values).reshape((num_values/2, 2)) rand_values = pd.DataFrame(rand_values, columns=['x', 'y']) rand_values['x'] = ra

浏览 1提问于2016-04-16得票数 10

回答已采纳

1回答

分组依据列表中的元素

python、pyspark、pyspark-sql

浏览 4提问于2019-10-09得票数 0

1回答

如何在PySpark中获得开始和结束日期？

python、apache-spark、pyspark、databricks、pyspark-dataframes

我下面有一个Spark (articleDF1)，我尝试使用dataframe列向Dataframe添加两列开始日期和结束日期，并按post_evar10对结果数据进行分组。最终数据将包含post_evar10、开始日期和结束日期。 -------+--------------------+ | Date| post_evar10| +----------+--------------------+ |2019-09-02|www:/espanol/recu...| |2019-09-02|www:/caregiving/h...| |2019-12-15|www:

浏览 1提问于2020-02-24得票数 0

回答已采纳

1回答

如何获得集群的最小和最大值

scala、apache-spark、k-means

我创建了一个scala程序，将k--方法应用于dataframe的特定列。Dataframe名称为df_items，列名为price。 import org.apache.spark._ import org.apache.spark.sql.types._ import org.apache.spark.ml.clustering._ import org.apache.spark.ml.feature.VectorAssembler val df_items = spark.read.format("csv").option("header","

浏览 1提问于2019-01-31得票数 0

回答已采纳

1回答

聚合空DataFrame时保留列

python、pandas、group-by

我在python 2.7.9的pandas 0.18.0中工作。获取一个示例DataFrame并按几列分组，然后对不同的列求和以得到结果，如下所示： >>> df = pandas.DataFrame([[1,2,3],[4,5,6],[1,2,9]], columns=['a','b','c']) >>> print df a b c 0 1 2 3 1 4 5 6 2 1 2 9 >>> df.groupby(['a','b']

浏览 10提问于2016-07-29得票数 4

1回答

在火花表中追加聚合状态从循环开始

pyspark

我有下面的电火花代码。在循环中的每一次迭代中，我过滤掉H列中带有特定字符串的所有行，然后计算G列上的一些聚合统计数据(结果为3个值)。我希望将所有的汇总计数保存在一个表中(行: CM、NCM、FP；列: POP、POP N、POP SN、POP QP)。 from pyspark.sql import SparkSession import pandas as pd import numpy as np import pyspark.sql.functions as F spark = SparkSession.builder.master("local").appName(

浏览 0提问于2018-10-28得票数 0

回答已采纳

1回答

数据过滤给NullPointerException

scala、apache-spark、dataframe、nullpointerexception、apache-spark-sql

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如： Description bartender bartender employee taxi-driver ... 我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[String]).repartition(4) 然后，对于每个职务描述，我尝试检索具有该职务的人员并做一些事情，但我得到了一个NullPointerException： jobs.foreach

浏览 2提问于2016-02-21得票数 5

回答已采纳

2回答

在spark Dataframe中应用groupBy后筛选的列的百分比

sql、scala、apache-spark、dataframe

Spark Dataframe包含一个包含2列的表:状态、类别。 Status has values----'y' and 'n' Category has values -'a', 'b' and 'c' 如何在spark (Scala)中找到每个类别中状态'y‘的百分比？我能做到这一点。 df.groupBy("category").agg(count("*")) df.filter(col("status")==="y").groupBy

浏览 4提问于2017-10-24得票数 1

1回答

Scala spark，显示不同的列值和计数出现次数

scala、apache-spark、apache-spark-sql

我正在尝试查看拼图文件，并希望显示列的不同值的数量以及它在其中找到的行数。 SQL的等价物是： select distinct(last_name), count(*) from optimization.opt_res group by (last_name) 在scala-spark中(分别显示它们)： val dataFrame = sparkSession.read.parquet(fname) dataFrame.show(truncate = false) val disID = dataFrame.select("last_name").distinct() d

浏览 26提问于2019-07-04得票数 0

回答已采纳

1回答

从任意长度csv列创建火花数据

scala、apache-spark

我正在尝试从我的dataframe中的单个csv格式化列创建一个新的dataframe。我之前不知道模式，所以我尝试使用没有模式参数的spark.createDataFrame方法(类似于中的方法1)。我正在尝试下面这样的代码，但会引发异常： var csvrdd = df.select(df("Body").cast("string")).rdd.map{x:Row => x.getAs[String](0)}.map(x => x.split(",").toSeq) var dfWithoutSchema = spark.cre

浏览 6提问于2017-05-08得票数 0

回答已采纳

4回答

如何使用collect作为key，col作为value，以map的形式收集spark数据帧

apache-spark

我正在寻找一种整洁的方法来找到每一列的最大值，并收集在地图中作为{col name:max value of col}。下面是我在一个玩具示例中所取得的进展。在我的完整数据中有数百列，所以手动转换每一列是不可行的。 scala> import spark.implicits._ import spark.implicits._ scala> import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions._ scala> scala> val df = Seq((1,3)

浏览 49提问于2020-06-12得票数 0

回答已采纳

1回答

使一个函数成为.agg()在groupBy语句中的组件，将生成一个AssertionError

python、pandas、apache-spark

请注意，只有在您已经通过运行以下命令安装spark时，您才可以在本地运行此命令。否则，在Databricks集群上复制该问题，该集群将自动初始化星体上下文。 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("test").getOrCreate() sc = spark.sparkContext dataframe spark_dataframe = pd.DataFrame( {'id' : [

浏览 3提问于2020-07-01得票数 1

回答已采纳

2回答

星星之火:在不改变列的可空属性的情况下抛出十进制

apache-spark、apache-spark-sql

在DecimalType中将列转换为DataFrame似乎会更改可空属性。具体来说，我有一个DecimalType(12, 4)类型的非空列，我使用df.withColumn(columnName, df.col(columnName).cast(dataType))将它转换为DecimalType(38, 9)。这将导致具有预期数据类型的字段，但该字段现在是可空的。有没有一种在不更改列的可空属性的情况下进行强制转换的方法？我在Spark2.2.1和Spark2.3.0中都观察到了这种行为。

浏览 1提问于2018-06-14得票数 5

回答已采纳

1回答

如何将火花数据映射转换为JSON映射？

apache-spark、apache-spark-sql

我目前有一个由两列组成的csv： "name","numbers" "abc","123" "abc","234" "def","123" 我试图将数据格式化为JSON映射： {"abc":["123","234"],"def":["123"]} 我创建了一个数据框架，然后使用_list/spark对名称和收集数字进行分组，但我无法获得字符串中的引号，我也不知道如何将其格式化为JSON映射

浏览 5提问于2022-09-13得票数 1

1回答

如何使用groupBy、collect_list、arrays_zip &一起爆炸来解决某些业务问题

apache-spark、pyspark

我对火种世界很陌生。要在colum df上加入两个df和df_sd，同时也应该使用来自df DataFrame的列Name。如果Name和days组合在df DataFrame中没有匹配值，那么它应该有null。请参阅下面的代码和期望的输出，以更好地理解。 import findspark findspark.init("/opt/spark") from pyspark.sql import SparkSession from pyspark.sql import Row from pyspark.sql import SQLContext from pyspark.

浏览 1提问于2020-04-14得票数 2

回答已采纳

1回答

Azure-databricks显示函数未显示绘图选项

databricks、azure-databricks

我有点困惑为什么Databricks notebook中的显示功能没有显示绘图选项。常用的绘图选项卡不会出现在末尾。列滚动条也不需要。我已经尝试过扩展窗口或缩小窗口。并且一次仅显示5行。Dataframe不为空。此外，使用df.head(10)或display(df)函数会产生一个无法查看的极小窗口。我通常通过Chrome inspect修改窗口并更改比例值来解决这个问题。我运行的是5.5 Conda Beta (包括Apache Spark 2.4.3，Scala 2.11)集群和最新版本的chrome。我已经检查过数据帧不是空的。我使用的是Chrome和Firefox的最新版本。

浏览 15提问于2019-09-21得票数 1

1回答

spark read在Scala UDF函数中不起作用

scala、apache-spark

我正在尝试使用spark.read来获取我的UDF中的文件数，但当我执行该程序时，它会在这一点挂起。我正在调用dataframe的withcolumn列中的UDF。udf必须读取一个文件并返回它的计数。但它不起作用。我将一个变量值传递给UDF函数。当我删除spark.read代码并简单地返回一个数字时，它可以工作。但是spark.read不是通过UDF工作的。 def prepareRowCountfromParquet(jobmaster_pa: String)(implicit spark: SparkSession): Int = { print("The var

浏览 24提问于2019-04-15得票数 2

3回答

如何删除每组记录计数低于阈值的记录？

scala、apache-spark、apache-spark-sql、spark-dataframe

浏览 0提问于2016-03-15得票数 2

回答已采纳

1回答

左联接错误: org.apache.spark.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积

apache-spark、pyspark、apache-spark-sql

*编辑 df_joint = df_raw.join(df_items,on='x',how='left') Apache Spark 2.4.5中出现标题异常 df_raw有2列"x“、"y”的数据，而df_items是模式的空数据框，还有其他一些列左连接发生在null的值上，它应该从第一个dataframe中获取整个数据，并从第二个dataframe中获取空列。当"X“是浮点数时，它是完全正常的，但是当我将"X”转换为字符串时，它会抛出隐式笛卡尔乘积的错误我在spark 2.4.5中收到了这个错误。为什么会发生这种

浏览 31提问于2020-12-20得票数 0

1回答

即使dataFrame为空，也将标题保留在分组筛选中

python、pandas-groupby

当我使用groupby过滤时，即使dataframe是空的，我也想保留列标题。我按如下方式过滤数据帧 df_groupby = df.groupby("ID",as_index=False).apply(lambda x: x[x["col"] == x["col"].max()]).reset_index(drop=True) print(df_groupby) ID col 0 1 4 1 2 5 如果dataframe不为空，则此方法有效。但是，如果记录为空，则此筛选将删除列标题 df_empty = pd.

浏览 3提问于2019-09-30得票数 1

3回答

将数据碎片添加到新列中的另一个数据文件中

python、python-3.x、pandas、dataframe

我有两个数据。一个是空的，另一个是包含很多行的。我希望用值对dataframe进行分组，然后对每个组的前3行进行切片，并将它们添加到空的dataframe中。我希望每个新的3行被放入一个新的列中。我试过，连接，加入，附加..。但我想不出怎么..。到目前为止我的代码是： df = pd.Dataframe() df2 = pd.DataFrame({'C': [20, 20, 20, 20, 10, 10, 10, 30, 30, 30], 'D': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}) d

浏览 1提问于2019-04-29得票数 1

回答已采纳

1回答

使用Spark访问数据仓库中的列

scala、apache-spark、dataframe、apache-spark-sql、spark-dataframe

我正在开发使用SCALA的SPARK 1.6.1版本，并面临一个不寻常的问题。使用在同一执行过程中创建的现有列创建新列时，获取"org.apache.spark.sql.AnalysisException“。 WORKING:。 val resultDataFrame = dataFrame.withColumn("FirstColumn",lit(2021)).withColumn("SecondColumn",when($"FirstColumn" - 2021 === 0, 1).otherwise(10)) result

浏览 0提问于2016-08-12得票数 4

2回答

使用枢轴功能时数据不可用时，火花数据丢失列

scala、apache-spark、apache-spark-sql、pivot

我有有结构的源表 source Type a aa a aa a bb a cc 当使用数据透视到源数据时，得到的结果如下 source aa bb cc a 2 1 1 当源表为空时，则生成的dataframe只会使列1和透视列不出现。 source 我所期望的是如下所示 source aa bb cc 0 0 0 0 已尝试的解决办法： val df = spark.sql(s""" select source, type from sourceTable "

浏览 3提问于2019-11-23得票数 1

回答已采纳

1回答

火花放电中的计数和群值

pandas、dataframe、pyspark、transform

我是Spark的新手，我正在尝试将groupby和count应用到count属性的dataframe df中。 import pandas as pd comments = [ (1, "Hi I heard about Spark"), (1, "Spark is awesome"), (2, None), (2, "And I don't know why..."), (3, "Blah blah")] df = pd.DataFrame(comments ) df.columns = ["

浏览 4提问于2017-02-07得票数 1

回答已采纳

1回答

在Apache Spark DataFrame中，如何删除所有非None值都相同的列？

scala、apache-spark、apache-spark-sql

我在Apache Spark SQL中有一个DataFrame，我想删除所有not None值都相同的列。所以在一个虚拟的例子中 df | A | B | C | 1 2 3 NaN 2 4 1 2 NaN 1 2 5 我只想保留C列 df_filter | C | 3 4 NaN 5 在Python中，我将通过以下方式完

浏览 25提问于2021-10-27得票数 2

回答已采纳

1回答

如何除以星火DataFrame中列的和

apache-spark、pyspark、apache-spark-sql

如何在不立即触发计算的情况下，高效地将列除以其在星火DataFrame中的自身和？假设我们有一些数据： import pyspark from pyspark.sql import SparkSession, Window import pyspark.sql.functions as spf spark = SparkSession.builder.master('local').getOrCreate() data = spark.range(0, 100) data # --> DataFrame[id: bigint] 我想在这个数据框架上创建一个名为“规

浏览 0提问于2018-01-31得票数 2

回答已采纳

1回答

将数据帧转换为JSON时，从数据帧中移除空数组字段

arrays、apache-spark、apache-spark-sql、remove-if、jsonconvert

有没有什么方法可以通过不使用那些为空的字段来从spark dataframe创建json：假设我有一个数据框： +-------+----------------+ | name| hit_songs| +-------+----------------+ |beatles|[help, hey jude]| | romeo| [eres mia]| | juliet| null | +-------+----------------+ 我想将其转换为json，如下所示： [{ name: "beatles", hi

浏览 2提问于2020-05-15得票数 0

2回答

为什么隐式类中的函数不可用？

scala、scala-implicits

我正在尝试教自己Scala，并使用IntelliJ的想法作为我的IDE。我已经启动IntelliJ的shell，运行console，然后输入以下内容： import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} import java.time.LocalDate object DataFrameExtensions { implicit class DataFrameExtensions(df: DataFrame){ def featuresGroup1(grou

浏览 1提问于2018-05-22得票数 1

回答已采纳

1回答

获取zipWithIndex之后的DataFrame计数

apache-spark

假设我将一个索引列附加到一个DataFrame，如下所示： def addSequentialIndex( sc: SparkContext, df: DataFrame, id: String) : DataFrame = { val sqlContext = new org.apache.spark.sql.SQLContext(sc) sqlContext.createDataFrame( df.rdd.zipWithIndex.map { case (row: Row, i: Long) =

浏览 3提问于2017-04-24得票数 0

1回答

在现有数据文件上使用foldLeft输出数据

scala、apache-spark

我有一个spark，我想使用foldLeft (或任何其他方法)将聚合函数应用于每一列。应用于该列的聚合函数将取决于该列的dataType。请注意，由于我将使用大型数据large，所以不希望使用.collect()或任何将大量内容写入驱动程序的内容。初始数据文件如下所示： +----------------+-----------------+------------------+ | id(StringType) | lat(DoubleType) | long(DoubleType) | +----------------+-----------------+-------------

浏览 0提问于2019-04-22得票数 3

回答已采纳

1回答

如何迭代以数据类型为列表的dataframe中的颜色

python-3.x、pyspark、pyspark-sql、pyspark-dataframes

我有一个DataFrame： +----+----+---+ |NAME|RANK| ID| +----+----+---+ |null| 1|100| | abc| 5|100| | cyz| 2|100| +----+----+---+ 我正在尝试访问列name，以便获得第一个非空元素，但我得到的是错误： TypeError:列不可迭代以下是我尝试过的： grouped_df = df1.groupby('ID').agg(collect_list('NAME').alias("name")).select("*

浏览 1提问于2019-12-13得票数 0

2回答

Spark dataframe:使用第二个dataframe查找数组元素

scala、apache-spark、spark-dataframe

我有一个spark dataframe，其中每一行都有一个I列表： ident list_of_ids 1 [3,4,5] 2 [5,6] 3 [2] 4 [] 第二个spark数据帧将id映射到某个文本描述： id desc 2 "aa" 3 "bb" 4 "cc" 5 "dd" 6 "ee" 有没有一种简单(快速)的方法将第三列添加到第一个dataframe中，其中包含与列表中的ids相对应的描述列表： iden

浏览 18提问于2017-12-16得票数 2

1回答

Spark DataFrame groupBy

scala、apache-spark、group-by、apache-spark-sql

我有一个看起来像这样的Spark Java。代码使用JDBC从oracle表中提取数据并显示groupby输出。 DataFrame jdbcDF = sqlContext.read().format("jdbc").options(options).load(); jdbcDF.show(); jdbcDF.groupBy("VA_HOSTNAME").count().show(); Long ll = jdbcDF.count(); System.out.println("ll="+ll); 当我运行代码时，jdbcDF.show()

浏览 12提问于2017-03-02得票数 3

回答已采纳

1回答

星星之火无法合并拼花文件(整数->十进制)

apache-spark、pyspark、azure-databricks

我有两个舞会文件。第一列包含以下列：十进制:十进制(38，18)(可空=真) 第二个列具有相同的列，但具有不同的类型：十进制:整数(nullable = true) 我想将它们合并，但我不能简单地单独阅读它们，并将它们抛到特定的列中，因为这是一个应用程序的一部分，它接收许多不同的拼花模式。我需要能涵盖每一种情况的东西。我读这两本书都是这样的： df = spark.read.format("parquet").load(['path_to_file_one', 'path_to_file_2']) 当我试图显示数据时，它会失败，并出现下面的错

浏览 2提问于2020-11-05得票数 1

1回答

Spark Dataframe中的聚合数组类型

apache-spark-sql

我有一个DataFrame订单： +-----------------+-----------+--------------+ | Id| Order | Gender| +-----------------+-----------+--------------+ | 1622|[101330001]| Male| | 1622| [147678]| Male| | 3837| [1710544]| Male| +

浏览 0提问于2016-06-30得票数 3

回答已采纳

1回答

Apache Spark组按字段求和

apache-spark、spark-dataframe

我有三列的dataframe amount type id 12 A 1 10 C 1 21 B 2 10 A 2 2 B 3 44 B 3 我需要对每种类型的金额求和，并按id对它们进行分组。我的解决方案是 GroupedData result = dataFrame.agg( when(dataFrame.col("type").like("A%") .or(dataFrame.col("type"

浏览 0提问于2017-04-25得票数 0

3回答

向PySpark数据帧中添加组计数列

apache-spark、pyspark、dplyr

我来自R和到PySpark，因为它的出色的火花处理，我正在努力从一个上下文映射到另一个特定的概念。尤其是，假设我拥有如下数据集 x | y --+-- a | 5 a | 8 a | 7 b | 1 我希望添加一个列，其中包含每个x值的行数，如下所示： x | y | n --+---+--- a | 5 | 3 a | 8 | 3 a | 7 | 3 b | 1 | 1 在dplyr中，我只想说： import(tidyverse) df <- read_csv("...") df %>% group_by(x) %>% mutate(n

浏览 0提问于2018-02-14得票数 37

回答已采纳

1回答

pyspark pandas udf RuntimeError:返回的列数与指定的架构不匹配

python、pandas、apache-spark

我有下面定义的pandas udf schema2 = StructType([ StructField('sensorid', IntegerType(), True), StructField('confidence', DoubleType(), True)]) @pandas_udf(schema2, PandasUDFType.GROUPED_MAP) def PreProcess(Indf): confidence=1 sensor=Indf.iloc[0,0] df = pd.Dat

浏览 76提问于2020-08-14得票数 5

1回答

只允许熊猫数据中两列之间的一对一映射

python、pandas

我有两个列dataframe，每一行都是不同的，一列中的一个元素可以映射到另一列中的一个或多个元素。我想过滤掉这些元素。因此，在最后的dataframe中，一列中的一个元素只能映射到另一列中的唯一元素。我要做的是按一列分组并计数重复项，然后删除计数大于1的行，然后再对另一列执行此操作。我想知道是否有更好、更简单的方法。谢谢 edit1:我刚刚意识到我的解决方案是不正确的，删除A列中的多个映射元素可以减少B列中的映射数，请考虑以下示例： A、B [1]1 4 1 3 2 4 1映射到3,4，所以前两行应该被删除，4映射到1,2。最后的表应该是空的。但是，我的解决方案将保留最后一行。有人能

浏览 3提问于2014-05-18得票数 2

回答已采纳