在pyspark中需要值大于0的列列表_Julia:在缺失的向量中查找大于0的值_如何查询无列表为pyspark列中的值 - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-sql

在Spark中，我需要减去两列的值，并检查结果的绝对值是否大于某个值。我怎么能这么做？我试过这个： import pyspark.sql.functions as f f.abs((f.col("col1") - f.col("col2"))) > 100 但这是抛出PySpark异常。我认为这是因为'abs‘函数接受的是’列‘而不是值。对吗？如何在Spark中完成我想做的事情？

浏览 21提问于2022-01-24得票数 -2

1回答

PySpark动态连接条件

join、dynamic、pyspark、conditional-statements

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。 pk_list=['col1',col2', .... 'coln'] 现在，我的代码如下所示： full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s) in zip(pk_list,pk_list) ) , "leftanti") 当我运行代码时，我会得到以下错误：在join "/mnt/yarn/userc

浏览 0提问于2018-12-07得票数 2

1回答

动态汇总和重命名PySpark中的聚合列

python、apache-spark、pyspark、apache-spark-sql、data-manipulation

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'Balance'，'Customer‘-->这是一个不断变化的动态列表

浏览 24提问于2021-09-08得票数 0

1回答

火花中的中位数和分位数

python、apache-spark、pyspark、apache-spark-sql

在我的数据中，我有一个年龄列。行总数约为770亿行。我希望使用PySpark计算该列的分位数值。我有一些代码，但计算时间很长(也许我的过程很糟糕)。有什么好办法来改善这一点吗？ Dataframe示例： id age 1 18 2 32 3 54 4 63 5 42 6 23 我到目前为止所做的事： #Summary stats df.describe('age').show() #For Quantile values x5 = df.approxQuantile(

浏览 0提问于2019-05-16得票数 3

回答已采纳

1回答

如何将自定义停止词列表添加到StopWordsRemover

python、pyspark、spark-dataframe、text-mining、stop-words

我在我的pyspark上使用pyspark.ml.feature.StopWordsRemover类。它有ID和文本列。除了提供默认的停止词列表外，我还想添加自己的自定义列表，以从字符串中删除所有数值。我可以看到为这个类提供了一个添加setStopWords的方法。我想我很难找到合适的语法来使用这个方法。 from pyspark.sql.functions import * from pyspark.ml.feature import * a = StopWordsRemover(inputCol="words", outputCol="filtered"

浏览 0提问于2017-04-26得票数 9

回答已采纳

1回答

使用round函数时的pyspark问题

python、pyspark、rounding、rdd

我正在使用zeppelin pyspark并试图舍入RDD的列值(从Dataframe转换而来)，但得到了错误。 %pyspark import pyspark.sql.functions as F orderfinal = orderjoin.rdd.map(lambda x: ((x[1], x[2]), (x[4], x[5]))). \ combineByKey(lambda value: (value[0], value[1]), lambda x, value: (x[0] + value[0]

浏览 0提问于2020-02-24得票数 0

1回答

统计SPARKSQL中的重复行数

pyspark、apache-spark-sql、spark-dataframe、pyspark-sql

我有一个要求，我需要计算配置单元表的SparkSQL中的重复行数。 from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row app_name="test" conf = SparkConf().setAppName(app_name) sc = SparkContext(conf=conf) sqlContext = HiveContext(sc) df =

浏览 3提问于2018-02-01得票数 11

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

apache-spark、dataframe、pyspark、apache-spark-mllib、apache-spark-ml

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。 import pyspark import pyspark.sql.types as T import pyspark.sql.functions as F data = [0, 3, 0, 4] d = {} d['DenseVector'] = pyspark.ml.linalg.DenseVector(data) d['old_DenseVector'] =

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

如何处理不同类型的PySpark自定义项返回值？

list、dataframe、pyspark、typeerror、user-defined-functions

我有一个只有一列的数据框。在此数据框的每一行中，都有一个列表。例如： df = spark.createDataFrame( [ [[13,23]], [[55,65]], ], ['col',] ) 然后，我定义了一个UDF，它基本上将列表中的第一个数字加1，并将列表中的第二个数字加1.5。 def calculate(mylist) : x = mylist[0] + 1 y = mylist[1] + 1.5 return x,y 问题是，当我对我的数据框应用这个函数时，它会返回X值，但不会返回Y值。我

浏览 25提问于2020-01-23得票数 0

回答已采纳

2回答

从PySpark DataFrame列中删除元素

pyspark

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如： [1] [1,2] [1,2,3] [2,3] 上面是一个玩具例子，因为我的实际DataFrame有一个最大长度为52个唯一ints的列表。我想要生成一个列，它遍历ints列表并为每个循环删除一个元素。要删除的元素将从所有列表中的唯一元素集合中删除，在本例中为[1,2,3]。因此，对于第一次迭代：删除元素1，结果如下： [] [2] [2,3

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

SparkException:卡方检验预期因素

python、apache-spark、pyspark、chi-squared

我有一个包含42个特征和1个标签的数据集。在执行决策树以检测异常之前，我想应用库square的选择器卡方选择器，但是我在卡方选择器的应用过程中遇到了这个错误： org.apache.spark.SparkException:由于阶段失败而中止作业:阶段17.0中的任务0失败1次，最近的失败:阶段17.0中丢失的任务0.0 (TID 45，本地主机，执行器驱动程序)：org.apache.spark.SparkException:卡方检验预期因素(分类值)，但在第11列中发现了超过10000个不同的值。这是我的源代码： from pyspark.ml.feature import ChiS

浏览 3提问于2019-10-29得票数 2

1回答

代替rdd的pyspark函数

python、pyspark、data-cleaning

我一直试图替换特定列的数据集中的字符串。无论是1还是0，'Y‘如果1，否则0。我已经通过lambda使用dataframe到rdd转换来识别要针对的列，但这需要一段时间才能处理。每个列都切换到rdd，然后执行不同的操作，这需要一段时间！如果“Y”存在于不同的结果集中，则该列被标识为需要转换。我想知道是否有人能建议我如何才能独占地使用pyspark函数来获得相同的结果，而不必为每一列切换？样本数据上的代码如下： import pyspark.sql.types as typ import pyspark.sql.functions as func co

浏览 2提问于2017-04-10得票数 0

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

python、pandas、apache-spark、pyspark、rdd

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。 myRdd = [[1, 'a', {'a':[1, 2]}], [2, 'b', {'c': 1, 'd':3}], [3, 'c', {}]] columnNames = ['sl', 'name', 'params'] 内部列表中的第三个元素没有特定的结构。在pandas数据帧中，我可以

浏览 1提问于2018-04-07得票数 1

1回答

如何将数组和列表放在一起，并根据数组的值过滤列表？

python、arrays、list

是这样的，我有两个数组。一个是名称列表，另一个是值。我想把它们放在一起，过滤所有值大于零的名字。我该怎么做呢？就像这样，数组是回归的系数列表，就像这样： array([-0.1, 0.82105695, 0, 0, 10]) 该列表是列的名称： Index(['col1', 'col2', 'col3', 'col4', 'col5'], dtype='object', length=1000) 我希望结果是值大于0的列的列表。有什么简单的方法可以做到这一点吗？

浏览 27提问于2020-10-01得票数 1

1回答

如何重命名所有列，在pyspark中创建dataframe之后，如何根据模式/从csv文件中读取数据类型来转换数据类型

python、pyspark

在pyspark中创建示例数据 from pyspark.sql.types import * from pyspark.sql.types import StructField from pyspark.sql import types testdata = [("aaaa",1,50.0,"05-APR-2020"), ("bbbb",2,100.0,"06-APR-2020")] dataschema = types.StructType([ typ

浏览 1提问于2020-05-04得票数 0

回答已采纳

1回答

从多个火花柱(具有特定条件)到一个组合了所有条件的柱。PYSPARK

pyspark、pyspark-sql

我有一个Python列表，其中包含一些包含某些条件的PySpark列。我只想有一个列，它总结了列列表中的所有条件。我尝试使用sum()操作来组合所有列，但它不起作用(很明显)。此外，我一直在检查文档，但似乎没有对我起作用。我正在做这样的事情： my_condition_list =.isNotNull(C) some_of_my_sdf_columns中c的.isNotNull() 这将返回不同Pyspark列的列表，我只想要一个包含所有条件的列，并使用|运算符，这样我就可以在.filter()或.when()子句中使用它。谢谢

浏览 4提问于2019-06-12得票数 0

4回答

如何在Spark中压缩两个数组列

python、pandas、apache-spark、pyspark、apache-spark-sql

我有潘达的数据。我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下： df['column_1']: 'abc, def, ghi' df['column_2']: '1.0, 2.0, 3.0' 我想将这两列连接到第三列中，如下所示，我的每一行数据都是这样的。 df['column_3']: [abc_1.0, def_2.0, ghi_3.0] 我已经在python中成功地使用了下面的代码，但是dataframe相当大，运行整个datafra

浏览 2提问于2019-01-21得票数 9

回答已采纳

2回答

为什么spark内容的默认并行度与vCPU的数量不同？

python、apache-spark、google-cloud-platform、pyspark、google-cloud-dataproc

我已经用下面的代码片段在Google Cloud Platform Dataproc中创建了一个集群： gcloud dataproc clusters create $SOLO \ --project $PROJ \ --bucket $STORAGE \ --region $REGION \ --image-version 1.4-ubuntu18 --single-node \ --master-machine-type n1-standard-8 \ --master-boot-disk-type pd-ssd --master-boot

浏览 3提问于2020-05-26得票数 1

1回答

有效地检查所有列的值是否为空(或等效)

performance、apache-spark、optimization、pyspark、apache-spark-sql

我有一个dataframe (1910列)，它在某些列中只包含空(或等效)值。我想要一个空计数值为= 3103276687 (等于行计数)的所有列的列表。由于行和列的数量很大，我需要一个高度优化的查询。否则，我的Databricks笔记本就会连续运行几个小时，有时也不会产生结果。我需要所有行都为空的列列表，以便可以删除它们。不要用collect()给出答案，这是一个昂贵的功能。我的代码： from pyspark.sql.functions import col, isnan, when, count df_5 = df_2.select([count(when(col(c).con

浏览 1提问于2022-08-04得票数 1

回答已采纳

2回答

pyspark dataframe中类似元组的数据类型

python、pyspark

浏览 23提问于2020-11-06得票数 0

2回答

从列表中添加列的pySpark

python、dataframe、apache-spark、pyspark、databricks

我有一个数据文件名，并希望根据列表中的值向它添加列。我的值列表将从3-50个值变化。我是pySpark新手，我试图将这些值作为新列(空)附加到我的df中。我看到了关于如何将一列添加到dataframe中的推荐代码，而不是从列表中添加多列的代码。 mylist = ['ConformedLeaseRecoveryTypeId', 'ConformedLeaseStatusId', 'ConformedLeaseTypeId', 'ConformedLeaseRecoveryTypeName', 'ConformedLea

浏览 2提问于2020-05-12得票数 1

回答已采纳

1回答

错误:何时将火花数据转换为熊猫数据

python、pyspark

我需要把火花数据集(大型数据集)转换成熊猫数据集。代码：spark_df = Example_df.toPandas() 我得到了这个错误： /databricks/spark/python/pyspark/sql/pandas/conversion.py:145: UserWarning: toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true, but has reached the error below and ca

浏览 35提问于2022-03-02得票数 0

1回答

如何在多个列上应用条件并在pyspark中显示错误消息

python、pyspark、spark-dataframe

我有一个如下的数据框架。 +---+---+---+---+ | x| y| z| w| +---+---+---+---+ | 0| 4| 4| 4| +---+---+---+---+ 我想要应用一个条件，如果有任何列值大于零，则显示一条错误消息，指出此列的计数大于零 e.g. if df.x >0: print("your count is more than zero for column x ") 类似地，代码应该显示value大于零的所有列的消息。请帮助在python中使用pyspark编写代码，因为我对这个平台非常陌生。

浏览 1提问于2018-03-27得票数 0

2回答

如何在所有值都为空或'0‘的中列出列/列

python、dataframe、pyspark

我试图从下面的dataframe获取列的列表，它的所有值都是Null或0。 Col1 | Col2| Col3| Col4| Col5| +-----+-----+------+------+------+ |Jamer| null| M| 0 | TW18| |XYZAM| null| F| 0 | 0 | |Nowra| null| null| 0 | null | +-----+-----+------+------+------+ 预期产出: Col2 & Col4 如果我使用的是PySpark列类isNull，那么结果还包括

浏览 5提问于2022-06-07得票数 0

2回答

将可变数量的列传递给Pyspark .Agg()

python、apache-spark、pyspark

在PySpark中，我需要在运行时构建一个列的列表，然后对它们进行聚合。这是一个有效的示例： T.agg(col1,col2) 但是我需要传递一个列的列表类型list of Column (不是string) 不起作用： cols=[col1,col2] T.agg(cols) #Passes param as tupple1(List) 不起作用： cols=[col1,col2] T.agg(tupple(cols)) #Passes param as tupple1(tupple2) 两种情况都会在PySpark代码中失败：assert all(is

浏览 23提问于2020-10-16得票数 0

回答已采纳

3回答

如何将数组(即列表)列转换为向量

python、apache-spark、pyspark、apache-spark-sql、apache-spark-ml

这个问题的简短版本！考虑下面的片段(假设spark已经设置为某些SparkSession)： from pyspark.sql import Row source_data = [ Row(city="Chicago", temperatures=[-1.0, -2.0, -3.0]), Row(city="New York", temperatures=[-7.0, -7.0, -5.0]), ] df = spark.createDataFrame(source_data) 注意，温度字段是一个浮子列表。我想将这些浮点列表转换为MLlib

浏览 9提问于2017-02-09得票数 75

回答已采纳

1回答

使用逻辑和超过条件列表的PySpark DataFrame过滤器-- Numpy所有等效条件

python、numpy、apache-spark、pyspark、apache-spark-sql

如果所有列的值为零，我将尝试过滤PySpark数据的行。我希望使用这样的方法(使用numpy函数np.all() )： from pyspark.sql.functions import col df.filter(all([(col(c) != 0) for c in df.columns])) 但我得到了ValueError： ValueError: Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~'

浏览 3提问于2016-12-20得票数 16

回答已采纳

2回答

如何在表行中选择大于x的值

我是R的新手，我正在努力学习这门语言。我一直在使用来自Bioconductor的multtest包中包含的Golub (1999)数据。以Golub数据为例，我试图在"ALL“患者(由第1到27列表示；"CCND3”患者由第28到38列表示)中，为“急性髓细胞白血病D3”基因(在1042行找到)选择高于2.4的值。这就是我所做的： library(multtest); data(golub) gol.fac <- factor(golub.cl,levels=0:1, labels= c("ALL","AML")) x <- gol

浏览 0提问于2012-08-21得票数 3

回答已采纳

1回答

计算数据的每一列的模式，将其存储在一个列表中，并使用它生成一个数据格式

pyspark

我正在查找数据中所有列的“模式”，并将它们存储在列表中。计算每个列的我的模式的代码： from pyspark.sql.functions import * #calculating mode value mode_val = [] for i in df_num.columns : cnts = df_num.groupBy(i).count() mode = cnts.join( cnts.agg(max("count").alias("max_")), col("count") == col(&#

浏览 0提问于2018-04-03得票数 2

回答已采纳

1回答

动态列.withColumn Python DataFrame

python-3.x、pyspark、apache-spark-sql、databricks、azure-databricks

我想在我的星火DataFrame上动态地应用. list中的列名。 from pyspark.sql.functions import col from pyspark.sql.types import BooleanType def get_dtype(dataframe,colname): return [dtype for name, dtype in dataframe.dtypes if name == colname][0] def get_matches(dataframe): return [x for x in dataframe.columns if ge

浏览 3提问于2020-04-21得票数 1

回答已采纳

1回答

在火花放电中创建计数器

python、r、apache-spark、pyspark

如何在Pyspark中实现以下R代码 l = data.frame(d=c(1,2,4,7,8,15,17,19,20,25,26,29)) l$d2[1]= 0 l$d3[1]=c=1 for(i in 2:nrow(l)) { l$d2[i]=l$d[i]-l$d[i-1] c= ifelse(l$d2[i]<=3,c,c+1) l$d3[i]=c } l 如果值大于或等于3，我想迭代一列，并增加一个计数器。假设我的专栏中的元素是 1,2,2,3,2,1,5,2,1 国旗应为: 1,1,1,2,2,2,3,3,3 谢谢

浏览 3提问于2016-11-07得票数 2

1回答

Python to Pyspark函数UDF如何输出列表列表

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我在Python语言中有一个函数(有许多不同的函数，但情况相同)，我正在将它转换为PySpark，然而，这个函数有一个不同整数类型的列表作为输入，有一个输出是一个列表，其中包含n个整数类型的列表，举个例子： #I know some libraries are not necessary righ now import pyspark from pyspark import SQLContext from pyspark.sql.types import StructType, StructField, IntegerType, FloatType, StringType, ArrayTyp

浏览 55提问于2021-09-19得票数 0

1回答

如何在pyspark中解压list类型的列

python、apache-spark、pyspark、apache-spark-sql

浏览 29提问于2020-01-24得票数 0

回答已采纳

1回答

将具有值列表的列转换为pyspark中的单个列。

python、apache-spark、pyspark、apache-spark-sql

我有这种格式的数据 df08.select('scaled').show(5, truncate=False) +--------------------------------------------------------------------------------------------------------------------------------+ |scaled

浏览 5提问于2022-04-24得票数 0

2回答

以每列为关键字将PySpark数据帧转换为JSON

apache-spark、pyspark、apache-spark-sql、databricks

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE", "No matching concept", "MALE", ....]} 因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON转储之前转换为字典，并成功地完成了转换，但由于数据量非常大，我想直接在PySpark数据

浏览 14提问于2019-12-18得票数 1

回答已采纳

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

python、apache-spark、memory、pyspark、bigdata

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。我有16 of的RAM，当我访问前几百个文件时，我一直在耗尽RAM。这些文件的总大小只有300-400MB的数据。如果您打开任何csv文件，您可以看到它们都具有相同的格式，第一列用于日期，第二列用于数据系列。所以现在我改用PySpark，但是我不知道连接所有文件的最有效的方法是什么，对于pandas数据帧，我会像这样连接单个帧的列表，因为我想让它们在日期上合并： bigframe = pd.concat(

浏览 14提问于2020-02-17得票数 2

回答已采纳

1回答

Pyspark使用.filter()过滤掉空列表

python-2.7、filter、pyspark、pyspark-sql

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。 import pyspark.sql.functions as sf df.filter(sf.col('column_with_lists') != []) 返回以下错误： Py4JJavaError: An error occurred while calling o303.notEqual. : java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表的长度，

浏览 17提问于2017-02-24得票数 7

回答已采纳

1回答

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

python、apache-spark、apache-spark-sql、pyspark、pyspark-sql

下面是创建pyspark.sql DataFrame的代码 import numpy as np import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]), columns=['a','b','c']) sparkdf = sqlContext.createDataFrame(df, samplingR

浏览 0提问于2015-08-11得票数 6

1回答

星火StringIndexer MLlib

python、apache-spark、pyspark、rdd、apache-spark-mllib

我的PipelinedRDD中有一列标称值，为了分类目的，我想将其转换为索引编码。我曾经在pyspark.ml中使用pyspark.ml，这是非常容易使用的。然而，这一次我正在学习如何处理rdd而不是数据格式，而且在pyspark.mllib中没有这样的东西。任何帮助都是非常感谢的。

浏览 0提问于2018-02-14得票数 1

回答已采纳

1回答

使用csv文件中的pyspark数据绘制RDD数据

dataset、bigdata、apache-spark、pyspark、plotting

我刚刚开始在非常大的csv文件上使用pyspark。我使用的是Spark版本2.1.0。我希望从一个.csv文件中读取数据，并将其加载到中，然后在过滤特定的行之后，使用matplotlib绘制2列(纬度和经度)，将其可视化。这就是我到目前为止所做的：进口包装： from pyspark.sql import SparkSession from pyspark.conf import SparkConf from pyspark.sql.functions import * import matplotlib.pyplot as plt 构建火花会话： spark = SparkSessio

浏览 0提问于2017-06-28得票数 1

1回答

PySpark中的群累积计数

python、pyspark

我有如下数据： --------------- id | name | --------------- 1 | joe | 1 | john | 2 | jane | 3 | jo | --------------- 目标是，如果'id‘列是重复的，则从1开始向其添加升序号。在潘达斯，我可以这样做： count_id = df.groupby(['id']).cumcount() count_num = count_id.replace(0, '').astype(str) df['id&#

浏览 0提问于2019-04-10得票数 0

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用： from pyspark.sql.functions import udf from pyspark.sql.functions import array_distinct from pyspark.sql.types import ArrayType, StringType create_transition = u

浏览 13提问于2022-10-19得票数 1

回答已采纳

3回答

在单个列中计算跨列表的值的实例

python、apache-spark、pyspark、counter

我有一个PySpark dataframe，其中1列由字符串列表组成。我想在所有行中计算每个字符串列表中每个元素的实例数。伪码： counter = Counter() for attr_list in df['attr_list']: counter.update(attr_list) 另一种方法是将所有行的所有列表连接起来，并从单个庞大列表中构建一个计数器。在PySpark中是否有一种有效的方法来做到这一点？正确的输出将是一个collections.Counter()对象，其中填充了所有列中所有列表中每个项的出现数，也就是说，如果对于给定列，第1行具有列表['

浏览 6提问于2020-05-08得票数 1

回答已采纳

1回答

在pyspark中实现嵌套的for循环

python、dataframe、pyspark、rdd、nested-loops

我是PySpark的新手，我正在尝试理解如何在PySpark中编写多个嵌套的for循环，我检查了一些现有的问题，但没有解决我的问题。任何帮助我们都将不胜感激。 FB是一个包含200列和06行的pyspark RDD，而delay是在上一步中计算的值的列表。如果需要的话，我会提供的。 s2=[ ['0' for col in range(100)] for row in range(100)] for u in log_progress (range(100)): for v in log_progress (range(100)):

浏览 81提问于2019-05-21得票数 0

1回答

Spark DataFrame ArrayType或MapType用于检查列中的值

python-2.7、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有一个，其中一列是is列表。例如，我想获取其中包含特定ID的行数。与我相关的两个列类型是ArrayType和MapType。我可以使用映射类型，因为在map/dict中检查成员资格比检查数组中的成员资格更有效。但是，要使用映射，我需要使用自定义udf而不是内置(scala)函数array_contains进行筛选。有了MapType，我可以做到： from pyspark.sql.types import BooleanType from pyspark.sql.functions import udf df = spark.createDataFrame([("a-key&

浏览 1提问于2018-10-30得票数 2

回答已采纳

2回答

Pandas / Pyspark添加列以显示条件下的重复值

python、pandas、dataframe、pyspark

如果想要在我的dataframe中添加一个列来标记一个条件是否满足，但是我不知道如何解决这个问题。假设在dataframe上，我们有同名的学生，但是我只想在他们的成绩超过5的时候才给他们打分，而忽略那些5年级以下的学生。就像这样：在此之前：之后：我可以使用Pandas或Pyspark作为库。

浏览 5提问于2022-07-27得票数 0

回答已采纳

1回答

使用udf以编程方式从dataframe中选择列

python、pyspark、apache-spark-sql

我对pyspark是个新手。我正在尝试使用包含UDF的配置文件提取数据帧的列。如果我在客户机上将选择列定义为列表，它就可以工作，但是如果我从配置文件导入列表，则列列表的类型为string。有没有别的办法。使用pyspark打开火花壳。 ******************************************************************* version 2.2.0 Using Python version 2.7.16 (default, Mar 18 2019 18:38:44) SparkSession available as 'spark&#

浏览 8提问于2019-06-18得票数 1

2回答

添加带有随机数据的新列

python、apache-spark、pyspark、apache-spark-sql

我想要在dataframe中添加一个包含0或1的值的新列。 from random import randint df1 = df.withColumn('isVal',randint(0,1)) 但我得到了以下错误 / withColumn /python/pyspark/sql/dataframe.py“，第1313行，在withColumn AssertionError( col，列)中，”col应该是列“AssertionError: col应该是列如何使用自定义函数或随机函数生成列的随机值？

浏览 4提问于2017-01-04得票数 13

回答已采纳

2回答

使用list并替换pyspark列

dataframe、pyspark

假设我有一个列表new_id_acc = 6,8,1,2,4，我有像这样的PySpark DataFrame id_acc | name | 10 | ABC | 20 | XYZ | 21 | KBC | 34 | RAH | 19 | SPD | 我想用new_id_acc值替换pyspark列id_acc，我该如何实现并做到这一点。我尝试过，发现除了常量值之外，可以使用lit()，但是没有找到任何如何处理list的方法。替换后，我希望我的PySpark数据帧看起来像这样 id_acc | na

浏览 27提问于2019-05-14得票数 1