Pyspark -基于列表或字典创建列_Pyspark dataframe:基于其他列值创建列_Pyspark基于新条件创建新类别列 - 腾讯云开发者社区

python、apache-spark、pyspark、apache-spark-sql

我有一个多列的pyspark dataframe，我需要将字符串类型转换为正确的类型，例如：我现在就是这样做的 df = df.withColumn(col_name, col(col_name).cast('float') \ .withColumn(col_id, col(col_id).cast('int') \ .withColumn(col_city, col(col_city).cast('string') \ .withColumn(col_date, col(col_date).cast('date') \ .

浏览 11提问于2021-07-10得票数 3

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

python、python-2.7、apache-spark、pyspark

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对象，比如数组、列表、元组或字典，会怎么样呢？它们将只存储在我的驱动程序节点的内存中，对吗？如果我把它们转换成RDD，我还能用典型的Python函数做操作吗？如

浏览 34提问于2017-03-01得票数 1

回答已采纳

2回答

在pySpark中按条件分割数据

python、pyspark、boolean、pyspark-dataframes

我有一个dataframe值为false、true或null。我想创建两个dataframes，1)只使用True列名，2)只使用假列名。我最初的想法是创建两个dataframes (因为它们稍后将被附加到一个更大的数据集中)，或者我还考虑将适当的列名转换为一个列表，然后将列表名称转换为列名。我是pySpark新手，我想知道如何在不硬编码任何列名(我有几百列)的情况下做到这一点，我知道我不能遍历行，因为这样做会违背pySpark的目的。每一列将只有一个boolen -一个T或F，因此每列多个空。我尝试使用.filter，但它只过滤了一列，它实际上打印了其他所有列，而不是F列。 df.fil

浏览 3提问于2020-05-07得票数 1

回答已采纳

1回答

当CSV内容读取为列表时，pandas read_csv()返回带有.1和.2的重复条目

python-3.x、pandas

我正在使用pandas read_csv()方法将CSV文件的第一行读入列表，如下所示。 target_df = pandas.read_csv(file_absoulte_path, nrows=0, engine='python').columns.tolist() 并将上面返回的列表与另一个列表(expected_columns)进行比较，如下所示。 if(colums_expected==target_df): logger.info("Column names are CORRECT, as expected!"

浏览 2提问于2021-07-15得票数 1

1回答

动态汇总和重命名PySpark中的聚合列

python、apache-spark、pyspark、apache-spark-sql、data-manipulation

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'Balance'，'Customer‘-->这是一个不断变化的动态列表

浏览 24提问于2021-09-08得票数 0

2回答

是否有一种方法可以将类型字典的列添加到火花放电中的星体数据？

python、pyspark、apache-spark-sql

这就是我如何在pyspark中创建具有原始数据类型的数据 from pyspark.sql.types import StructType, StructField, DoubleType, StringType, IntegerType fields = [StructField('column1', IntegerType(), True), StructField('column2', IntegerType(), True)] schema = StructType(fields) df = spark.createDataFrame([], schem

浏览 2提问于2020-05-31得票数 5

回答已采纳

1回答

为什么需要嵌套pyspark.sql.SparkSession.createDataFrame的data参数？

apache-spark、pyspark、types

我正在尝试从一个列表创建一个简单的DataFrame，并且想要理解其中的逻辑。我在文档中的第一次尝试是 import pyspark sc: pyspark.SparkContext = pyspark.SparkContext(master='local[*]', appName='TestApp') spark = pyspark.sql.SparkSession.builder.getOrCreate() df = spark.createDataFrame([1, 2], schema=['a', 'b']) 这将引发T

浏览 36提问于2021-03-06得票数 0

回答已采纳

1回答

如何重命名所有列，在pyspark中创建dataframe之后，如何根据模式/从csv文件中读取数据类型来转换数据类型

python、pyspark

在pyspark中创建示例数据 from pyspark.sql.types import * from pyspark.sql.types import StructField from pyspark.sql import types testdata = [("aaaa",1,50.0,"05-APR-2020"), ("bbbb",2,100.0,"06-APR-2020")] dataschema = types.StructType([ typ

浏览 1提问于2020-05-04得票数 0

回答已采纳

3回答

PySpark中pandas_udf的隐式模式？

python、apache-spark、pyspark、user-defined-functions

This answer很好地解释了如何使用pyspark的groupby和pandas_udf进行自定义聚合。但是，我不能像示例的这一部分那样手动声明我的模式 from pyspark.sql.types import * schema = StructType([ StructField("key", StringType()), StructField("avg_min", DoubleType()) ]) 因为我将返回具有自动生成的名称的100+列。有没有办法告诉PySpark只隐含地使用我的函数返回的模式，并假定它对所有工作节点都是相

浏览 26提问于2019-02-20得票数 3

1回答

如何删除pyspark数据帧中的变音符号？

apache-spark-sql、pyspark-sql、diacritics

我想知道如何使用Python2删除Pyspark Dataframe中的变音符号。我需要像这样的东西 from pyspark.sql.session import SparkSession from pyspark import SparkContext import pyspark.sql.functions as sf from pyspark.sql.types import StringType df = sc.parallelize([(u'pádlo', 1), (u'dřez', 4)]).toDF(['text', '

浏览 1提问于2019-01-16得票数 0

1回答

从PySpark数据字典列表中提取密钥

dataframe、pyspark

我有一个PySpark dataframe，它有一个列，前两行如下所示。一个字典的列表。然而，PySpark似乎将它们解释为字符串。 [{'id': 213, 'label': 'White', 'option_id': 736, 'option_display_name': 'White Color'}] [{'id': 23123, 'label': 'Cloud', 'option_id': 736, 'option_di

浏览 5提问于2022-05-10得票数 0

1回答

Pyspark:当键和值的类型不同时，如何用dict替换列值

python、pyspark、apache-spark-sql、mapping

我有一个带有整数列的pySpark数据。我也有一个从整数到字符串的映射，如 {1: 'A', 2: 'B', 3: 'C'} 我希望使用此映射从原始列中获得一个新列。怎么做？我尝试使用替换函数，但它将新值转换为与原始值相同的数据类型。我想我可以先把整数转换成字符串，但是很高兴知道一种更一般的方法。我是pySpark的新手，可能只是错过了一些非常简单的东西。)谢谢你提前提供帮助！

浏览 10提问于2022-07-06得票数 0

2回答

pyspark dataframe中类似元组的数据类型

python、pyspark

浏览 23提问于2020-11-06得票数 0

2回答

从PySpark DataFrame列中删除元素

pyspark

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如： [1] [1,2] [1,2,3] [2,3] 上面是一个玩具例子，因为我的实际DataFrame有一个最大长度为52个唯一ints的列表。我想要生成一个列，它遍历ints列表并为每个循环删除一个元素。要删除的元素将从所有列表中的唯一元素集合中删除，在本例中为[1,2,3]。因此，对于第一次迭代：删除元素1，结果如下： [] [2] [2,3

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

将3级嵌套字典键值转换为pyspark dataframe

dataframe、apache-spark、pyspark、partition

我有一个Pyspark数据框架，看起来像这样： ? 我想提取"dic“列中的那些嵌套字典，并将它们转换为PySpark数据帧。如下所示： ? 另外，每一行中的键也会有一些变化，例如，一些行可能有其他行没有的字段。我希望包括所有字段，如果一条记录没有某些字段/keys，则该值可以显示为"null“。请告诉我如何才能做到这一点。谢谢!

浏览 22提问于2020-07-22得票数 0

1回答

星火DataFrame如何区分不同的VectorUDT对象？

apache-spark、dataframe、pyspark、apache-spark-mllib、apache-spark-ml

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。 import pyspark import pyspark.sql.types as T import pyspark.sql.functions as F data = [0, 3, 0, 4] d = {} d['DenseVector'] = pyspark.ml.linalg.DenseVector(data) d['old_DenseVector'] =

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

将字典键添加为列名，将字典值添加为该列的常量值。

pyspark、apache-spark-sql、pyspark-sql

我有一本字典x = {'colA': 20, 'colB': 30}和一个pyspark。 ID Value 1 ABC 1 BCD 1 AKB 2 CAB 2 AIK 3 KIB 我希望使用x创建df1，如下所示： ID Value colA colB 1 ABC 20.0 30.0 1 BCD 20.0 30.0 1 AKB 20.0 30.0 2 CAB 20.0 30.0 ... 知道怎么做吗火花公子。我知道我可以创建这样一个常量列， df1 = df.withColumn('colA'

浏览 0提问于2018-12-04得票数 1

回答已采纳

1回答

将字符串列转换为json并在pyspark中进行解析。

json、dictionary、pyspark、azure-databricks

我的数据看起来就像 |ID|Notes| --------------- |1|'{"Country":"USA","Count":"1000"}'| |2|{"Country":"USA","Count":"1000"}| ID : int Notes : string 当我使用from_json解析列Notes时，它会给出所有的Null值。我需要帮助将本列Notes解析为pyspark中的列

浏览 7提问于2022-05-20得票数 2

1回答

当从RDD转换到DataFrame时，我得到一个EOFError。是什么导致了这种情况，我如何阻止它？

apache-spark、pyspark、apache-spark-sql

当尝试将RDD转换为DataFrame时，我得到一个错误，"EOFError“。我能做些什么来阻止这一切？我尝试过用另一种方法创建DataFrame，但这有其自身的复杂性。我认为我目前尝试创建DataFrame的方法是最简单的方法。 data = data.zip(bool_converted).map(lambda x: (x[0][1], x[0][2], x[0][3], x[1][1], x[0][5], x[0][6], x[0][7], x[0][8], x[0][9], x[0][10], x[0][11])) data = data.toDF() 实际的错误消息是

浏览 31提问于2019-10-04得票数 1

回答已采纳

1回答

Pyspark -从两个关键字列表创建单个字典，为列表添加已定义的值

python-3.x、pyspark、apache-spark-sql、pyspark-dataframes

list1 = ['SO', 'AE', 'AP'] list2 = ['NM', 'NV', 'OR'] 我想为此创建一个字典，并为每个列表添加定义的值，因此它应该是： list1's value = 'Midwest' list2's value = 'Northeast' map = { 'SO': 'Midwest', 'AE': 'Midwest', 'AP&#

浏览 17提问于2020-11-10得票数 0

1回答

如何在pyspark中解压list类型的列

python、apache-spark、pyspark、apache-spark-sql

浏览 29提问于2020-01-24得票数 0

回答已采纳

1回答

使用when()检查字典或映射中的值

python、apache-spark、pyspark

我想测试一个列中的值是否存在于常规python中，或者是在一个when().otherwise()代码块中是否存在吡火花映射，但无法确定正确的语法。使用"Count“列的排列将有多个There ()子句，因此需要类似于”if/elif/elif“的内容。字典/地图将很大，而不是数据文件中的列。 from pyspark.sql import SparkSession, Row import pyspark.sql.functions as F from pyspark.sql.types import * from itertools import chain spark = (Sp

浏览 2提问于2022-04-21得票数 2

回答已采纳

2回答

pyspark dataframe to dictionary:列作为键和列值列表

python、pyspark

您好，我需要将pyspark dataframe (或rdd)转换为字典，其中dataframe的列将是关键字，column_value_list将作为字典值。 name amt a 10 b 20 a 30 b 40 c 50 我想要一本这样的字典： new_dict = {'name':['a','b', 'a', 'b', 'c'], 'amt':[10,20,30,40,50]} 我该怎么做呢(避免在rdd上收集是更好的解决方案)。谢谢。我也在

浏览 4提问于2017-04-28得票数 1

1回答

使用UDF的Pyspark连接

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我正在尝试为df1和df2在PySpark中创建一个自定义连接(类似于)，代码如下所示： my_join_udf = udf(lambda x, y: isJoin(x, y), BooleanType()) my_join_df = df1.join(df2, my_join_udf(df1.col_a, df2.col_b)) 我得到的错误消息是： java.lang.RuntimeException: Invalid PythonUDF PythonUDF#<lambda>(col_a#17,col_b#0), requires attributes from more th

浏览 5提问于2016-07-20得票数 6

回答已采纳

2回答

将一本字典拆分成独立的列

python、apache-spark、dictionary、dataframe、pyspark

我有一个dataframe (在Pyspark中)，它有一个行值作为字典： df.show() 看起来是： +----+---+-----------------------------+ |name|age|info | +----+---+-----------------------------+ |rob |26 |{color: red, car: volkswagen}| |evan|25 |{color: blue, car: mazda} | +----+---+-----------------------------+

浏览 1提问于2018-10-30得票数 4

2回答

火花空映射键

python、apache-spark、pyspark

原谅我的无知，我对火种并不熟悉。我正在尝试改进udf，以便使用字典根据来自另一列count_adj的值创建一个新的列a_type。如何说明在此过程中创建新列的无/空类型。这在熊猫身上是非常容易的(df['adj_count'] = df.a_type.map(count_map))，但在火星雨中却很难做到。抽样数据/进口： # all imports used -- not just for this portion of the script from pyspark.sql import SparkSession, HiveContext, SQLContext from

浏览 1提问于2022-02-02得票数 1

回答已采纳

1回答

从多个火花柱(具有特定条件)到一个组合了所有条件的柱。PYSPARK

pyspark、pyspark-sql

我有一个Python列表，其中包含一些包含某些条件的PySpark列。我只想有一个列，它总结了列列表中的所有条件。我尝试使用sum()操作来组合所有列，但它不起作用(很明显)。此外，我一直在检查文档，但似乎没有对我起作用。我正在做这样的事情： my_condition_list =.isNotNull(C) some_of_my_sdf_columns中c的.isNotNull() 这将返回不同Pyspark列的列表，我只想要一个包含所有条件的列，并使用|运算符，这样我就可以在.filter()或.when()子句中使用它。谢谢

浏览 4提问于2019-06-12得票数 0

1回答

PySpark动态连接条件

join、dynamic、pyspark、conditional-statements

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。 pk_list=['col1',col2', .... 'coln'] 现在，我的代码如下所示： full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s) in zip(pk_list,pk_list) ) , "leftanti") 当我运行代码时，我会得到以下错误：在join "/mnt/yarn/userc

浏览 0提问于2018-12-07得票数 2

1回答

PySpark，决策树(Spark2.0.0)

apache-spark、dataframe、pyspark、apache-spark-sql、decision-tree

我是星火(使用PySpark)的新手。我尝试从运行决策树教程。我执行代码： from pyspark.ml import Pipeline from pyspark.ml.classification import DecisionTreeClassifier from pyspark.ml.feature import StringIndexer, VectorIndexer from pyspark.ml.evaluation import MulticlassClassificationEvaluator from pyspark.mllib.util import MLUtils #

浏览 7提问于2016-10-30得票数 5

回答已采纳

1回答

PySpark:如何在PySpark SQL中创建计算列？

python、apache-spark、pyspark

使用PySpark SQL并给定3列，我想创建一个额外的列，该列将其中的两列分开，第三列是ID列。 df = sqlCtx.createDataFrame( [ (1, 4, 2), (2, 5, 2), (3, 10, 4), (4, 50, 10) ], ('ID', 'X', 'Y') ) 这是所需的输出： +----+----+----+---------------------+ | ID | x | y | z (expected resul

浏览 27提问于2019-05-10得票数 3

回答已采纳

2回答

迭代pyspark dataframe列

python、iterator、pyspark、pyspark-sql

我有以下pyspark.dataframe age state name income 21 DC john 30-50K NaN VA gerry 20-30K 我正在尝试实现df.isnull().sum()的等价物(来自pandas)，它产生： age 1 state 0 name 0 income 0 一开始，我尝试了一些类似的东西： null_counter = [df[c].isNotNull().count() for c in df.columns] 但这会产生以下错误： TypeError: Column

浏览 3提问于2017-02-18得票数 9

回答已采纳

1回答

Python to Pyspark函数UDF如何输出列表列表

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我在Python语言中有一个函数(有许多不同的函数，但情况相同)，我正在将它转换为PySpark，然而，这个函数有一个不同整数类型的列表作为输入，有一个输出是一个列表，其中包含n个整数类型的列表，举个例子： #I know some libraries are not necessary righ now import pyspark from pyspark import SQLContext from pyspark.sql.types import StructType, StructField, IntegerType, FloatType, StringType, ArrayTyp

浏览 55提问于2021-09-19得票数 0

1回答

分组依据列表中的元素

python、pyspark、pyspark-sql

浏览 4提问于2019-10-09得票数 0

4回答

如何在保留现有模式的同时从行中创建DataFrame？

python、pandas、apache-spark、pyspark、pyspark-sql

如果我调用map或mapPartition，并且我的函数接收来自PySpark的行，那么创建本地PySpark或Pandas DataFrame的自然方法是什么？合并行并保留架构的东西？目前，我所做的事情如下： def combine(partition): rows = [x for x in partition] dfpart = pd.DataFrame(rows,columns=rows[0].keys()) pandafunc(dfpart) mydf.mapPartition(combine)

浏览 0提问于2015-12-23得票数 2

回答已采纳

1回答

使用逻辑和超过条件列表的PySpark DataFrame过滤器-- Numpy所有等效条件

python、numpy、apache-spark、pyspark、apache-spark-sql

如果所有列的值为零，我将尝试过滤PySpark数据的行。我希望使用这样的方法(使用numpy函数np.all() )： from pyspark.sql.functions import col df.filter(all([(col(c) != 0) for c in df.columns])) 但我得到了ValueError： ValueError: Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~'

浏览 3提问于2016-12-20得票数 16

回答已采纳

2回答

按键过滤电火花中字典列表中的数据

dictionary、pyspark

在pyspark中，如何根据特定的字典键值筛选具有字典列表列的dataframe？ +------------------------------------+---------------+ |foo_dic_list |text | +------------------------------------+---------------+ |[{'1': [1,2,3],'4': [2,3,4]}] |teacher | |[{'2': [5,2,3

浏览 3提问于2022-07-21得票数 0

1回答

每行有列插入列表的pyspark

python、pyspark、apache-spark-sql、pyspark-sql

我有一个包含一列type的df，我有两个列表 women = ['0980981', '0987098'] men = ['1234567', '4567854'] 现在，我想根据type列的值添加另一个列，如下所示： from pyspark.sql import functions as psf df_ = df.withColumn('new_col', psf.when(psf.col('type') == 'men', men).when(psf.col('typ

浏览 9提问于2019-05-13得票数 3

回答已采纳

1回答

在PySpark 1.5.0中，如何根据‘x’列的值列出‘y’列的所有项？

python、apache-spark、pyspark

以下问题是针对PySpark版本1.5.0的，因为PySpark中不断添加新特性。如何根据列y的值列出列x的所有项？例如： rdd = sc.parallelize([ {'x': "foo", 'y': 1}, {'x': "foo", 'y': 1}, {'x': "bar", 'y': 10}, {'x': "

浏览 4提问于2016-03-20得票数 1

回答已采纳

2回答

将字典列表转换为pyspark dataframe

python、list、dataframe、apache-spark、pyspark

我有一个字典列表，如下所示。每本字典都是一个列表项目。 my_list= [{"_id":1,"name":"xxx"}, {"_id":2,"name":"yyy"}, {"_id":3,"_name":"zzz"}] 我正在尝试将列表转换为，每一个字典都是一行。 from pyspark.sql.types import StringType df = spark.createDataFrame(my_list, StringTy

浏览 2提问于2021-02-18得票数 0

1回答

Pyspark删除包含10个空值的列

pyspark、parquet

我是PySpark的新手。我只想保留至少有10个值的列我已经使用describe来获取每列的非空记录的计数现在如何提取值小于10的列名，然后在写入新文件之前删除这些列 df = spark.read.parquet(file) col_count = df.describe().filter($"summary" == "count")

浏览 1提问于2019-09-28得票数 1

1回答

spark java.lang.stackoverflow逻辑回归拟合大数据集

apache-spark、pyspark

我正在尝试为具有470个特征和1000万个训练实例的数据集拟合逻辑回归模型。下面是我的代码片段。 from pyspark.ml import Pipeline from pyspark.ml.classification import LogisticRegression from pyspark.ml.feature import RFormula formula = RFormula(formula = "label ~ .-classWeight") bestregLambdaVal = 0.005 bestregAlphaVal = 0.01 lr = Log

浏览 2提问于2017-09-22得票数 1

1回答

有没有一个与Scala的Seq.fill()等同的高效的PySpark/Python？

apache-spark、pyspark、functional-programming

我正在尝试使用PySpark创建随机生成的大型数据。下面的Scala代码基本上就是我想要的，但是我找不到一种在PySpark中复制seq.fill()的有效方法。 def randomStringGen(length: Int) = scala.util.Random.alphanumeric.take(length).mkString val df = sparkContext.parallelize(Seq.fill(4000){(randomStringGen(4), randomStringGen(4), randomStringGen(6))}, 10).toDF("col

浏览 0提问于2021-08-06得票数 1

1回答

Pyspark-处理异常并在pyspark数据帧中引发RuntimeError

apache-spark、pyspark、spark-dataframe、pyspark-sql、apache-spark-1.6

我有一个dataframe，我正在尝试基于现有列的值创建一个新列： dfg = dfg.withColumn("min_time", F.when(dfg['list'].isin(["A","B"]),dfg['b_time']) .when(dfg['list']=="C",dfg['b_time'] +2) .when(dfg['list']=="D",F.when(dfg['b_time

浏览 14提问于2018-02-01得票数 0

2回答

从pyspark.sql.dataframe.DataFrame到数组

apache-spark、pyspark、apache-spark-sql

假设我有下面的DataFrame。 import pyspark.sql.functions as f from pyspark.sql.window import Window l =[( 9 , 1, 'A' ), ( 9 , 2, 'B' ), ( 9 , 3, 'C' ), ( 9 , 4, 'D' ), ( 10 , 1, 'A' ), ( 10 , 2, 'B' )] df = spark.createD

浏览 0提问于2018-12-17得票数 0

1回答

如何将自定义停止词列表添加到StopWordsRemover

python、pyspark、spark-dataframe、text-mining、stop-words

我在我的pyspark上使用pyspark.ml.feature.StopWordsRemover类。它有ID和文本列。除了提供默认的停止词列表外，我还想添加自己的自定义列表，以从字符串中删除所有数值。我可以看到为这个类提供了一个添加setStopWords的方法。我想我很难找到合适的语法来使用这个方法。 from pyspark.sql.functions import * from pyspark.ml.feature import * a = StopWordsRemover(inputCol="words", outputCol="filtered"

浏览 0提问于2017-04-26得票数 9

回答已采纳

1回答

PySpark:根据条件选择一列--另一列值匹配某些特定值，然后将匹配结果创建为新列

string、apache-spark、pyspark、apache-spark-sql、hiveql

我以前问过相似的，但出于某些原因，我不得不在PySpark中重新实现它，这是令人难过的。例如, app col1 app1 anybody love me? app2 I hate u app3 this hat is good app4 I don't like this one app5 oh my god app6 damn you. app7 such nice girl app8 xxxxx app9 pretty prefect app10 don't love me. ap

浏览 2提问于2020-05-29得票数 2

回答已采纳

1回答

在udf中获取struct数据类型的字段名。

apache-spark、pyspark、apache-spark-sql、user-defined-functions

我试图将多个列作为一个udf (使用pyspark.sql.functions.struct())传递给一个StructType。在这个udf中，我希望获得作为list传递的struct列的字段，这样我就可以对每一行遍历传递的列。基本上，我正在寻找这个答案- 中提供的scala代码的pyspark版本。

浏览 1提问于2019-09-04得票数 1

回答已采纳

1回答

Pyspark使用.filter()过滤掉空列表

python-2.7、filter、pyspark、pyspark-sql

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。 import pyspark.sql.functions as sf df.filter(sf.col('column_with_lists') != []) 返回以下错误： Py4JJavaError: An error occurred while calling o303.notEqual. : java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表的长度，

浏览 17提问于2017-02-24得票数 7

回答已采纳

1回答