迭代pyspark dataframe行并应用UDF_根据行值对pyspark dataframe应用UDF_Pyspark:对dataframe中的每一行应用正则表达式的UDF - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-mllib、pca、apache-spark-ml

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。我能够将Hive表导入到： >>> from pyspark.sql import HiveContext >>> hiveContext = HiveContext(sc) >>> dataframe = hiveContext.sql("SELECT * FROM my_table") >>> type(dataframe) <class 'pyspark.sql.dataframe.D

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

PySpark -迭代数据框的行

pyspark

我需要迭代pyspark.sql.dataframe.DataFrame.DataFrame的行。我以前在pandas中用iterrows()函数做过，但我需要在不使用pandas的情况下为pyspark找到类似的东西。如果我执行for row in myDF:，它将迭代columns.DataFrame 谢谢

浏览 1提问于2018-07-03得票数 1

回答已采纳

1回答

如何将udf添加到sqlContext中

python、apache-spark、user-defined-functions

我知道我可以注册一个UDFand函数，因为它可以在SQL查询中使用： def example(s): return len(s) sqlContext.udf.register("example_udf", example) spark.sql("SELECT example_udf(col) FROM data") 或者我可以用udf包装Python函数，这样就可以将它应用于dataframe： from pyspark.sql.functions import udf from pyspark.sql.types import IntegerType

浏览 1提问于2018-04-13得票数 0

回答已采纳

1回答

火花放电的UDF能返回与列不同的对象吗？

python、dataframe、pyspark、user-defined-functions

我想将一些函数应用到pysaprk dataframe的列中，这是一个用UDF实现这一点的管理方法，但是我希望返回是另一个对象，而不是dataframe的一个列、一个熊猫数据框、一个python列表等等。我使用分类器将每一列划分为类，但我希望结果是类的摘要，而不是修改，我不知道这是否适用于UDF。我的代码是这样的 import numpy as np import pandas as pd import pyspark from pyspark.sql import SQLContext from pyspark.sql.functions import udf from pyspark

浏览 0提问于2018-12-18得票数 1

回答已采纳

1回答

如何对pyspark dataframe列应用函数

python-3.x、dataframe、pyspark

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。 from currency_converter import CurrencyConverter def convert_USD_INR(row): USD_amount = c.convert(row['Sales'], 'INR', 'USD', date=date(row['Ca

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

将向量列添加到吡咯DataFrame中

apache-spark、dataframe、pyspark、apache-spark-ml

如何将Vectors.dense列添加到pyspark中？ import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.ml.linalg import DenseVector py_df = pd.DataFrame.from_dict({"time": [59., 115., 156., 421.], "event": [1, 1, 1, 0]}) sc = SparkContext(master="loc

浏览 1提问于2018-04-14得票数 1

回答已采纳

2回答

使用MLLIB的pyspark数据帧中的点积

python、apache-spark、pyspark、apache-spark-mllib

我在pyspark中有一个非常简单的dataframe，类似于： from pyspark.sql import Row from pyspark.mllib.linalg import DenseVector row = Row("a", "b") df = spark.sparkContext.parallelize([ offer_row(DenseVector([1, 1, 1]), DenseVector([1, 0, 0])), ]).toDF() 我想要计算这些向量的点积，而不是求助于UDF调用。 spark MLLIB documen

浏览 17提问于2019-05-02得票数 1

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

apache-spark、pyspark、apache-spark-sql

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。尝试使用...TypeError: Invalid argument, not a string or column: -5 of type <class 'int'>. For column literals, use 'lit', 'array', 'struct' or 'create_map' fu

浏览 4提问于2021-08-19得票数 0

回答已采纳

2回答

使用pySpark迭代每一行数据帧

python、dataframe、iteration、pyspark、spark-dataframe

我需要使用dataframe来迭代pySpark，就像我们可以使用for循环迭代一组值一样。下面是我写的代码。这段代码的问题是我必须使用集合来打破并行性。我无法在函数DataFrame中打印funcRowIter的任何值。一旦找到匹配项，我就不能中断循环。我必须在pySpark做这件事，不能用熊猫做这个： from pyspark.sql.functions import * from pyspark.sql import HiveContext from pyspark.sql import functions from pyspark.sql import Da

浏览 2提问于2017-01-30得票数 3

1回答

Pyspark通过date和string数据类型的比较过滤数据帧

python、dataframe、pyspark、spark-dataframe

我在pyspark中有一个dataframe，结构如下： DataFrame[Urlaubdate: string, Vacationdate: date, Datensatz: string, Jobname: string] 现在，我想通过比较vacationdate和urlaubdate来过滤数据帧，不幸的是它们有不同的数据类型。我想得到过滤的行，其中的假日日期是大于Urlaubdate。你知道怎么做吗？

浏览 5提问于2015-10-03得票数 1

2回答

Pyspark UDF - TypeError：“module”对象不可调用

python、pyspark、user-defined-functions

根据我在网上找到的一些教程，我正在尝试运行以下代码： import pandas as pd from pyspark.sql import SparkSession from pyspark.sql import functions from pyspark.sql import udf df_pd = pd.DataFrame( data={'integers': [1, 2, 3], 'floats': [-1.0, 0.5, 2.7], 'integer_arrays': [[1, 2], [3, 4, 5], [6, 7, 8, 9

浏览 1提问于2019-03-01得票数 1

1回答

用PySpark计算形状值

python、pandas、apache-spark、pyspark、shap

我正在寻找一种方法来减少在我的大型数据集上计算SHAP值所需的计算时间(大约180米行，6个特性)，我遇到了这个，讨论了如何在SHAP上使用PySpark。我是PySpark新手，我正在努力弄清楚如何使用本文中提供的代码片段来运行我的代码。我现在使用下面的代码运行SHAP，其中还使用了X_values来适应我的隔离森林模型。 X_values = X.values shap_values = explainer.shap_values(X_values) 这是文章的片段。 def calculate_shap(iterator: Iterator[pd.DataFrame]) ->

浏览 6提问于2022-07-28得票数 2

1回答

从Pyspark中的数据帧列创建多行固定长度的行

pyspark

我的输入是pyspark中的dataframe列，它只有一个列DETAIL_REC。 detail_df.show() DETAIL_REC ================================ ABC12345678ABC98765543ABC98762345 detail_df.printSchema() root |-- DETAIL_REC: string(nullable =true) 对于每11个字符/字符串，它必须位于下一行的dataframe中，以便下游进程使用它。预期输出应在dataframe中为多行。 DETAIL_REC (No spaces lines

浏览 2提问于2022-03-04得票数 1

回答已采纳

3回答

将一列舍入到另一列指定的精度。

apache-spark、pyspark、user-defined-functions

我正试图在pyspark中创建一个UDF，以使一列的精度达到在每一行中由另一列指定的精度，例如，下面的数据文件： +--------+--------+ | Data|Rounding| +--------+--------+ |3.141592| 3| |0.577215| 1| +--------+--------+ 当提交给上述UDF时，应该给出以下结果： +--------+--------+--------------+ | Data|Rounding|Rounded Column| +--------+--------+-------------

浏览 0提问于2018-10-08得票数 1

回答已采纳

1回答

我可以给熊猫发送一个火花数据作为论据吗？

python、pandas、dataframe、apache-spark、pyspark

是否有可能发送一个火花数据作为一个论据给熊猫UDF和得到一个熊猫的数据作为回报。下面是我正在使用的示例代码集，并且在调用函数时出错： import pandas as pd from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf spark = SparkSession \ .builder \ .appName("PrimeBatch") \ .master("local[*]") \ .getOrCreate()

浏览 4提问于2020-11-26得票数 1

回答已采纳

2回答

将Spark Dataframe列中的数据用作条件或其他列表达式中的输入

apache-spark、pyspark、apache-spark-sql、spark-dataframe、pyspark-sql

我有一个想要在PySpark 2.0中执行的操作，该操作作为df.rdd.map很容易执行，但由于出于性能原因，我更喜欢留在Dataframe执行引擎中，所以我想找到一种仅使用Dataframe操作来完成此操作的方法。 RDD风格的操作如下所示： def precision_formatter(row): formatter = "%.{}f".format(row.precision) return row + [formatter % row.amount_raw / 10 ** row.precision] df = df.rdd.map(precisio

浏览 9提问于2016-08-31得票数 0

1回答

PySpark:在文本和子集数据中搜索子字符串

string、search、pyspark、substring、subset

我是pyspark的新手，我想把我现有的pandas / python代码转换成PySpark。我希望对我的dataframe进行子集，以便只返回'original_problem'字段中包含特定关键字的行。下面是我在PySpark中尝试的Python代码： def pilot_discrep(input_file): df = input_file searchfor = ['cat', 'dog', 'frog', 'fleece'] df = df[df['orig

浏览 0提问于2018-05-18得票数 3

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

apache-spark、pyspark、apache-spark-sql

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame 注意:我之所以使用pyspark列，是因为我从我使用的库(远大期望)中获得了它的输入。 @column_condition_partial(engine=SparkDFExecutionEngine) def _spark(cls, column, ts_formats, **kwargs): return column.isin([3]) # need to replace the abov

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

Pyspark:如何应用以数据帧的行作为参数的用户定义函数？

python、pandas、pyspark、apache-spark-sql

我有一个包含87列的PySpark数据格式。我希望将dataframe的每一行传递给一个函数，并为每一行获取一个列表，以便我可以单独创建一个列。 PySpark代码 UDF： def make_range_vector(row,categories,ledger): print(type(row),type(categories),type(ledger)) category_vector=[] for category in categories: if(row[category]!=0): categor

浏览 0提问于2019-08-12得票数 0

1回答

将一个列添加到现有的数据格式中，并在Pyspark中使用随机的固定值。

pyspark

我对Pyspark还不熟悉，我正在尝试在我现有的dataframe中添加一个新的列。新列应该只包含4个固定值(例如1,2,3,4)，我想随机为每一行选择一个值。我怎么能这么做？

浏览 2提问于2016-06-29得票数 1

回答已采纳

2回答

Spark DataFrame:计算行平均值(或任何聚合操作)

python、apache-spark、apache-spark-sql、pyspark

我在内存中加载了一个Spark，我想对列进行DataFrame (或任何聚合操作)。我该怎么做呢？(在numpy中，这称为在axis=1上执行操作)。如果要计算行中DataFrame的平均值(axis=0)，那么这已经是内置的了： from pyspark.sql import functions as F F.mean(...) 但是，有没有一种方法可以通过编程方式对列中的条目执行此操作？例如，从下面的DataFrame +--+--+---+---+ |id|US| UK|Can| +--+--+---+---+ | 1|50| 0| 0| | 1| 0|100| 0| | 1|

浏览 0提问于2015-09-20得票数 8

回答已采纳

1回答

pyspark有没有org.apache.spark.functions.transform的等价物？

python、apache-spark、pyspark、apache-spark-sql

org.apache.spark.functions.transform将一个函数应用于数组的每个元素(在Spark3.0中是新的)，然而，pyspark docs没有提到等效的函数 (有pyspark.sql.DataFrame.transform -但它用于转换DataFrames，而不是数组元素)

浏览 12提问于2020-12-06得票数 0

3回答

移除化工厂中列中的逗号。

python、regex、dataframe、pyspark

我的DataFrame中有两个列，第一列和第二列。两列都包含空单元格。 | **ID** First |Second| |----------|---------|------| | 1 | Toys | | | | | | |--------------------|------| | 2 | | Jeans| |--------------------|------| | 3 |Jeans

浏览 5提问于2017-10-23得票数 0

回答已采纳

2回答

计算PySpark中每一行的唯一值

apache-spark、pyspark、count、unique、user-defined-functions

我有PySpark DataFrame： from pyspark.sql.types import * schema = StructType([ StructField("col1", StringType()), StructField("col2", StringType()), StructField("col3", StringType()), StructField("col4", StringType()), ]) data = [("aaa", "aab", &

浏览 6提问于2022-10-17得票数 1

回答已采纳

1回答

在pyspark的dataframe中迭代列，而不为单个列生成不同的数据。

python-2.7、pyspark、spark-dataframe

我们如何在dataframe中的列中迭代以单独对同一数据same中的部分或所有列执行计算，而不为单个列创建不同的数据same(类似于map在rdd中遍历行，并在行上执行计算而不为每一行创建不同的rdd )。我找到了下面的解决方案。 l = list of column names df = dataframe in pyspark def plusone(df_column): return (df_column + 1) df1 = df.select(map(lambda x: (plusone(getattribute(df,l[x]))) if x ==0 else geta

浏览 3提问于2017-03-10得票数 1

1回答

将不带返回值的Python Lambda函数转换为Pyspark

python、google-cloud-platform、pyspark、user-defined-functions、google-cloud-dataproc

我在Python语言中有一个有效的lambda函数，它可以计算dataset1中的每个字符串与dataset2中的字符串之间的最高相似度。在迭代期间，它将字符串、最佳匹配和相似度以及其他一些信息写入bigquery。没有返回值，因为该函数的目的是向bigquery数据集中插入一行。这个过程需要相当长的时间，这就是为什么我想使用Pyspark和Dataproc来加速这个过程。将熊猫数据帧转换为spark很容易。我在注册udf时遇到了问题，因为它没有返回值，而pyspark需要一个返回值。此外，我不知道如何将python中的'apply‘函数映射到pyspark变体。因此，基本上我的问题

浏览 16提问于2019-07-19得票数 2

回答已采纳

7回答

如何检查中的字符串列是否都是数字列

python、apache-spark、pyspark、apache-spark-sql、numeric

我有一个PySpark Dataframe，其中有一列strings。如何检查其中的哪些行是数字行。我在PySpark的中找不到任何函数。 values = [('25q36',),('75647',),('13864',),('8758K',),('07645',)] df = sqlContext.createDataFrame(values,['ID',]) df.show() +-----+ | ID| +-----+ |25q36| |75647| |13864| |8758K| |0

浏览 0提问于2018-12-12得票数 17

回答已采纳

2回答

比较两个中的字符串值

python、apache-spark、dataframe、pyspark、apache-spark-sql

浏览 0提问于2018-05-23得票数 1

回答已采纳

2回答

Spark DataFrame:根据列值按行排序列名

apache-spark、pyspark

对于下面的dataframe中的每一行，我希望根据降序列条目查找列名(作为数组或元组或其他什么)。所以，对于数据 +---+---+---+---+---+ | ID|key| a| b| c| +---+---+---+---+---+ | 0| 1| 5| 2| 1| | 1| 1| 3| 4| 5| +---+---+---+---+---+ 我想找到 +---+---+---+---+---+------------------+ | ID|key| a| b| c|descending_columns| +---+---+---+---+---+---

浏览 0提问于2019-07-02得票数 1

回答已采纳

1回答

如何在PySpark DataFrame中替换无穷大

python、pandas、apache-spark、pyspark、apache-spark-sql

似乎不支持替换无穷大值。我尝试了下面的代码，但它不起作用。还是我漏掉了什么？ a=sqlContext.createDataFrame([(None, None), (1, np.inf), (None, 2)]) a.replace(np.inf, 10) 或者我必须走一条痛苦的道路:将PySpark DataFrame转换为DataFrame，替换无穷大值，然后将其转换回PySpark DataFrame。

浏览 7提问于2015-12-23得票数 6

回答已采纳

2回答

在collect_set后按值选择行

select、pyspark、row

使用 from pyspark.sql import functions as f 方法f.agg和f.collect_set I在dataFrame中创建了一个列colSet，如下所示： +-------+--------+ | index | colSet | +-------+--------+ | 1|[11, 13]| | 2| [3, 6]| | 3| [3, 7]| | 4| [2, 7]| | 5| [2, 6]| +-------+--------+ 现在，如何使用python/和pyspark只选择那些行，例如，3是

浏览 0提问于2018-06-11得票数 1

回答已采纳

1回答

方法用于PySpark DataFrame的所有行。

python、pyspark、user-defined-functions

浏览 0提问于2018-04-26得票数 0

回答已采纳

5回答

来自自定义模块的函数不是在PySpark中工作，而是在交互模式下输入时工作。

pyspark、pyspark-sql

我已经编写了一个模块，其中包含了在PySpark DataFrames上工作的函数。它们对DataFrame中的列进行转换，然后返回一个新的DataFrame。下面是代码的一个示例，缩短为只包含其中一个函数： from pyspark.sql import functions as F from pyspark.sql import types as t import pandas as pd import numpy as np metadta=pd.DataFrame(pd.read_csv("metadata.csv")) # this contains metad

浏览 6提问于2016-03-10得票数 7

回答已采纳

1回答

如何在没有直接连接列的两个数据帧之间找到最匹配的行？

python、dataframe、pyspark、apache-spark-sql、amazon-emr

对于pyspark数据帧中的每一组坐标，我需要在另一个数据帧中找到最接近的一组坐标我有一个包含坐标数据的pyspark dataframe (dataframe a)： +------------------+-------------------+ | latitude_deg| longitude_deg| +------------------+-------------------+ | 40.07080078125| -74.93360137939453| | 38.704022| -

浏览 22提问于2020-07-20得票数 0

1回答

Pyspark:访问UDF中行中的列

python、pyspark、pyspark-sql

一位尝试理解UDF的pyspark初学者：我有一个PySpark数据帧p_b，我正在调用一个UDF，通过传递数据帧的所有行。我想从行访问列debit。出于某种原因，这种情况并没有发生。请找到下面的代码片段。 p_b has 4 columns, id, credit, debit,sum 功能： def test(row): return('123'+row['debit']) 转换为UDF test_udf=udf(test,IntegerType()) 在dataframe p_b上调用自定义函数 vals=test_udf(struct([p_b

浏览 16提问于2019-08-16得票数 0

1回答

如果列在不同行中的值相等，则合并两行或多行

python、python-3.x、python-2.7、pyspark、spark-graphx

由于数据很大，我必须使用pyspark将不同行中的dataframe值(列表)组合起来。像这样的数据： x = sqlContext.createDataFrame([("A", ['1','2','3']),("B", ['4','2','5','6']),("C", ['2','4','9','10']),("D", ['11',

浏览 3提问于2017-12-28得票数 1

1回答

不能在pyspark中使用python eval()作为pandas udf，但在python udf中使用相同

python、pandas、apache-spark、pyspark、user-defined-functions

我是pyspark中的pandas udf的新手，需要帮助为大型数据帧(>1亿行)中的每一行应用udf。我的dataframe中有一列，其中包含使用dataframe中的列的多个条件。对每一行应用条件的最好方法是使用python eval。当在python udf中使用python eval时，它工作得很好，但是运行起来需要很长时间，因为我有几百万行。同样，在Pandas udf中尝试运行失败时，会抛出Python异常"PythonException:从UDF抛出异常：'TypeError: eval() arg1必须是字符串、字节或代码对象‘“ 示例代码如下，此代码不

浏览 29提问于2021-06-25得票数 0

1回答

用户定义对窗口中所有行的函数

apache-spark、dataframe、apache-spark-sql

我有一组带有一组字符串特征ids的时间戳位置数据，这些ids被附加到每个位置。我想使用spark中的一个窗口将当前N行和下一个N行ala的所有这些特征id字符串的数组连接起来： import sys from pyspark.sql.window import Window import pyspark.sql.functions as func windowSpec = Window \ .partitionBy(df['userid']) \ .orderBy(df['timestamp']) \ .rowsBetween(-50,

浏览 2提问于2017-04-13得票数 1

回答已采纳

2回答

UDF在PySpark中运行两次

python、pyspark、user-defined-functions

我有一个简单的spark，它有两个列，两个字符串；一个名为id，另一个名为name。我还有一个名为string_replacement的Python函数，它可以执行一些字符串操作。我定义了一个包装器UDF，它包含string_replacement并应用于数据帧的每一行。只有name列被传递给字符串操作函数。这是代码 # Import libraries from pyspark.sql import * import pyspark.sql.functions as f from pyspark.sql.types import * # Create Example Dataframe

浏览 0提问于2019-09-17得票数 3

1回答

如何从Pyspark中读取列并在其上应用UDF？

apache-spark、pyspark

我正在创建一个DF，方法是读取Pyspark中的csv文件，然后转换为RDD来应用UDF。它在应用UDF时抛出一个错误。这是我的代码片段- # My UDF definition def my_udf(string_array): // some code // return float_var spark.udf.register("my_udf", my_udf, FloatType()) #Read from csv file read_data=spark.read.format("csv").load("/path/to/

浏览 2提问于2020-02-21得票数 0

回答已采纳

1回答

ID附在数据存储器上

python、pyspark、databricks

我有一个场景，其中我有一个dataframe，其中包含三个列，在该数据文件中的每一行旁边，我需要生成一个ID。很巧，我不能只使用UUID模块，这样做很容易，它必须有6个字符的长度。我在这里找到了一个解决方案，，它解决了这个问题。但是，我面临的问题是，我现在不知道如何遍历dataframe中的行来创建新列。我一直在尝试for循环，但是当它到达末尾时，它会导致错误，例如在dataframe上没有追加等。对于PySpark，我仍然是相当陌生的，我希望能为我的研究找到正确的方向，以帮助我重新取得进展，因为目前我还不确定如何取得进展。提前谢谢。

浏览 10提问于2022-07-06得票数 0

1回答

spark df中有没有可以被applymap替代的函数？

python、pandas、apache-spark、pyspark、google-cloud-dataproc

下面是为pandas df编写的代码，因为内存问题，我不得不转移到PySpark，这就是为什么我需要转换这段代码，以便它可以为spark df执行。我试着直接运行它，但它生成了一个error.What，可以替代PySpark中的以下代码吗？ def units(x): if x <= 0: return 0 if x >= 1: return 1 sets = df.applymap(units) 下面是我得到的错误： AttributeErrorTraceback (most recent call last) <ipyth

浏览 0提问于2020-05-31得票数 1

2回答

给定列的每行下划线数

python、dataframe、pyspark、apache-spark-sql、pyspark-sql

我使用的是火花放电版本1.5.2。我有一个pyspark dataframe，列为"id“，如下所示： id ------------ 000001_128 000123_1_3 006745_8 000000_9_7 我希望在DF的每一行中计数'_‘(下划线)的数量，并执行一个there操作，以便如果字符串中只有一个下划线，我希望添加'_1’作为后缀，否则保留它的值。因此，预期的结果将是： id | new_id ------------------------ 000001_128 | 000001_128_1 000123_1_3 | 00

浏览 1提问于2018-07-20得票数 0

回答已采纳

2回答

如何在同一个文件中从另一个类函数中调用类函数，从而创建吡火花udf？

django、python-3.x、apache-spark、pyspark、user-defined-functions

我在一个基于类的视图中创建了一个pyspark，在另一个基于类的视图中，我拥有了我想要调用的函数，它们都位于同一个文件(api.py)中，但是当我检查由此产生的dataframe的内容时，我会得到以下错误： ModuleNotFoundError: No module named 'api' 我不明白为什么会发生这种情况，我试着在pyspark控制台中做了一个类似的代码，它运行得很好。有一个类似的问题被问到，但区别在于我试图在同一个文件中这样做。这是我的完整代码的一部分：api.py class TextMiningMethods(): def clean_tweet

浏览 2提问于2020-03-22得票数 1

2回答

如何从PySpark DataFrame的列中分离特定的字符并使用它们形成新的列？

apache-spark、pyspark、apache-spark-sql

我对PySpark非常陌生，我真的很难理解如何使用它。在这种情况下，我必须将一个操作应用于PySpark DataFrame，该操作仅由column1组成，如下所示，并返回包含column1、column2和column3的新数据格式。 column1 column2 column3 'A123' '123' 'A' '321B' ---------> '321' 'B' 'C87

浏览 4提问于2020-11-05得票数 0

回答已采纳

2回答

PySpark: DataFrame中给定列的转换值

amazon-s3、pyspark、apache-spark-sql

一般来说，我对PySpark和Spark是个新手。我想在DataFrame中的给定列上应用转换，本质上是为该特定列上的每个值调用一个函数。我的DataFrame df如下所示： df.show() +------------+--------------------+ |version | body | +------------+--------------------+ | 1|9gIAAAASAQAEAAAAA...| | 2|2gIAAAASAQAEAAAAA...| | 3|3gIA

浏览 37提问于2021-09-28得票数 0

回答已采纳

2回答

使用PySpark DataFrame计数列中值列表的出现情况

python、dataframe、apache-spark、pyspark、apache-spark-sql

我有一个PySpark DataFrame，它有一个字符串列text和一个单独的list word_list，我需要计算在每个text行中出现多少个word_list值(可以多次计数)。 df = spark.createDataFrame( [(1,'Hello my name is John'), (2,'Yo go Bengals'), (3,'this is a text') ] , ['id','text'] ) word_list = ['is', '

浏览 1提问于2022-02-10得票数 1

回答已采纳

4回答

ValueError:无法将列转换为bool

apache-spark、pyspark、apache-spark-sql

我正在尝试在dataframe上构建一个新的专栏，如下所示： l = [(2, 1), (1,1)] df = spark.createDataFrame(l) def calc_dif(x,y): if (x>y) and (x==1): return x-y dfNew = df.withColumn("calc", calc_dif(df["_1"], df["_2"])) dfNew.show() 但是，我明白： Traceback (most recent call last): File "

浏览 9提问于2018-01-16得票数 17

回答已采纳

1回答

使用pyspark从每个行的数组中获取不同的计数

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我正在使用pyspark dataframe从每个行的数组中查找不同的计数:输入: col1 1,1,1 1,2,1,2 output: 1 3 2 I used below code but it is giving me the length of an array: output: 3 3 4 please help me how do i achieve this using python pyspark dataframe. slen = udf(lambda s: len(s), IntegerType()) count = Df.withColumn("Coun

浏览 10提问于2020-02-28得票数 1

回答已采纳

2回答

PySpark:如何将行转换为向量？

pyspark、pyspark-sql

我使用三列的dataframe，colA、colB和colC +---+-----+-----+-----+ |id |colA |colB |colC | +---+-----+-----+-----+ | 1 | 5 | 8 | 3 | | 2 | 9 | 7 | 4 | | 3 | 3 | 0 | 6 | | 4 | 1 | 6 | 7 | +---+-----+-----+-----+ 我需要合并colA、colB和colC列，以获得如下所示的新dataFrame： +---+--------------+ |id | colD

浏览 2提问于2017-10-17得票数 2

回答已采纳