如何在pyspark中使用pandas_udf拆分dataframe中的字符串_拆分pyspark dataframe中的Array列_在pyspark中使用pandas_udf中的外部库 - 腾讯云开发者社区

string、pyspark、user-defined-functions

我只有一列的dataframe。我想使用pyspark中的pandas_udf拆分字符串。因此，我有以下代码： from pyspark.sql.functions import pandas_udf, PandasUDFType @pandas_udf('str') def split_msg(string): msg_ = string.split(" ") return msg_ temp = temp.select("_c6").withColumn("decoded", split_msg(temp._c

浏览 17提问于2019-10-03得票数 0

回答已采纳

2回答

在StringType中将ArrayType转换为PySpark

python、apache-spark、dataframe、pyspark、rdd

我正试图在我的数据集上运行PySpark中的PySpark算法。 from pyspark.ml.fpm import FPGrowth fpGrowth = FPGrowth(itemsCol="name", minSupport=0.5,minConfidence=0.6) model = fpGrowth.fit(df) 我得到了以下错误： An error occurred while calling o2139.fit. : java.lang.IllegalArgumentException: requirement failed: The input col

浏览 0提问于2018-04-05得票数 2

回答已采纳

1回答

如何在火花放电群中使用UDF？

apache-spark、pyspark、apache-spark-sql、spark-koalas

我很难在火星雨上使用熊猫的UDF。你能帮我理解一下这是如何实现的吗？以下是我的尝试： import pyspark from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf from pyspark import pandas as ps spark = SparkSession.builder.getOrCreate() df = ps.DataFrame({'A': 'a a b'.split(), 'B&#

浏览 4提问于2021-10-27得票数 1

回答已采纳

1回答

带有PySpark 2.4的Pandas UDF

pandas、apache-spark、pyspark、apache-spark-sql

我正在尝试基于下面的spark文档使用PySpark 2.4，pyarrow版本0.15.0和pandas版本0.24.2执行pandas_udf，在调用pandas_udf函数时有问题。 import pandas as pd from pyspark.sql.functions import col, pandas_udf from pyspark.sql.types import LongType # Declare the function and create the UDF def multiply_func(a, b): return a * b multiply

浏览 1提问于2020-11-06得票数 0

2回答

pandas_udf在两个ArrayType(StringType())字段上操作

arrays、pyspark、user-defined-functions

我写了一本UDF。它非常慢。我想用pandas_udf代替它，以利用矢量化的优势。实际的udf有点复杂，但我已经创建了一个简化的玩具版本。我的问题是:在我的玩具示例中，是否有可能用一个利用向量化的pandas_udf替换UDF？若否，原因为何？我知道没有UDF我也能达到同样的效果。这是因为我简化了这个例子，但这不是我的目标。 from pyspark.sql import functions as f from pyspark.sql.types import ArrayType, StringType import pandas as pd #Example data df = sp

浏览 0提问于2019-09-05得票数 3

回答已采纳

2回答

如何在pyspark pandas_udf中记录/打印消息？

pandas、apache-spark、pyspark、user-defined-functions

我已经测试过logger和print都不能在pandas_udf中打印消息，无论是集群模式还是客户机模式。测试代码： import sys import numpy as np import pandas as pd from pyspark.sql import SparkSession from pyspark.sql.functions import * import logging logger = logging.getLogger('test') spark = (SparkSession .builder .appName('test')

浏览 0提问于2019-07-24得票数 6

1回答

如何在火花放电中计算指数加权移动平均

python、apache-spark、pyspark、apache-spark-sql

我试图使用分组Map在PySpark中运行指数加权移动平均。但是，它不起作用： def ExpMA(myData): from pyspark.sql.functions import pandas_udf from pyspark.sql.functions import PandasUDFType from pyspark.sql import SQLContext df = myData group_col = 'Name' sort_col = 'Date' schema = df.sele

浏览 0提问于2018-04-30得票数 3

1回答

熊猫用户定义函数Py4JJavaError

python、pandas、apache-spark、pyspark、user-defined-functions

我已经开始使用@pandas_udf来处理pyspark，在使用文档中的示例进行测试时，我发现了一个我无法解决的错误。我正在运行的代码是： from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf, PandasUDFType spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame( [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],

浏览 1提问于2020-05-12得票数 1

回答已采纳

2回答

火花放电drop_duplicates(keep=False)

python、pandas、pyspark、duplicates

我需要一个用于潘达斯 drop_duplicates(keep=False)的解决方案。不幸的是，keep=False选项无法在pyspark中使用..。 Pandas示例： import pandas as pd df_data = {'A': ['foo', 'foo', 'bar'], 'B': [3, 3, 5], 'C': ['one', 'two', 'three']} df = pd.DataFra

浏览 1提问于2019-01-09得票数 1

回答已采纳

1回答

基于火花放电的整列计算统计量

apache-spark、statistics、pyspark

我试图使用PySpark注释将一个发行版安装到整个pandas_udf列中。 therefore将该列拆分为较小的块，因此我无法获得基于整个人口的分布(该列的所有值)。这是我使用的代码： from pyspark.sql import Row import pandas as pd import numpy as np import scipy.stats as st l = [('a',0),('b',0.1),('c',0.2),('d',0.3),('e',0.4),('f',0.5)] r

浏览 0提问于2018-02-15得票数 0

回答已采纳

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

apache-spark、pyspark、apache-spark-sql

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。尝试使用...TypeError: Invalid argument, not a string or column: -5 of type <class 'int'>. For column literals, use 'lit', 'array', 'struct' or 'create_map' fu

浏览 4提问于2021-08-19得票数 0

回答已采纳

1回答

在Palantir铸造代码库中定义Pandas UDF的正确方法是什么？

python、pandas、pyspark、palantir-foundry

我想在Palantir Foundry代码库中定义以下pandas_udf。 @pandas_udf("long", PandasUDFType.GROUPED_AGG) def percentile_95_udf(v): return v.quantile(0.95) 但是，当我试图在全局范围内定义这个udf时，我会得到以下错误： AttributeError: 'NoneType' object has no attribute '_jvm' 但是，如果我在转换调用的函数中定义了相同的函数，则代码运行良好，如下所示： from pys

浏览 2提问于2021-03-02得票数 1

回答已采纳

1回答

我可以给熊猫发送一个火花数据作为论据吗？

python、pandas、dataframe、apache-spark、pyspark

是否有可能发送一个火花数据作为一个论据给熊猫UDF和得到一个熊猫的数据作为回报。下面是我正在使用的示例代码集，并且在调用函数时出错： import pandas as pd from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf spark = SparkSession \ .builder \ .appName("PrimeBatch") \ .master("local[*]") \ .getOrCreate()

浏览 4提问于2020-11-26得票数 1

回答已采纳

1回答

PySpark:带有标量Pandas的无效returnType

apache-spark、pyspark、apache-arrow

我正在尝试从pandas_udf返回一个特定的结构。它在一个集群上工作，但在另一个集群上失败。我尝试在组上运行udf，这需要返回类型为数据框架。 from pyspark.sql.functions import pandas_udf import pandas as pd import numpy as np from pyspark.sql.types import * schema = StructType([ StructField("Distance", FloatType()), StructField("CarId", IntegerTy

浏览 2提问于2018-03-26得票数 5

回答已采纳

1回答

在PySpark Pandas UDF中指定用户定义函数的正确方法

python、pandas、apache-spark、pyspark、user-defined-functions

我使用的是pyspark 2.4.2，所以对于这个版本的docs，可以这样做来创建一个GROUPED_MAP： from pyspark.sql.functions import pandas_udf, PandasUDFType df = spark.createDataFrame([(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],("id", "v")) @pandas_udf(returnType="id long, v double", functionType=PandasUDF

浏览 11提问于2021-01-08得票数 0

回答已采纳

1回答

StructType中熊猫UDF在火花放电中的应用及返回结果

python、pandas、pyspark

我怎样才能驱动一个列的基础上熊猫-udf在火星雨。我编写了以下udf： from pyspark.sql.functions import pandas_udf, PandasUDFType @pandas_udf("in_type string, in_var string, in_numer int", PandasUDFType.GROUPED_MAP) def getSplitOP(in_data): if in_data is None or len(in_data) < 1: return None #Input/varia

浏览 1提问于2019-02-22得票数 4

5回答

如何修复"ImportError: PyArrow >= 0.8.0必须安装；但是，没有找到“？

apache-spark、pyspark、pyspark-sql

我使用PySpark 2.4.0并在pyspark中执行以下代码 $ ./bin/pyspark Python 2.7.16 (default, Mar 25 2019, 15:07:04) ... Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.4.0 /_/ Using Python version 2.7.16 (default, Mar 25

浏览 6提问于2019-03-27得票数 4

回答已采纳

2回答

计算PySpark中每一行的唯一值

apache-spark、pyspark、count、unique、user-defined-functions

我有PySpark DataFrame： from pyspark.sql.types import * schema = StructType([ StructField("col1", StringType()), StructField("col2", StringType()), StructField("col3", StringType()), StructField("col4", StringType()), ]) data = [("aaa", "aab", &

浏览 6提问于2022-10-17得票数 1

回答已采纳

4回答

在PySpark中对GroupedData应用UDF(带功能python示例)

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我有一段python代码，它在本地运行在一个pandas数据帧中： df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name)) 我想在PySpark中运行它，但在处理pyspark.sql.group.GroupedData对象时遇到了问题。我尝试过以下几种方法： sparkDF .groupby('A') .agg(myFun

浏览 1提问于2016-10-13得票数 43

1回答

如何在结构化查询中使用scikit学习模型？

apache-spark、scikit-learn、pyspark、spark-structured-streaming

我正在尝试将使用泡菜检索的scikit模型应用于结构化流数据流的每一行。我尝试过使用pandas_udf (版本1)，它给了我这个错误： AttributeError: 'numpy.ndarray' object has no attribute 'isnull' 代码： inputPath = "/FileStore/df_training/streaming_df_1_nh_nd/" from pyspark.sql import functions as f from pyspark.sql.types import * data_s

浏览 4提问于2019-11-20得票数 1

回答已采纳

1回答

pandas_udf错误RuntimeError:来自pandas_udf的结果向量不是所需的长度:预期长度为12，实际长度为35

python、apache-spark、pyspark

我在下面的代码中遇到了pandas_udf错误。代码是创建一个基于另一列的数据类型的列。相同的代码适用于正常的较慢的udf (注释掉)。基本上，任何比"string"+data更复杂的东西都会返回一个错误。 # from pyspark.sql.functions import udf import pyspark.sql.types from pyspark.sql.functions import pandas_udf, PandasUDFType @pandas_udf(returnType=pyspark.sql.types.StringType(), functi

浏览 109提问于2019-11-28得票数 3

回答已采纳

2回答

熊猫PySpark数据行的udf循环

pandas、dataframe、apache-spark、pyspark、user-defined-functions

我正在尝试使用pandas_udf，因为我的数据在一个PySpark数据中，但是我想使用一个熊猫库。我有很多行，所以我不能将我的PySpark数据转换成Pandas数据。我使用文本距离(pip3 install textdistance)并导入它：import textdistance。 test = spark.createDataFrame( [('dog cat', 'dog cat'), ('cup dad', 'mug'),], ['value1', 'value2&

浏览 4提问于2021-02-12得票数 3

回答已采纳

2回答

使用部分函数的pyspark pandas_udf出错

python-3.x、pyspark、pandas-groupby、user-defined-functions

我定义了一个pandas udf函数，并希望将除pandas.Series或pandas.DataFrame之外的其他参数传递给udf函数。我想使用partial函数来做这件事，但它出错了。我的代码如下： from functools import partial from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf, PandasUDFType conf = SparkConf().setM

浏览 15提问于2019-12-18得票数 0

回答已采纳

1回答

利用ImageSchema从PySpark中应用主成分分析

python-3.x、pandas、apache-spark、pyspark、jupyter-notebook

浏览 7提问于2020-06-30得票数 2

2回答

将包含最近vaues的列添加到PySpark Dataframe

python、dataframe、pyspark、pyspark-sql、pyspark-dataframes

浏览 4提问于2019-10-11得票数 3

回答已采纳

1回答

如何将来自RDD.mapPartitions()的Pandas数据帧转换为Spark DataFrame？

python、pandas、apache-spark、pyspark

我有一个Python函数，它返回一个Pandas DataFrame。我在Spark2.2.0中使用pyspark的调用这个函数。但是我不能将mapPartitions()返回的RDD转换为Spark DataFrame。Pandas会生成此错误： ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all(). 说明问题的简单代码： import pandas as pd def func(data): pdf = pd.Data

浏览 11提问于2018-01-31得票数 3

回答已采纳

1回答

PySpark UDF到Pandas用于扎列

apache-spark、pyspark、apache-spark-sql、user-defined-functions、pandas-udf

我确实有一个用于大型数据集的较慢的UDF，我试图通过利用和所有搜索和官方文档来提高执行时间和可伸缩性，我已经使用了更多的标量和映射方法，但是我没有扩展到系列或熊猫数据收集方法，你能给我指出正确的方向吗？我确实想并行地做，而当前的UDF方法非常慢，因为它是一个接一个的记录，其他解决方案是在考拉中完成的，但我宁愿把它作为火星气管道中自定义转换器的一部分：以下列出的UDF方法(工作方法)： from pyspark import keyword_only from pyspark.ml import Transformer from pyspark.ml.param.shared imp

浏览 9提问于2022-01-26得票数 0

1回答

使用apply对pyspark中的分组数据帧运行函数

python-3.x、apache-spark、pyspark

我有一个Python脚本，我正在尝试将其转换为pyspark，我有一个在Python中运行在pd.DataFrame上的函数func，并返回一个列表列表。例如： [[14],[2,3]] 在python中，我最终在一个分组的pd.Dataframe上运行它，并且是这样运行的： data.groupby('CUSTOMER_ID').apply(func) 输出是一个索引为CUSTOMER_ID的pd.Series，每个元素都是与每个CUSTOMER_ID相关的列表的列表例如： CUSTOMER_ID 123 [[14], [2, 3]]

浏览 30提问于2020-03-03得票数 0

回答已采纳

1回答

无法在数据库中使用Pandas

python、pandas、apache-spark、pyspark、databricks

我必须运行一个以几个参数作为输入并返回一些结果作为输出的脚本，所以首先我在本地机器中开发了它--工作正常--现在我的目标是在Databricks中运行它，以便并行化它。当我试图将它并行化时，问题就出现了。我从已经挂载的Datalake中获取数据(问题不在那里，因为在读取DataFrame之后我能够打印它)，将其转换为Spark，并将每一行传递给按材料分组的主要函数： import pandas as pd import os import numpy as np import scipy.stats as stats from pyspark.sql import SparkSession

浏览 4提问于2021-04-16得票数 0

回答已采纳

2回答

使用Pandas矢量化UDF的Spark 3

apache-spark、pyspark、apache-spark-sql

我正在考虑在PySpark (v3)中使用Pandas UDF。由于许多原因，我知道迭代和自定义定义函数通常是不好的，我也知道我在这里展示的简单示例可以使用SQL函数来完成PySpark -所有这些都不是重点！我一直在遵循这个指南：https://databricks.com/blog/2020/05/20/new-pandas-udfs-and-python-type-hints-in-the-upcoming-release-of-apache-spark-3-0.html 我有一个来自文档的简单示例： import pandas as pd from typing import It

浏览 19提问于2020-06-30得票数 0

回答已采纳

1回答

为什么我的应用程序不从pandas_udf和PySpark+Flask开始呢？

pandas、flask、pyspark

当我的Flask+PySpark应用程序有一个带有@udf或@pandas_udf注释的函数时，它将不会启动。如果我简单地删除注释，它就会启动。如果我尝试用烧瓶启动我的应用程序，就会执行脚本的第一次词法解释。例如，调试器在导入行(如从pyspark.sql.functions导入pandas_udf、udf、PandasUDFType )处停止。但是，根本没有执行任何语句，包括最初的app = Flask(name)语句。(这会是某种隐藏的例外吗？)如果我在没有烧瓶的情况下启动我的应用程序，具有相同的精确功能和相同的导入，它就会工作。这些是进口品： from pyspark.sql impo

浏览 5提问于2018-11-14得票数 3

2回答

如何在Pyspark中将阿拉伯文本(٠٤-٢٥-٢٠٢١)中的日期时间解析为英语日期

python、apache-spark、pyspark

我正在读取包含一些日期列的JSON文件。问题是某些日期列包含阿拉伯语/乌尔都语文本的日期： ٠٤-٢٥-٢٠٢١ 我想把它转换成yyyy-mm-dd格式的英文日期。如何在Pyspark中实现这一点？

浏览 40提问于2021-09-11得票数 5

回答已采纳

1回答

pyspark.sql 'pandas_udf()‘函数之前的冒号(:)？

python、pyspark、pyspark-sql

在pyspark.sql模块的apply()文档中，在函数'pandas_udf()‘之前提供了包含冒号的代码。这意味着什么，为什么包括在内？我在运行这一行时会遇到语法错误。文档中的代码如下。这是一个。显然，运行代码给了我一个语法错误。也试过移除冒号，但没有运气。 from pyspark.sql.functions import pandas_udf, PandasUDFType df = spark.createDataFrame( [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)], ("id"

浏览 0提问于2019-07-24得票数 1

回答已采纳

1回答

如何将参数传递给使用applyInPandas的函数？

pyspark

我有一个由两列组成的dataframe。我使用一个函数作为udf，并使用applyInPandas在pyspark中运行该函数。下面是代码 import pandas as pd from pyspark.sql.functions import pandas_udf, ceil df = spark.createDataFrame( [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)], ("id", "v")) def normalize(pdf): v = pdf.v

浏览 19提问于2022-09-06得票数 1

回答已采纳

1回答

GroupBy与ApplyInPandas in PySpark -如何正确地实现UDF？

apache-spark、pyspark、apache-spark-sql

我正在尝试使用PandasUDF in PySpark来查找层次结构中的“最长唯一尾”。例如，如果我的输入是： 1.2 1.2.3 那么最长的尾巴是'1.2.3‘ 我还可能有多个唯一集，例如： 1.2 1.2.3 5.6.7 5.6 在这种情况下，输出应该是： 1.2.3 5.6.7 我使用的方法是：对输入进行排序，以便像列出行一样，以便如果下一行中“包含”上一行，则可以筛选出它并只返回最长的唯一行。示例输入： 1.2.3 5.6.7 5.6 1.2 排序如下： 1.2 1.2.3 5.6 5.6.7 当我在线过滤线路时，我的输出应该是 1.2.3 5.6.7 我试过两种方法。首

浏览 5提问于2021-12-11得票数 1

2回答

PySpark SQL中的用户定义聚合函数

pandas、apache-spark、pyspark、apache-spark-sql、user-defined-functions

如何在PySpark SQL中实现用户定义的聚合函数？ pyspark version = 3.0.2 python version = 3.7.10 作为一个最小的例子，我想用一个UDAF替换AVG聚合函数： sc = SparkContext() sql = SQLContext(sc) df = sql.createDataFrame( pd.DataFrame({'id': [1, 1, 2, 2], 'value': [1, 2, 3, 4]})) df.createTempView('df') rv = sql.sql(

浏览 24提问于2021-03-09得票数 4

回答已采纳

1回答

Pandas UDF功能中未识别的功能

python、pyspark、user-defined-functions

我正在使用Pandas上的火星之火。我有一个主文件__main_.py，包含： from pyspark.sql import SparkSession from run_udf import compute def main(): spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame( [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)], ("id", "v"))

浏览 1提问于2020-05-10得票数 3

2回答

毫升起火花放电作用

python、pandas、apache-spark、pyspark、apache-spark-sql

我对火种和蟒蛇有点陌生。我正在尝试将ML函数作为pyspark运行。下面是一个示例： from pyspark.sql.functions import col, pandas_udf from pyspark.sql.types import StringType df = spark.createDataFrame(['Bob has a dog. He loves him'], StringType()) def parse(text): import spacy import neuralcoref nlp = spacy.load(

浏览 2提问于2020-06-16得票数 5

3回答

可以在纯Spark中使用吗？

pyspark、apache-spark-sql

这样做是可行的： from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf import pandas as pd spark = SparkSession.builder.getOrCreate() @pandas_udf(returnType="long") def add_one(v: pd.Series) -> pd.Series: return v.add(1) spark.udf.register("add_one", add

浏览 10提问于2021-10-18得票数 6

回答已采纳

1回答

如何使用带有多个源列的pandas_udf向pyspark DF添加多列？

python、pyspark、user-defined-functions

浏览 3提问于2021-01-14得票数 1

2回答

PySpark pandas_udfs java.lang.IllegalArgumentException误差

pandas、apache-spark、pyspark、pyarrow

有谁有在运行在Windows上的本地pyspark会话上使用的经验吗？我在linux上使用过它们，取得了很好的效果，但是在我的Windows机器上没有成功。环境： python==3.7 pyarrow==0.15 pyspark==2.3.4 pandas==0.24 java version "1.8.0_74" 示例脚本： from pyspark.sql.functions import pandas_udf, PandasUDFType from pyspark.sql import SparkSession spark = SparkSession.builde

浏览 0提问于2020-02-19得票数 8

回答已采纳

1回答

将ValueError应用于分组pandas_udf时

dataframe、apache-spark、pyspark、group-by、apache-spark-sql

示例PySpark Dataframe：join_df +----------+----------+-------+---------+----------+----------+ | ID| ds| y| yhat|yhat_upper|yhat_lower| +----------+----------+-------+---------+----------+----------+ | Ax849b|2021-07-01|1165.59| 1298.809| 1939.1261| 687.48206| | Ax849b|2021

浏览 9提问于2022-04-22得票数 0

1回答

PySpark + AWS : df.count()需要很长时间才能完成

apache-spark、pyspark、amazon-emr

我使用动作count()来触发我的udf函数来运行。这是可行的，但是在我的udf函数运行完成很久之后，df.count()需要几天的时间才能完成。dataframe本身并不大，大约有30k到100 k行。 AWS群集设置： 1 m5.4xlarge用于主节点2 m5.4xlarge用于工作节点。火花变量&设置(这些是用于运行脚本的火花变量) --executor-cores 4 spark.sql.execution.arrow.enabled=true -conf 'spark.sql.inMemoryColumnarStorage.batchSize'，20000

浏览 4提问于2020-07-13得票数 1

1回答

ArrayType pandas_udf中的不正确元素

apache-spark、pyspark、apache-spark-sql、user-defined-functions

我正在使用Spark2.3.0，并在我的Pyspark代码中尝试pandas_udf用户定义的函数。根据的说法，目前支持ArrayType。我的用户定义的功能是： def transform(c): if not any(isinstance(x, (list, tuple, np.ndarray)) for x in c.values): nvalues = c.values else: nvalues = np.array(c.values.tolist()) tvalues = some_external_function(nval

浏览 1提问于2018-07-20得票数 2

2回答

要应用于PySpark中的窗口的用户定义函数？

apache-spark、pyspark、aggregate-functions、user-defined-functions、window-functions

我正在尝试将用户定义的函数应用于PySpark中的窗口。我读到过UDAF可能是可行的，但我找不到任何具体的东西。举个例子(取自此处：，并针对PySpark进行了修改)： from pyspark import SparkConf from pyspark.sql import SparkSession from pyspark.sql.window import Window from pyspark.sql.functions import avg spark = SparkSession.builder.master("local").config(conf=Spark

浏览 0提问于2018-01-09得票数 11

回答已采纳

1回答

在CSV文件中处理JSON对象并保存到PySpark DataFrame

python、json、csv、pyspark、apache-spark-sql

我有一个CSV文件，它包含JSON对象以及其他数据，比如String，Integer。如果我尝试将文件读取为CSV，那么JSON对象将在其他列中重叠。 Column1, Column2, Column3, Column4, Column5 100,ABC,{"abc": [{"xyz": 0, "mno": "h"}, {"apple": 0, "hello": 1, "temp": "cnot"}]},foo, pine 101,XYZ,{"xyz&#

浏览 2提问于2020-09-23得票数 1

1回答

grouped_agg : pandas_udf，Pyspark的多个参数

python、pandas、pyspark、user-defined-functions

我正在尝试应用一个带有两个参数的pandas_udf。但是我得到了这个错误。首先，我尝试使用一个参数，它是可以的： from pyspark.sql.functions import pandas_udf, PandasUDFType from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession \ .builder \ .config('spark.cores.max', 100) \ .getOrCreat

浏览 24提问于2018-12-19得票数 3

1回答

不能在pyspark中使用python eval()作为pandas udf，但在python udf中使用相同

python、pandas、apache-spark、pyspark、user-defined-functions

我是pyspark中的pandas udf的新手，需要帮助为大型数据帧(>1亿行)中的每一行应用udf。我的dataframe中有一列，其中包含使用dataframe中的列的多个条件。对每一行应用条件的最好方法是使用python eval。当在python udf中使用python eval时，它工作得很好，但是运行起来需要很长时间，因为我有几百万行。同样，在Pandas udf中尝试运行失败时，会抛出Python异常"PythonException:从UDF抛出异常：'TypeError: eval() arg1必须是字符串、字节或代码对象‘“ 示例代码如下，此代码不

浏览 29提问于2021-06-25得票数 0

1回答

当我使用UDF操作一个列时，它有一个问题

pandas、pyspark、user-defined-functions

当我使用UDF处理一列时，我不确定UDF处理是不是从这一列逐个处理元素？如果是的话，我不明白为甚麽会有问题。 import pyspark.sql.types as typ from pyspark.sql.functions import udf,pandas_udf, PandasUDFType def parse_model(v): return v.split(' ') Parse_model=pandas_udf(parse_model,typ.ArrayType(typ.StringType(),True)) sample_data_df.withColu

浏览 14提问于2019-05-20得票数 0

回答已采纳

1回答

对udf函数调用.agg时抛出错误

python、apache-spark、pyspark

我正在尝试将LinearRegression应用于已生成的设置箱。包含bin的DataFrame目前看起来像DataFramefeatures: vector，trip_duration: int，prediction: double。该存储箱被标记为预测。目前，我的代码如下所示 predictions = crossval.fit(trainingData).transform(trainingData) ''' DataFrame[features: vector, trip_duration: int, prediction: doub

浏览 63提问于2019-10-07得票数 0

回答已采纳