从单个pyspark dataframe返回多列

文章/答案/技术大牛

发布

2回答

、、、、

我正在尝试解析单个列的columns.My数据帧，并获取具有多个pyspark数据帧的数据帧，如下所示：0 1 2 {'d': 1, 'e':2}2 5 6 {'d': 5, 'e': 4} @pandas_u

浏览 40提问于2020-03-01得票数 0

回答已采纳

2回答

将MinMaxScaler应用于PySpark中的多列

、、

我想将MinMaxScalar of PySpark应用于PySpark数据帧df的多列。到目前为止，我只知道如何将其应用于单个列，例如x。from pyspark.ml.feature import MinMaxScaler pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000对于PySpark中

浏览 0提问于2020-02-18得票数 17

回答已采纳

1回答

Pyspark使用.filter()过滤掉空列表

、、、

我有一个pyspark dataframe，其中一列填充了列表，要么包含条目，要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf返回以下错误：: java.lang.RuntimeException

浏览 17提问于2017-02-24得票数 7

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame带有时间戳字符串的pyspark列在验证时间戳格式的基础上，为每个元素创建一个具有布尔值(True&#

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

当输入参数是从dataframe的两列连接起来的值时，引发UDF错误

、、、、

下面的python代码将一个csv文件加载到dataframe df中，并将一个字符串值从df的单个或多列发送到UDF函数testFunction(...)。如果我发送一个列值，代码就能正常工作。但是，如果我从df的两列发送值df.address + " " + df.city，则会得到以下错误： Pyt

浏览 6提问于2022-05-21得票数 0

回答已采纳

1回答

如何在Pyspark中使用dataframe withColumn函数中的函数？

、、、、

因此，如果我调用"function_definition(60，'TEMP')“，它将返回'LOW‘。0| 5| 6| 4| 1|+----+-----+-----+---+----+dataframe_new = dataframe.withColumn(atribute_name, function_

浏览 0提问于2017-05-30得票数 1

回答已采纳

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper): # return something 我对最后一段感兴趣，其中通过赋值语句将方法添加到pyspark.<e

浏览 6提问于2020-07-09得票数 1

5回答

DataFrame对象没有属性“col”

在“火花:最终指南”中，它说： df.col("count")df = spark.read.for

浏览 2提问于2018-08-12得票数 9

1回答

如何解析pyspark中的html文件并使用Beautifulsoup？

、、、、

目前的困境是：如果我将这些html文件保存在本地，并使用BeautifulSoup来解析html文件，则不会使用pyspark的强大功能。

浏览 0提问于2017-10-23得票数 2

3回答

pyspark:获取dataframe的每一列中的唯一项

、

我有一个包含一百万行和560列的spark数据帧。我需要找到dataframe的每一列中唯一项的计数。

浏览 9提问于2016-11-29得票数 0

2回答

在中创建StructType的空列

、

我需要将StructType的空列添加到现有的DataFrame中。

浏览 0提问于2018-11-06得票数 2

回答已采纳

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我能够将Hive表导入到：>>> hiveContext = HiveContext(sc)>>> type(dataframe) <class 'pyspark.sql.dataframe.Da

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

从星星之火数据中的列表中提取值，而不转换为熊猫

、、

我非常绿色的火花，所以我把它转换成一个熊猫DataFrame，然后使用地图功能，我提取所需的元素。问题是，数据是巨大的，因此这种方法是不可扩展的。让我花时间的是toPandas()命令。是否有从每一行访问列表中的值的选项？谢谢!

浏览 5提问于2021-12-09得票数 1

回答已采纳

1回答

在集群上使用applyInPandas和PySpark

、、、、

import pandas as pdfrom pyspark.sql import SparkSession def func(x): return x pdf = pd.DataFrame到目前为止，在设置集群之后，代码将以单个内核执行，因此代码将需要appx 8秒才能运行(每个函数都是串联执行的)。slee

浏览 37提问于2022-10-10得票数 1

回答已采纳

1回答

用于显示不带小数点的整数

、、

在下面的代码中，数据文件的所有列都是字符串。其中一列用一个小数位存储整数或小数(6.1,4.8,3,9.4,6，...etc.)。但是，一旦将数据加载到pyspark dataframe中，它也会显示带有单个小数位(例如3.0)的整数。from pyspark.sql import

浏览 7提问于2022-05-21得票数 0

1回答

将单个列拆分为多列Dataframe* PySpark的最佳方法*

、、、、

实际上，我是PySpark的初学者，而且我有一个CSV文件，其中大约包含(800万条)记录，我通过PySpark将它读取为如下所示的df：此列包含的值作为经纬度时间戳、经纬度时间戳、.现在我想把它分成三列，分别作为经度、纬度和时间戳列。

浏览 3提问于2021-04-09得票数 0

回答已采纳

2回答

我正在创建一个火花作业，它要求使用用python编写的函数将列添加到dataframe中。其余的处理是使用Scala完成的。我已经找到了如何从pyspark调用Java/Scala函数的示例：我发现用另一种方式发送数据的唯一例子是使用pipe。我是否可以将整个dataframe发送到python函数，让函数操作数据并添加其他列，然后将结果数据返回给调用的Scala函数？如果这是不可能的，我目前的解决方案是运行一个pyspark</

浏览 3提问于2017-09-15得票数 5

1回答

分组依据列表中的元素

、、

我是PySpark的新手。我创建了spark dataframe，并且我有一个" countries“列，其中包含国家列表。如何通过存在于国家/地区列表中的单个国家/地区来groupBy我的数据帧 +-----------------++-----------------+ | [

浏览 4提问于2019-10-09得票数 0

1回答

如何在下面的代码中传递数组(多列)

、、、

如何传递数组列表(多列)，而不是使用以下命令在pyspark中传递单个列：eg:-filter_list = ['##', '$'] new_df = new_df.filter(new_df.color.isin(*filter_list) == F

浏览 0提问于2017-11-27得票数 0

回答已采纳

1回答

Pyspark dataframe从函数返回添加列

、

我有一个数据框，我想添加列。我想从函数结果中随机地将值分配给新列的行。就像这样。

浏览 0提问于2021-09-24得票数 1

点击加载更多