腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
从
单个
pyspark
dataframe
返回
多
列
、
、
、
、
我正在尝试解析
单个
列
的columns.My数据帧,并获取具有多个
pyspark
数据帧的数据帧,如下所示:0 1 2 {'d': 1, 'e':2}2 5 6 {'d': 5, 'e': 4} @pandas_u
浏览 40
提问于2020-03-01
得票数 0
回答已采纳
2
回答
将MinMaxScaler应用于
PySpark
中的
多
列
、
、
我想将MinMaxScalar of
PySpark
应用于
PySpark
数据帧df的
多
列
。到目前为止,我只知道如何将其应用于
单个
列
,例如x。from
pyspark
.ml.feature import MinMaxScaler pdf = pd.
DataFrame
({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000对于
PySpark
中
浏览 0
提问于2020-02-18
得票数 17
回答已采纳
1
回答
Pyspark
使用.filter()过滤掉空列表
、
、
、
我有一个
pyspark
dataframe
,其中一
列
填充了列表,要么包含条目,要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import
pyspark
.sql.functions as sf
返回
以下错误:: java.lang.RuntimeException
浏览 17
提问于2017-02-24
得票数 7
回答已采纳
1
回答
如何将电火花
列
(
pyspark
.sql.column.Column)转换为火花放电数据?
、
、
我有一个用例来映射基于条件的
pyspark
列
的元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列
转换为
dataFrame
带有时间戳字符串的
pyspark
列
在验证时间戳格式的基础上,为每个元素创建一个具有布尔值(True
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
1
回答
当输入参数是
从
dataframe
的两
列
连接起来的值时,引发UDF错误
、
、
、
、
下面的python代码将一个csv文件加载到
dataframe
df中,并将一个字符串值
从
df的
单个
或
多
列
发送到UDF函数testFunction(...)。如果我发送一个
列
值,代码就能正常工作。但是,如果我
从
df的两
列
发送值df.address + " " + df.city,则会得到以下错误: Pyt
浏览 6
提问于2022-05-21
得票数 0
回答已采纳
1
回答
如何在
Pyspark
中使用
dataframe
withColumn函数中的函数?
、
、
、
、
因此,如果我调用"function_definition(60,'TEMP')“,它将
返回
'LOW‘。0| 5| 6| 4| 1|+----+-----+-----+---+----+
dataframe
_new =
dataframe
.withColumn(atribute_name, function_
浏览 0
提问于2017-05-30
得票数 1
回答已采纳
1
回答
向类添加功能的最佳方法-
PySpark
、
、
、
、
有一段时间,我在寻找如何将多个
列
一次重命名为一个
PySpark
DF,并遇到了如下情况:def rename_sdf(df, mapper={}, **kwargs_mapper): # return something 我对最后一段感兴趣,其中通过赋值语句将方法添加到
pyspark
.<e
浏览 6
提问于2020-07-09
得票数 1
5
回答
DataFrame
对象没有属性“col”
在“火花:最终指南”中,它说: df.col("count")df = spark.read.for
浏览 2
提问于2018-08-12
得票数 9
1
回答
如何解析
pyspark
中的html文件并使用Beautifulsoup?
、
、
、
、
目前的困境是: 如果我将这些html文件保存在本地,并使用BeautifulSoup来解析html文件,则不会使用
pyspark
的强大功能。
浏览 0
提问于2017-10-23
得票数 2
3
回答
pyspark
:获取
dataframe
的每一
列
中的唯一项
、
我有一个包含一百万行和560
列
的spark数据帧。我需要找到
dataframe
的每一
列
中唯一项的计数。
浏览 9
提问于2016-11-29
得票数 0
2
回答
在中创建StructType的空
列
、
我需要将StructType的空
列
添加到现有的
DataFrame
中。
浏览 0
提问于2018-11-06
得票数 2
回答已采纳
1
回答
PySpark
PCA:如何将数据行
从
多
列
转换为单列DenseVector?
、
、
、
、
我能够将Hive表导入到:>>> hiveContext = HiveContext(sc)>>> type(
dataframe
) <class '
pyspark
.sql.
dataframe
.
Da
浏览 1
提问于2016-10-06
得票数 4
回答已采纳
1
回答
从
星星之火数据中的列表中提取值,而不转换为熊猫
、
、
我非常绿色的火花,所以我把它转换成一个熊猫
DataFrame
,然后使用地图功能,我提取所需的元素。问题是,数据是巨大的,因此这种方法是不可扩展的。让我花时间的是toPandas()命令。是否有
从
每一行访问列表中的值的选项? 谢谢!
浏览 5
提问于2021-12-09
得票数 1
回答已采纳
1
回答
在集群上使用applyInPandas和
PySpark
、
、
、
、
import pandas as pdfrom
pyspark
.sql import SparkSession def func(x): return x pdf = pd.
DataFrame
到目前为止,在设置集群之后,代码将以
单个
内核执行,因此代码将需要appx 8秒才能运行(每个函数都是串联执行的)。slee
浏览 37
提问于2022-10-10
得票数 1
回答已采纳
1
回答
用于显示不带小数点的整数
、
、
在下面的代码中,数据文件的所有
列
都是字符串。其中一
列
用一个小数位存储整数或小数(6.1,4.8,3,9.4,6,...etc.)。但是,一旦将数据加载到
pyspark
dataframe
中,它也会显示带有
单个
小数位(例如3.0)的整数。from
pyspark
.sql import
浏览 7
提问于2022-05-21
得票数 0
1
回答
将
单个
列
拆分为
多
列
Dataframe
PySpark
的最佳方法
、
、
、
、
实际上,我是
PySpark
的初学者,而且我有一个CSV文件,其中大约包含(800万条)记录,我通过
PySpark
将它读取为如下所示的df:此列包含的值作为经纬度时间戳、经纬度时间戳、.现在我想把它分成三
列
,分别作为经度、纬度和时间戳
列
。
浏览 3
提问于2021-04-09
得票数 0
回答已采纳
2
回答
可以
从
Scala调用python函数吗?
、
、
、
、
我正在创建一个火花作业,它要求使用用python编写的函数将
列
添加到
dataframe
中。其余的处理是使用Scala完成的。我已经找到了如何
从
pyspark
调用Java/Scala函数的示例: 我发现用另一种方式发送数据的唯一例子是使用pipe。我是否可以将整个
dataframe
发送到python函数,让函数操作数据并添加其他
列
,然后将结果数据
返回
给调用的Scala函数?如果这是不可能的,我目前的解决方案是运行一个
pyspark</
浏览 3
提问于2017-09-15
得票数 5
1
回答
分组依据列表中的元素
、
、
我是
PySpark
的新手。我创建了spark
dataframe
,并且我有一个" countries“
列
,其中包含国家列表。如何通过存在于国家/地区列表中的
单个
国家/地区来groupBy我的数据帧 +-----------------++-----------------+ | [
浏览 4
提问于2019-10-09
得票数 0
1
回答
如何在下面的代码中传递数组(
多
列
)
、
、
、
如何传递数组列表(
多
列
),而不是使用以下命令在
pyspark
中传递
单个
列
:eg:-filter_list = ['##', '$'] new_df = new_df.filter(new_df.color.isin(*filter_list) == F
浏览 0
提问于2017-11-27
得票数 0
回答已采纳
1
回答
Pyspark
dataframe
从
函数
返回
添加
列
、
我有一个数据框,我想添加
列
。我想从函数结果中随机地将值分配给新
列
的行。就像这样。
浏览 0
提问于2021-09-24
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券