腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
列
中
的
访问
名
、
、
、
、
我需要一些帮助来
访问
列
中
的
名称。nullable = true) | | | |-- value: double (nullable = true) 通过使用 cols = df.columns 我将获得根级别的所有名称
的
列表但是,我想
访问
其中
的
名称,例如'array_1‘。使用 df.id_1.columns 简单地返回 Column<b'array_1[columns]'> 没有名字。有没有办法
浏览 17
提问于2021-09-08
得票数 0
回答已采纳
1
回答
访问
PySpark
数据帧
中
的
特定项目
、
、
如何
访问
PySpark
数据帧
中
某
列
的
某个索引处
的
值?例如,我想
访问
一个名为"Category“
的
列
的
索引5处
的
值。我如何在
PySpark
语法
中
做到这一点呢?
浏览 2
提问于2018-03-07
得票数 10
回答已采纳
2
回答
从
Pyspark
Dataframe
列
提取文件扩展
名
、
、
我有一个带有
列
FullPath
的
pyspark
数据帧。谢谢。
浏览 0
提问于2018-03-19
得票数 2
2
回答
PySpark
:如何在
列
中
或
列
中分组
、
我想在
PySpark
中进行分组,但是这个值可以出现在多个
列
中
,所以如果它出现在所选
列
中
的
任何一
列
中
,那么它将被分组。例如,如果我将这个表放在
Pyspark
中
:我想总结一下每个身份证
的
访问
和投资,结果是:请注意,ID1是前三
列
中有ID1
的
行0、1、3
的
总和,ID1
访问
= 500 + 100
浏览 4
提问于2019-09-20
得票数 1
回答已采纳
2
回答
从列表
中
添加
列
的
pySpark
、
、
、
、
我有一个数据文件
名
,并希望根据列表
中
的
值向它添加
列
。 我
的
值列表将从3-50个值变化。我是
pySpark
新手,我试图将这些值作为新
列
(空)附加到我
的
df
中
。我看到了关于如何将一
列
添加到dataframe
中
的
推荐代码,而不是从列表
中
添加多
列
的
代码。, 'ConformedLeaseRecoveryTypeName
浏览 2
提问于2020-05-12
得票数 1
回答已采纳
1
回答
如何根据行
的
内容拆分
pyspark
数据
、
、
、
、
我想根据DataFrame中一行
的
第一个字符来分割文件。原始数据有一
列
,数据包括输入样例文件(
Pyspark
):我想要一个DataFrame文件名作为数据
的
分割。文件
名
放在DataFrame
的
column2
中
浏览 3
提问于2019-10-10
得票数 1
回答已采纳
1
回答
PySpark
-从文件夹
中
的
每个文件返回第一行
、
我在Azure上
的
一个文件夹中有多个.csv文件。使用
PySpark
,我试图创建一个有两个
列
(文件
名
和第一行)
的
dataframe,文件
名
和第一行是为文件夹
中
的
每个文件捕获
的
。我是
PySpark
的
新手,所以我还不了解基本知识,所以我希望得到任何帮助。
浏览 2
提问于2022-08-30
得票数 0
回答已采纳
1
回答
pyspark
.sql.utils.IllegalArgumentException
、
、
sample_files/column_containing_JSON_data.csv :来自F:/spark/sample_files/column_containing_JSON_data.csv
的
路径
名
pyspark
.sql.utils.IllegalArgumentException不是一个有效
的
pyspark
.sql.utils.IllegalArgumentException文件
名
。我给出了本地输入文件路径(如下所示),但它正在尝试<
浏览 2
提问于2021-07-23
得票数 0
5
回答
DataFrame对象没有属性“col”
在“火花:最终指南”
中
,它说: df.col("count")我上<e
浏览 2
提问于2018-08-12
得票数 9
1
回答
windowPartitionBy和
pyspark
中
的
重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么
的
吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
2
回答
如何从dataframe
列
获得带有父文件夹
的
文件
名
、
、
、
我使用
的
是电火花作为代码语言。我添加了
列
以获得带有路径
的
文件
名
。from
pyspark
.sql.functions import input_file_name我只想从这个
列
中
检索带有它
的
父文件夹
的
文件
名
。示例: Inputfilename = "adl:/
浏览 2
提问于2018-05-17
得票数 7
回答已采纳
1
回答
在df.toPandas().to_csv('mycsv.csv')之后,数据在重新读取时会被混淆
、
、
我有一张名叫result_25
的
桌子。我使用此代码成功地将数据导出到磁盘上
的
csv。但是,当我用.describe() .describe().show()检查我
的
.show和rr时,它们显示
的
不同(我以为它们是相同
的
)。 这里怎么了?
浏览 3
提问于2018-10-01
得票数 2
回答已采纳
1
回答
如何
访问
用户添加
的
元数据?
、
、
我创建了一个dataframe,并在其中
的
一个
列
中
添加了一些元数据。import pandas as pd df=df.withColumn('a',col('a').alia
浏览 4
提问于2022-02-14
得票数 0
回答已采纳
1
回答
统计SPARKSQL
中
的
重复行数
、
、
、
我有一个要求,我需要计算配置单元表
的
SparkSQL
中
的
重复行数。from
pyspark
import SparkContext, SparkConffrom
pyspark
.sql.typesHiveContext(sc)到目前为止,我已经硬编
浏览 3
提问于2018-02-01
得票数 11
回答已采纳
1
回答
动态填充
中
的
列名
、
、
、
我正在开发一个动态脚本,它可以join任何给定
的
pyspark
。问题是文件
中
的
列名会发生变化&连接条件
的
数目可能会有所不同。我可以在一个循环中处理这个问题,但是我使用一个变量
名
执行连接,它失败了。(我
的
目的是根据文件结构和联接条件动态填充a和b或更多
列
)a="existingFile.Id" unChangedRecords = existingFile.
浏览 2
提问于2018-02-24
得票数 0
回答已采纳
1
回答
如何降低ArrayType或MapType
列
中
PySpark
中元素名称
的
大小写?
、
、
我试图降低
PySpark
Dataframe模式
的
所有列名
的
情况,包括复杂类型
列
的
元素
名
。- key: timestamp (nullable = true)但是,我只能使用下面的脚本降低列名
的
情况:schema = df.schema schema.fields = l
浏览 0
提问于2021-06-15
得票数 0
回答已采纳
2
回答
从csv文件读取增量/插入数据集
、
、
、
我有一个定期更新
的
数据集,作为一系列CSV文件接收这些更改。我想要一个只包含每一行
的
最新版本
的
Dataframe。是否有一种方法可以在火花/火花放电中加载整个数据集,从而允许并行性?,JKL 4,MNO 我知道,我可以通过顺序加载每个文件,然后使用一个反连接(用于踢出旧值被替换)和一个联合,但这并不是让工作负载是并行
的
。
浏览 3
提问于2017-06-28
得票数 0
回答已采纳
2
回答
如何在
PySpark
中
获得数据类型为时间戳
的
列
的
null/nan计数?
、
、
、
我有一个名为 createdtime
的
列
,其数据类型为时间戳,我希望找到创建时间为空或空或nan
的
行数。from
pyspark
.sql.functions import col,isnan,when,count df_Columns=["
浏览 5
提问于2022-06-26
得票数 0
2
回答
将文件
名
拆分为不同
的
列
、
、
、
我使用
pyspark
函数input_file_name将输入文件
名
添加为dataframe
列
。df = df.withColumn("filename",input_file_name())在上面的
列
中
,我必须创建两个不同
的
列
。DateID 我只能从上面的文件<e
浏览 2
提问于2020-08-13
得票数 1
回答已采纳
1
回答
Pyspark
:
访问
UDF中行
中
的
列
、
、
一位尝试理解UDF
的
pyspark
初学者: 我有一个
PySpark
数据帧p_b,我正在调用一个UDF,通过传递数据帧
的
所有行。我想从行
访问
列
debit。出于某种原因,这种情况并没有发生。
浏览 16
提问于2019-08-16
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券