腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
pyspark
中
的
列
索引
删除
同名
的
列
、
、
、
这是我
的
数据帧,我正在尝试
使用
index
删除
同名
的
重复列: df = spark.createDataFrame([(1,2,3,4,5)],['c','b','a','a','b'])| c| b| a| a| b|| 1| 2| 3| 4| 5| +---+---+---+---+---+ 我拿到了数据帧
浏览 30
提问于2019-12-19
得票数 4
2
回答
如何在
pyspark
中
合并重复
的
列
?
、
、
我有一个
pyspark
dataframe,其中一些
列
具有相同
的
名称。我想将具有相
同名
称
的
所有
列
合并到一
列
中
。例如,输入dataframe: ? 我如何在
pyspark
中
做到这一点?
浏览 57
提问于2021-06-18
得票数 2
回答已采纳
2
回答
如何
使用
PySpark
为
列
中
的
项分配唯一ids?
、
例如,如果我有一个带有name
列
的
dataframe,那么每个名称可以多次出现:| name ||Alice ||Alice ||Chloe |我希望有一个
列
,其中每个名称都从0开始获得一个唯一
的
id:| name | id ||Alice |0 ||Alice | 0 ||Chloe | 2 | +-
浏览 6
提问于2022-09-13
得票数 0
回答已采纳
1
回答
删除
所有相同值(例如0)
的
pyspark
列
的
最快方法是什么?
、
、
、
我有一个巨大
的
pyspark
dataframe,我需要从dataframe
中
删除
所有全为0
的
列
。features found above************ masterdata_raw = masterdata_raw.drop(col_)我已经尝试组合聚合,但是因为我试图在一个字典
浏览 0
提问于2017-05-03
得票数 1
1
回答
火花放电管道
中
的
用户定义变压器
、
、
、
、
我正在尝试创建一个
pyspark
管道来运行一个分类模型。我
的
数据集有一个
列
,它是一个字符串。因此,在应用管道模型之前,我
使用
“StringIndexer”将其转换为数字。我
的
管道只包含两个阶段StringIndexer和ClassificationModel StringIndexer正在创建一个带有
索引
的
新
列
,但是旧
列
也保留了。我想介绍一个新
的
变压器在管道
中
,以
删除
一个‘字符串’
浏览 0
提问于2017-07-19
得票数 2
回答已采纳
1
回答
访问
PySpark
数据帧
中
的
特定项目
、
、
如何访问
PySpark
数据帧
中
某
列
的
某个
索引
处
的
值?例如,我想访问一个名为"Category“
的
列
的
索引
5处
的
值。我如何在
PySpark
语法
中
做到这一点呢?
浏览 2
提问于2018-03-07
得票数 10
回答已采纳
1
回答
Scala - MaxBins错误-决策树-范畴变量
、
、
、
categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个分类特性
中
的
值数目一样大考虑
删除
具有大量值
的
此功能和其他分类功能,或添加更多
的
培训示例。31,我尝试过maxBins = 32 (根据这些帖子
中
的
答案)。就像试用n错误一样,我尝试了所有的值集,如2、3、10、15、50、10000,请参见相同<e
浏览 1
提问于2017-11-20
得票数 0
0
回答
Pandas用列表替换
列
值
、
、
我有一个dataframe df,其中一些
列
是字符串,另一些
列
是数字。我正在尝试将它们全部转换为数字。所以我想做
的
是这样
的
:le = preprocessing.LabelEncoder()newCol = le.transform(col)df.ix[:,i] = newCol 但这是行不通
的
。基本上我
的
问题是,当我不知道列名,只知道
列
索引
时,如何从数据框
中
删除<
浏览 1
提问于2017-06-18
得票数 6
回答已采纳
1
回答
在
pyspark
的
现有dataframe
中
添加新
列
的
方法是什么?
、
、
、
我已经在现有的数据框
中
添加了一个新
列
,但它没有反映在数据帧
中
。customerDf.withColumn("fullname",expr("concat(firstname,'|',lastname)"))有没有办法向现有的dataframe添加一个新
的
列
我们只有一个选择(熊猫
中
的
inplace=True)。我们在
pyspark
中有没有类似的功能?
浏览 4
提问于2021-01-26
得票数 0
1
回答
Parquet文件
中
groupby
的
最佳实践
、
、
、
为了生成一个count聚合,我们需要对几个
列
进行分组。我们目前
的
战略是: 读取Parquet文件(Dask或
pyspark
),并在dataframe
的
索引
上运行groupby。对于Parquet文件上高效
的
groupby来说,最佳实践是什
浏览 2
提问于2017-07-09
得票数 3
1
回答
对于非聚集
索引
,下降
索引
和禁用
索引
之间是否存在性能差异?
、
我知道
删除
和禁用聚集
索引
之间有很大
的
区别,但我想了解非聚集
索引
。但从“插入、更新和
删除
的
性能”
的
角度来看.禁用非聚集
索引
与完全
删除
索引
之间是否存在性能差异?无论是在表编辑期间,还是在创建和重建之后?
浏览 0
提问于2021-05-07
得票数 0
2
回答
将熊猫数据转换为
PySpark
数据下降指数
、
、
、
、
我有一只叫data_clean
的
熊猫。看起来是这样
的
: 我想把它转换成一个Spark,所以我
使用
方法:sparkDF = spark.createDataFrame(data_clean)与此相关
的
其他问题没有提到
索引
列
消失
的
问题
浏览 3
提问于2021-07-31
得票数 2
回答已采纳
2
回答
从
PySpark
DataFrame
列
中
删除
元素
我知道
PySpark
DataFrames是不可变
的
,所以我想创建一个新
列
,该
列
是根据应用到
PySpark
DataFrame
的
现有
列
的
转换生成
的
。我
的
数据太大了,无法
使用
collect()。该
列
是唯一int列表(在给定列表
中
不重复int),例如:[1,2][2,3] 上面是一个玩具例子,因为我
的
实际DataFrame
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
1
回答
如何访问Pandas
中
的
重复列
、
、
我在excel文件中有以下数据,具有相
同名
称
的
列
。Parts Tanning Tanning TanningB 32 35 48 如何访问制革第2
列
或第3
列
中
的
数据?而不
使用
列
索引
号,而仅
使用
标题。有没有一种方法,不用真正重命名头文件? 我目前
使用
的
是
列</e
浏览 15
提问于2020-09-20
得票数 0
回答已采纳
1
回答
从星星之火数据
中
的
列表中提取值,而不转换为熊猫
、
、
我非常绿色
的
火花,所以我把它转换成一个熊猫DataFrame,然后
使用
地图功能,我提取所需
的
元素。问题是,数据是巨大
的
,因此这种方法是不可扩展
的
。让我花时间
的
是toPandas()命令。是否有从每一行访问列表
中
的
值
的
选项? 谢谢!
浏览 5
提问于2021-12-09
得票数 1
回答已采纳
3
回答
如何在tidyverse
中
删除
tibble
中
的
重复列
、
、
假设我
的
数据有两个相同
的
列
,称为SYC SJ Equity。当我
使用
基本read.csv()将其导入到R
中
并将check.names设置为FALSE时,导入
的
数据包含两个具有相
同名
称
的
列
。然后,我可以执行以下操作
删除
重复
的
列
df <- df %>% select(-contains("_")) 但是,如果数据位于.xlsx格式
的</em
浏览 96
提问于2019-09-27
得票数 1
回答已采纳
1
回答
在Dataframe
中
,如何根据条件从行
中
删除
列
?
、
当该行上
的
列
值为零时,我想从行
中
删除
该
列
。我不想从Dataframe
中
删除
该
列
。仅当
列
值为零时,我才从该特定行
中
删除
该
列
。我用
的
是
Pyspark
。
浏览 19
提问于2020-04-09
得票数 0
1
回答
FInd数据帧
中
的
第一个非零元素
、
、
我正在处理一个
pyspark
dataframe,并尝试查看是否有一种方法可以提取spark dataframe
中
第一个非零元素
的
索引
。我自己添加了
索引
列
,因为
pyspark
不支持它,而不是pandas。
浏览 29
提问于2021-10-08
得票数 0
1
回答
熊猫数据
索引
& loc
、
有一个名为DFF
的
Pandas Dataframe,如下所示:SalesOrder SOItem SLNo 4501034 20 1 ZH ('4501034', '20', 1)], names=['SalesOrder', 'SOItem', 'SLNo
浏览 12
提问于2022-11-30
得票数 -3
1
回答
熊猫read_sql_query()
中
的
连接表-多
索引
问题
、
、
、
、
我想通过连接两个表来
使用
DataFrame创建一个熊猫pandas.read_sql_query()。'numperso', length=289907)编辑:我知道问题在于'NUMPERSO
浏览 2
提问于2019-04-25
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券