腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
根据
PySpark
数据
帧
中
的
另一
列
删除
数组
类型
列
的
值
?
python
、
apache-spark
、
pyspark
假设我在df中有两
列
:一
列
是日期,
另一
列
是日期
数组
。样例行: Date: 2020-03-01, Array_of_dates: ['2020-01-01', '2020-02-01', '2020-04-01', '2020-05-01']
如何
创建
另一
列
,以排除
数组
中小于Date
的
值
,然后返回剩余
的</em
浏览 15
提问于2020-09-15
得票数 0
回答已采纳
1
回答
pyspark
将
数组
类型
的
列
拆分成多
列
python-3.x
、
pyspark
在对
数据
集运行
pyspark
中
的
ALS算法后,我遇到了一个最终
的
数据
帧
,如下所示 ? 推荐
的
列
是
数组
类型
,现在我想拆分这一
列
,我
的
最终
数据
帧
应该如下所示 ? 谁能建议我,哪个
pyspark
函数可以用来形成这个
数据
帧
?
数据
帧
<e
浏览 61
提问于2021-07-11
得票数 0
回答已采纳
2
回答
从Pandas
中
的
dataframe
列
中
删除
特定对象
类型
的
值
pandas
、
dataframe
、
data-cleaning
、
drop
我有一个pandas dataframe,其中一些
值
是整数,
另一
些
值
是
数组
。我只是想在"ORIGIN_AIRPORT_ID“
列
中
删除
包含
数组
(我相信是对象
数据
类型
)
的
所有行,但是在尝试了许多方法之后,我还没能弄清楚
如何
做到这一点。 下面是我
的
数据
帧
的
前20行
的
样子。像列表一样显示<e
浏览 0
提问于2020-10-08
得票数 0
1
回答
将列有条件地添加到
数据
帧
中
python
、
apache-spark
、
dataframe
、
pyspark
、
multiple-columns
我在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架
中
添加一
列
。 如果
数据
帧
没有
列
,那么添加一个带有null
值
的
列
。如果
列
存在,则不执行任何操作,并返回与新
数据
帧
相同
的
数据
帧
。
如何
在
PySpark
中
传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
1
回答
检查
列
是否全部为空
apache-spark
、
pyspark
、
apache-spark-sql
我有一个列名和一个
数据
帧
。我想检查该
列
中
的
所有
值
是否都为空,如果为空,则从
数据
帧
中
删除
该
列
。我所做
的
是检查具有非空
值
的
列
的
计数,如果count等于0,则
删除
该
列
,但在
pyspark
中
这似乎是一个开销很大
的
操作
浏览 0
提问于2019-08-09
得票数 0
1
回答
Pyspark
从dataframe
中
的
整数
中
删除
逗号
pyspark
、
comma
我有以下名为A
的
数据
帧
,它由两
列
组成: value
的
列
类型
为整型。我想要将输出值更改为类似整数
的
值
。因此,例如,第一行
的
预期结果是-782543,第五行是-614278。我想我只需要使用
Pyspark
从这一
列
中
删除
逗号。 有什么建议吗?非常感谢! ?
浏览 134
提问于2021-11-01
得票数 0
回答已采纳
2
回答
对于1-2
列
,多个镶嵌块文件具有不同
的
数据
类型
python
、
pyspark
、
schema
、
parquet
我尝试使用
Pyspark
将不同
的
拼图文件读取到一个
数据
帧
中
,但它给了我错误,因为多个拼图文件
中
的
一些
列
具有不同
数据
类型
的
列
。例如:
列
"geo“在某些文件
中
的
数据
类型
为"Double”,在
另一
些文件
中
为"String“。 我应该<
浏览 12
提问于2021-11-22
得票数 0
3
回答
在pandas
中
从较大
的
数据
帧
中
删除
较小
数据
帧
中
的
值
python
、
pandas
、
dataframe
我在pandas中有一个非常大
的
数据
帧
,其中一
列
被标记为"Col2“,该
列
的
行
值
包含一个长字符串。我从这个
数据
框
中
解析出
另一
个较小
的
数据
框,其中包含我想要从原始
数据
框
中
删除
的
列
"Col2“
值
。基本上,我希望遍历原始
数据
帧
浏览 0
提问于2015-11-19
得票数 0
1
回答
具有多个参数
的
PySpark
UDF返回null
apache-spark
、
dataframe
、
pyspark
我有一个包含两
列
(A、B,其
类型
为double)
的
PySpark
数据
帧
,其
值
为0.0或1.0。我正在尝试添加一个新
列
,它是这两个
列
的
总和。我遵循了
中
的
示例from
pyspark
.sql.types import IntegerType, StringType sum_cols
浏览 2
提问于2018-09-26
得票数 4
1
回答
基于行和
列
条件跨多个CSV文件计算平均值,并
删除
NA
数据
loops
、
csv
、
dataframe
、
mean
、
rbind
我正在处理300多个csv文件
中
的
数据
。每个csv文件
中
的
变量列名都是相同
的
。我使用rbind和loop将
列
堆叠到一个空
的
数据
框
中
。我想计算一
列
的
平均值,但在此之前,我需要(1)
根据
另一
列
中
的
值
对
数据
框进行子集或隔离。7我需要<
浏览 0
提问于2015-02-14
得票数 1
2
回答
迭代和计算
列
的
更有效
的
方法
apache-spark
、
pyspark
我有一个非常宽
的
数据
帧
> 10,000
列
,我需要计算每个
列
中空
值
的
百分比。现在我正在做
的
是:for c in df_a.columns[:]: # print(c)当然,这是一个缓慢
的
过程,有
浏览 0
提问于2017-09-24
得票数 1
2
回答
PySpark
2.2爆炸
删除
空行(
如何
实现explode_outer)?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我正在处理
PySpark
数据
帧
中
的
一些深度嵌套
数据
。当我试图将结构扁平化为行和
列
时,我注意到当我调用withColumn时,如果该行在源
列
中
包含null,那么该行将从我
的
结果
数据
帧
中
删除
。要使用
的
示例
数据
帧
: from
pyspark
.sql.functions import
浏览 0
提问于2018-10-11
得票数 2
1
回答
Scala - MaxBins错误-决策树-范畴变量
scala
、
apache-spark
、
machine-learning
、
decision-tree
categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个分类特性
中
的
值
数目一样大,但是分类功能0有31个
值
。考虑
删除
具有大量值
的
此功能和其他分类功能,或添加更多
的
培训示例。31,我尝试过maxBins = 32 (
根据
这些帖子
中
的
答案)。就像试用n错
浏览 1
提问于2017-11-20
得票数 0
1
回答
访问
PySpark
数据
帧
中
的
特定项目
python
、
dataframe
、
pyspark
如何
访问
PySpark
数据
帧
中
某
列
的
某个索引处
的
值
?例如,我想访问一个名为"Category“
的
列
的
索引5处
的
值
。我
如何
在
PySpark
语法
中
做到这一点呢?
浏览 2
提问于2018-03-07
得票数 10
回答已采纳
1
回答
如何
将所有的日期格式转换为日期
列
的
时间戳?
apache-spark
、
datetime
、
pyspark
、
apache-spark-sql
我使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据
帧
。但是,当我尝试打印模式时,两
列
都被填充为字符串
类型
。 ? ? 上面附加
的
屏幕截图是Dataframe和Dataframe模式。
如何
使用
pyspark
将date
列
中
的
行
值
转换为时间戳格式?我已经尝
浏览 16
提问于2020-12-30
得票数 2
1
回答
将多个
PySpark
DataFrames与MergeSchema合并
python
、
pyspark
、
pyspark-dataframes
我想将多个
PySpark
数据
帧
合并到一个
PySpark
数据
帧
中
。它们都来自相同
的
模式,但是它们可能会有所不同,因为有时会缺少一些
列
(例如,模式通常包含200个具有已定义
数据
类型
的
列
,其中dataFrame A有120
列
,dataFrame B有60
列
)。是否有可能在不写入和读取所有
数据
帧
<em
浏览 2
提问于2020-06-22
得票数 0
2
回答
pyspark
:
删除
所有行
中
具有相同
值
的
列
pyspark
相关问题:然而,上述问题
的
答案仅适用于熊猫。有没有针对
pyspark
数据
帧
的
解决方案?
浏览 1
提问于2018-12-17
得票数 4
1
回答
如何
在
pyspark
中
解压list
类型
的
列
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我在
pyspark
中有一个dataframe,df有一个
数组
字符串
类型
的
列
,所以我需要生成一个包含列表头部
的
新
列
,还需要包含尾列表连接
的
其他
列
。这是我
的
原始
数据
帧
:
pyspark
> df.show()| id| lst_col|| 1|[a, b, c,d]| +--
浏览 29
提问于2020-01-24
得票数 0
回答已采纳
2
回答
如何
检查来自不同
数据
帧
的
列
值
?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有两个
pyspark
数据
帧
,我想检查第一个
数据
帧
列
值
是否存在于第二
列
dataframe.If第一个
数据
帧
列
值
不存在于第二个
数据
帧
列
中
,我需要确定这些
值
并将其写入list.Is有没有更好
的
方法来使用
pyspark
感谢您
的
回复。 df[Nam
浏览 37
提问于2020-09-03
得票数 0
回答已采纳
1
回答
如何
重命名所有
列
,在
pyspark
中
创建dataframe之后,
如何
根据
模式/从csv文件
中
读取
数据
类型
来转换
数据
类型
python
、
pyspark
在
pyspark
中
创建示例
数据
from
pyspark
.sql.types import StructField testdata = [("aaaa",1,50.0,"05-APR-2020"), ("bbbb",2,100.0TypeError:字段
浏览 1
提问于2020-05-04
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
划重点!12种高效Numpy&Pandas使用技巧!
一文读懂PySpark数据框
肝了3天,整理了90个Pandas案例
70个NumPy练习:在Python下一举搞定机器学习矩阵运算
70个NumPy分级练习:用Python一举搞定机器学习矩阵运算
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券