腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
将
DataFrame
.withColumn与条件一起使用
、
、
我想知道
如何
在完整
的
DataFrame
上创建一个新
列
,但其
值
仅基于
DataFrame
的
一个子集(即,基于条件应用
的
某些函数)。在本例
中
,我希望创建一个
列
,该
列
将每个ID与Value
列
中
按ID
的
正值之和相关联。|| 1 | 12 | 17 | +-----+-----
浏览 1
提问于2019-02-02
得票数 0
2
回答
如果某些
值
为空,
如何
在SUM
中
返回空?
、
、
、
我遇到过这样
的
情况:我
的
列
中
可能有空
值
,需要在一个组
中
求和
。 如果我在组
中
遇到null,我希望该组
的
和为null。但是默认情况下,
Pyspark
似乎会忽略null行,并
对
其余非NULL
值
求和
。
dataframe
=
dataframe
.groupBy('
dataframe
.product',
浏览 87
提问于2021-01-18
得票数 1
回答已采纳
3
回答
如何
对
pyspark
dataframe
中
的
列
的
值
求和
、
、
、
我在
Pyspark
工作,我有一个包含以下列
的
数据框架。true)|-- cpih_coicop_weight: double (nullable = true) 我需要最后一
列
(cpih_coicop_weight)中所有元素
的
总和,以便在程序
的
其他部分中用作双精度。非常感谢您
的
提前!
浏览 36
提问于2018-02-02
得票数 15
3
回答
如何
在
Pyspark
中
替换
dataframe
的
所有空
值
、
、
我在
pyspark
中有一个超过300
列
的
数据框架。在这些
列
中
,有一些
列
的
值
为null。Column_1 column_2null null125 124and so on 当我想
对
column_1
求和
时,我得到
的
结果是一个空
值
,而不是724。现在,我想用空格替换数据框所有<em
浏览 1
提问于2017-02-18
得票数 56
回答已采纳
1
回答
在应用pandas udf: IndexError后不能使用.toPandas()或.collect()
、
、
、
我正在使用pandasUDF将标准
的
ML python库应用于
pyspark
DataFrame
。在定义了模式并进行了预测之后,我得到了
pyspark
DF作为输出。现在,我想用这个预测数据帧做一些事情,例如,我尝试
对
列
"weekly_forecast_1“
中
的
所有
值
进行
求和
。当我应用.collect()或.toPandas()方法时,在.fit()
中
得到以下错误 IndexError:
浏览 33
提问于2020-11-24
得票数 0
2
回答
根据另一
列
中
的
特定
值
对
一
列
中
的
值
求和
、
、
例如,我在Pandas中有一个
DataFrame
: df = pd.
DataFrame
("a":[0,0,1,1,0], "penalty":["12", "15","13","100", "22"])我
如何
求和
“惩罚”
列
中
的
值
,但我只想
对
列
"a“中值为0
的</
浏览 14
提问于2019-11-21
得票数 1
1
回答
如何
使用
pyspark
仅按特定功能分组
、
、
、
、
0 | 1 | |MAC000024| 8| 481.7160003000004| 1 | 0 | 但我能做
的
就是使用下面的代码9|449.07699989999975| 8646| 2882| 25938| 问题是sum函数也是在acron和acron_grouped上计算
的
,您知道
如何
仅在KWH/hh上进行分组吗
浏览 20
提问于2020-12-22
得票数 0
回答已采纳
1
回答
PySpark
DataFrame
:标记某些
列
值
发生更改
的
行
、
、
、
我有一个包含'people‘和'timestamp’
列
的
PySpark
DataFrame
(加上其他与问题无关
的
列
)。解释是用户在那个时候做了一些事情。我想
对
“人物”
的
所有行进行分组,其中“时间戳”
的
差异不超过“阈值”
值
(例如5分钟)。感谢你
浏览 35
提问于2018-08-30
得票数 0
回答已采纳
2
回答
将每一行
的
值
求和
为布尔
值
(
PySpark
)
、
、
目前,我有一个
PySpark
dataframe
,它有许多由整数计数填充
的
列
。其中许多
列
的
计数为零。--我想找到一种方法来
求和
有多少列
的
计数大于零,。换句话说,我想要一种跨行
求和
值
的
方法,其中给定行
的
所有
列
实际上都是布尔
值
(尽管数据类型转换可能不是必要
的
)。我
的
表中有几个
列
是日期时间或字符串,
浏览 2
提问于2020-04-24
得票数 1
回答已采纳
3
回答
如何
在
pyspark
中
对
spark
dataframe
中
的
多个
列
求和
?
、
、
我有一个列名
的
列表,我想
对
其
求和
如何
添加这三个元素并将其放入新
列
中
?(以一种自动
的
方式,以便我可以更改
列
列表并获得新
的
结果)col1 col2 col3 result谢谢!
浏览 0
提问于2018-11-14
得票数 10
回答已采纳
1
回答
PySpark
PCA:
如何
将数据行从多
列
转换为单列DenseVector?
、
、
、
、
我想使用
PySpark
(Spark1.6.2)
对
存在于Hive表
中
的
数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class '
pyspark
.sql.
dataframe
.
DataFrame
有一篇优秀
的
StackOverflow文章展示了
如何
在<
浏览 1
提问于2016-10-06
得票数 4
回答已采纳
2
回答
根据另一
列
中
的
项
对
pandas
列
中
的
值
进行
求和
、
如何
根据pandas
dataframe
中
'one‘
列
的
项目
对
'two’
列
中
的
值
求和
: df = pd.
DataFrame
({'One': ['A', 'B', 'A', 'B'], 'Two': [
浏览 7
提问于2019-03-02
得票数 0
回答已采纳
2
回答
星星之火数据(ForeachPartition):将元素之和
、
我试图在每个分区
的
火花数据和和元素
的
划分使用吡咯烷酮。但我无法在被调用
的
函数"sumByHour“
中
执行此操作。基本上,我无法访问"sumByHour“
中
的
dataframe
列
。基本上,我是按“小时”
列
进行分区,并试图根据“小时”分区
对
元素进行
求和
。预期产量分别为: 6,15,24,0,1,2小时。在没有运气
的
情况下尝试过。from
pyspark</e
浏览 4
提问于2022-01-25
得票数 0
回答已采纳
1
回答
基于2个spark数据帧
中
的
匹配zip,创建用于距离计算
的
纬度和经度
对
、
、
、
我有一个
pyspark
dataframe
A,它有3
列
:-69 40 trp我有另一个
pyspark
dataframe
B,它具有相同
的
列
,但捕获
的
值
将不同:-68 43 trp我希望根据
dataframe
B
中
匹配
的
邮政编码为A
的
每个记录创建纬度经度<
浏览 2
提问于2017-11-16
得票数 0
1
回答
使用
Pyspark
[duplicate]
的
Dataframe
中
每行
的
行总和
、
、
这个问题在这里已经有答案了 :
如何
在
pyspark
中
对
spark
dataframe
中
的
多个
列
求和
? (3个答案) 8天前就关门了。有一个场景可以找到DF
中
的
行数之和,如下所示 ID DEPT [..]52 53 845 SZY 57 62 73 54 需要为每行查找SUB1 SUB2 SUB3 S
浏览 87
提问于2021-02-20
得票数 0
回答已采纳
1
回答
如何
使用
pyspark
将数值转换为分类变量
有一系列数值变量
的
pyspark
数据帧。 例如 我
的
dataframe
有一个从1到100
的
列
值
。1-10 - group1<== 1到10
的
列
值
应包含group1作为
值
11-20 - group2。。。91-100 group10
如何
使用
pyspark
dataframe
实现这一点?
浏览 15
提问于2019-04-10
得票数 1
回答已采纳
1
回答
左反团员
、
、
、
我有一个
dataframe
,它有两个
列
a和b,其中b
列
中
的
值
是a
列
中值
的
a子集。,其中anti_b
列
中
的
值
是来自a
列
的
任何
值
,这样a!=anti_b和行(a,anti_b)就不会出现在原始
的
数据格式
中
。-+ 这可以通过一个crossJoin和
对
array_contains<e
浏览 2
提问于2019-11-18
得票数 0
4
回答
在Spark
Dataframe
中
的
列
列表
中
添加一
列
rowsum
、
、
、
我有一个包含多个
列
的
Spark数据帧。我想在
dataframe
中
添加一个
列
,它是一定数量
的
列
的
总和。4 9 4 6 9 d 1 2 6 8 1 我想要添加一个
列
,用于
对
特定
列
的
行进行
求和
: ID var1 var2 var3 var4 var5基于这个答案,这基本上就是我想要
的
,但它使用<e
浏览 38
提问于2016-06-04
得票数 21
回答已采纳
1
回答
如何
将所有的日期格式转换为日期
列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被填充为字符串类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式。
如何
使用
pyspark
将date
列
中
的
行
值
转换为时间戳格式?我已经尝试了很多东西,但所
浏览 16
提问于2020-12-30
得票数 2
9
回答
PySpark
-对数据格式
中
的
列
进行
求和
,并以int形式返回结果
、
、
、
我有一
列
数字
的
电火花数据。我需要对该
列
进行
求和
,然后在python变量中将结果作为int返回。+-----------++-----------++-----------+ 我会把130作为一个int返回到一个变量
中
,以便在程序
中
的
其他地方使用
浏览 22
提问于2017-12-14
得票数 56
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券