腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
用
最多
两
列
替换
pyspark
中
的
日期
值
我使用
的
是
pyspark
3.0.1。我有一个包含以下详细信息
的
dataframe df32 1 2016-01-09 2016-01-2633 1 2016-01-16 2016-01-05 我需要
替换
dateEnrolled,我最近
的
两
个
日期
字段&我
的
数据应该如下所示
浏览 4
提问于2021-02-26
得票数 0
回答已采纳
1
回答
如何用火花放电绘制时间序列线图
、
、
、
我有
两
个
列
的
大数据集,我使用spark和
pyspark
模块来分析数据集。我试着
用
“
日期
”
列
和“计数”栏绘制线条图。但
日期
列
包括4年
的
详细情况,但这些都是不整齐
的
(按日计算),
日期
是混合
的
。所以,首先我想重新安排
日期
,过去到现在。而这个
日期
列
,数据类型是字符串。如果我是如何在
日期
类型
值<
浏览 3
提问于2020-04-18
得票数 1
回答已采纳
1
回答
找出
两
个
日期
之间
的
相对周数
我有一个显示
日期
的
两
列
的
星星之火(date1和date2)。我想知道这
两
个
日期
(+ 1周)之间
的
相对周数。为了做到这一点,我找出每一个
日期
的
周,并减去这
两
个
日期
。date2总是一个较早
的
约会。
两
个
日期
之间最大
的
差异是
最多
1年,所以如果date2来自前一年,我需要在解决方案
中
添
浏览 1
提问于2018-05-21
得票数 2
回答已采纳
2
回答
用电火花
替换
结构型柱
的
空白点
、
、
、
、
我有一个
用
例,希望
用
空
值
替换
StructType
列
中
的
空
值
。下面是示例,您可以使用它重新创建场景: ),) 我想知道如何在
浏览 3
提问于2022-01-31
得票数 1
回答已采纳
1
回答
如何使用
pyspark
填充to date行之间
的
值
?
、
我有一个包含id
列
、事件
日期
列
和in_event布尔
值
的
数据集。事件
日期
中可能包含
日期
值
。[[1,None],[2,'01-01-2018'],[3,None],[4,'01-02-2018']]1, None, False3, No
浏览 0
提问于2019-09-15
得票数 1
1
回答
如何根据
PySpark
数据帧
的
另一
列
中
的
值
修改一
列
?F.when边缘情况
、
、
、
、
我想遍历
pyspark
dataframe
中
的
每一行,并根据另一
列
的
内容更改
列
的
值
。我要将其更改为
的
值
也基于要更改
的
列
的当前
值
。具体地说,我有一
列
包含DenseVectors,另一
列
包含我需要
的
向量
的
索引。 或者,我也可以
用
DenseVector
中
两
浏览 11
提问于2019-04-25
得票数 2
回答已采纳
1
回答
如何将所有的
日期
格式转换为
日期
列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个
日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,
两
列
都被填充为字符串类型。 ? ? 上面附加
的
屏幕截图是Dataframe和Dataframe模式。 如何使用
pyspark
将date
列
中
的
行
值
转换为时间戳格式?我已经尝试了很多东西,但所有的代码都需要当前
浏览 16
提问于2020-12-30
得票数 2
1
回答
完整数据帧
的
火花散
列
、
是否可以找到完整
PySpark
数据
的
哈希
值
(最好是散
列
256)。我不想找到单个行或
列
的
散
列
。我知道
pySpark
中
存在函数,用于从
pyspark
.sql.functions导入sha2进行列级哈希计算。读取数据<em
浏览 8
提问于2022-12-04
得票数 0
2
回答
在Spark dataframe
中
创建不带毫秒部分
的
时间戳
列
、
、
、
我正尝试在
Pyspark
的
数据框
中
创建一个名为load_time_stamp
的
新
列
,它应该只包含截止到几秒
的
日期
和时间,而不应该包含毫秒。我已经写了下面的代码来做同样
的
事情,但是在这个过程
中
,一个新
的
列
是
用
null
值
创建
的
,而不是我期望
的
时间戳
值
。from
pyspark
.sql import
浏览 0
提问于2021-02-22
得票数 1
1
回答
在
pyspark
数据帧中用数字
替换
字符串
、
我刚接触
pyspark
,我想在
pyspark
dataframe
列
中
动态地
用
数字
替换
名称,因为我
的
dataframe中有超过500,000个名称。如何继续?
浏览 9
提问于2019-07-25
得票数 0
1
回答
根据其他
列
替换
pyspark
列
、
、
在我
的
"data“数据框
中
,我有
两
列
,”time_stamp“和”hour“。我想在缺少'time_stamp‘
值
的
地方插入'hour’
列
值
。我不想创建新
列
,而是在'time_stamp‘
中
填充缺少
的
值
我想要做
的
是将这个pandas代码
替换
为
pyspark
代码: data['t
浏览 8
提问于2019-03-21
得票数 0
回答已采纳
1
回答
Pyspark
pyspark
.sql.functions行为怪异
、
、
、
当我们有超过3个节点来分发数据时,
pyspark
.sql.functions下
的
"last“函数在spark上返回不一致
的
结果。from
pyspark
.sql.types import DoubleType numeric = sqlContext.createDataFramecolor").agg(F.last("v1").al
浏览 1
提问于2017-02-02
得票数 1
3
回答
数据减法误差
、
我有一个带有几个
列
的
Server表。夜数始终是一个
两
个字符
的
varchar
列
,其
值
如1N、2N、3N等,取决于
最多
7N
的
夜晚数。我想从
日期
中减去1N
列
的
1部分。显然,我将用实际
的
列名
替换
'1N‘。我试着做了个
浏览 5
提问于2016-05-03
得票数 2
回答已采纳
1
回答
如何计算火花放电
中
的
搅动
、
其目标是创建一个名为“搅动”
的
列
,并使用它来通知当Id在“使用”
列
中
连续超过30天保持为" false“时,它是否正确或错误。我已经尝试过使用窗口功能,但没有成功。
浏览 3
提问于2022-11-25
得票数 0
回答已采纳
1
回答
替换
pyspark
数据帧
中
的
值
、
、
、
我对
pyspark
是个新手,正在做我
的
第一个spark项目,我面临着
两
个问题。a)无法使用以下方法引用
列
b)不能将我
的
spark数据帧
中
的
值
替换
为聚合
值
,如meanfrom
pyspark
import Sp
浏览 3
提问于2017-09-28
得票数 0
1
回答
如何写入第一行与其余行不同
的
csv?
、
、
我需要一个格式化
的
表格,其中第一行是连接
的
日期
,其余所有行都是由逗号分隔
的
两
个
值
。但是,将文件另存为.csv时,连接
的
日期
后会有一个逗号 有人知道如何删除R
中
第一行
的
逗号吗?,其中第一行是连接
的
日期
,其余所有行都是由逗号分隔
的
两
个
值
,如下所示: 19810101 11,1,2.5 等, 我在R
中</
浏览 22
提问于2019-04-25
得票数 1
1
回答
将一
列
替换
为文本字符串,并将
日期
字符串
替换
为2个不同
列
的
幂查询
、
逻辑1我有一个
列
,上面有不同类型
的
值
,文本字符串和
日期
字符串在同一
列
中
,我需要将它分成
两
列
,一
列
包含文本字符串
值
,另一
列
包含
日期
字符串
值
。逻辑2或只是
替换
文本
值
或
日期
格式
值
,问题是整个
列
都是“文本类型
列
”,而我只需要
替换
日期</em
浏览 8
提问于2021-05-30
得票数 0
回答已采纳
1
回答
如何检测
pyspark
中
的
单调下降
、
、
、
我正在使用spark DataFrame,我希望检测来自特定
列
的
任何
值
,其中该
值
不是单调递减
的
。对于这些
值
,我想根据排序条件将它们
替换
为以前
的
值
。下面是一个概念性
的
示例,假设我有一个
值
为[65, 66, 62, 100, 40]
的
列
。
值
"100“不遵循单调下降趋势,因此应
替换
为62。因此,结果列表将是[65, 66,
浏览 15
提问于2020-02-14
得票数 1
回答已采纳
3
回答
如何在
PySpark
中用零
替换
句号?
、
、
我试图
用
PySpark
中
的
0
值
替换
原始数据
中
的
句号。 from
pyspark
.sql import functions as F dataframe2 = dataframe1.withColumn("test_col它应该只用数字重写<em
浏览 8
提问于2019-09-01
得票数 1
1
回答
使用
pyspark
进行负值补偿
的
高效代码
、
、
、
我正在处理一个数据集,其中包含有关该特定项目的售出数量
的
逐项
日期
信息。然而,在“售出
的
数量”一栏中有一些负值,我打算将其归因于此。这里使用
的
逻辑是将这些负值
替换
为
日期
级别的每个商品
的
售出数量
的
模式。我已经计算了售出数量
的
每个不同
值
的
计数,并获得了特定项目在每个给定
日期
的
最大售出数量。但是,我找不到一个函数,可以
用
每个商品
的
最大售
浏览 30
提问于2021-06-26
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券