腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
用于
在
PySpark
上
多次
更改
一列
的
链
withColumn
、
我使用
的
是UCI
的
成人年收入。| Doctorate| 544|| Prof-school| 785|我想将以下类别放在特定
的
组中community_college = ['Assoc-acdm', 'Assoc-voc', '
浏览 12
提问于2018-08-25
得票数 1
回答已采纳
1
回答
Pyspark
使用一条when语句更新两列?
、
因此,我
在
PySpark
中使用df.
Withcolumn
()来创建列,并使用F.when()来指定何时应该更新该列
的
条件。df = df.
withColumn
('ab', F.when(df['text']=="0", 1).otherwise(0)) 基本
上
,如果符合条件,我会将列更新为“1”。现在,如果相同
的
条件匹配,我想要更新同一df中
的
另
一列
(例如,df['
浏览 3
提问于2016-10-19
得票数 0
1
回答
转换Unix定时
PySpark
13位数
、
、
、
、
我一直试图将UNIX日期(图中第
一列
上
的
13位数字)
更改
为可读
的
日期:display(sd
浏览 7
提问于2022-06-16
得票数 -1
2
回答
如何强制
PySpark
四舍五入使用银行家四舍五入
、
、
我需要使用银行家
的
四舍五入( 0.5四舍五入到最近
的
偶数)
在
PySpark
中舍入
一列
。到目前为止,我尝试过这样
的
方法: df = df.select("*", _round(col(n
浏览 7
提问于2022-07-08
得票数 2
回答已采纳
1
回答
如何对
PySpark
DataFrame
的
每
一列
中
的
数据进行混洗?
、
、
、
、
我是一个用
PySpark
编程
的
初学者。我
在
CSV文件中有以下数据,该文件正在被读取到Spark Dataframe中,并且我想从一个小数据集开始生成一个大型数据集。 .option("header", "true")我想对每
一列
中
的
数据进行混洗下面的代码是随机实现orderBy列值
的</
浏览 16
提问于2020-05-11
得票数 0
1
回答
使用
Pyspark
处理具有不同JSON模式行
的
单个数据集
、
、
、
、
我使用
的
是
PySpark
,我需要处理附加到单个数据帧中
的
日志文件。大多数列看起来都是正常
的
,但其中
一列
在
{}中有JSON字符串。基本
上
,每一行都是一个单独
的
事件,对于JSON字符串,我可以应用单独
的
Schema。但我不知道在这里处理数据
的
最好方法是什么。 示例: ? 这个表稍后将帮助我以所需
的
方式聚合事件。它成功地
在
单个列中工作: from
pyspark
.s
浏览 15
提问于2021-09-01
得票数 0
2
回答
日期时间列中
的
火花源
更改
日
、
、
、
、
此代码试图
更改
日期时间列
的
日期有什么问题?import
pyspark
import
pyspark
.sql.types as sparktypessqlcontext =
pyspark
.SQLContext(sc) rdd = sc.parallelize---
浏览 4
提问于2017-03-03
得票数 2
回答已采纳
1
回答
在
PySpark
3.0.3中使用Expr
的
聚合函数
、
、
、
、
下面的代码可以很好地应
用于
PySpark
3.2.1 "total_amount",)df.
withColumn
( "total_amoun
浏览 9
提问于2022-10-03
得票数 2
回答已采纳
1
回答
如何将列添加到
PySpark
数据column中,该数据column中包含另
一列
的
第9分位数
、
、
、
、
我有一个非常大
的
CSV文件,它已经作为一个
PySpark
数据文件导入:df。dataframe包含许多列,包括列ireturn。我想要计算该列
的
0.99和0.01百分位数,然后将另
一列
添加到dataframe df中,作为new_col_99和new_col_01,它们分别包含0.99和0.01百分位数。我编写了下面的代码,它适
用于
小数据格式,但是当我将它应用到我
的
大型数据文件时会出现错误。我知道这个错误:
在
试图连接到ERROR:py4j.java_gat
浏览 0
提问于2019-01-15
得票数 3
1
回答
在
Spark2.4
上
对
pyspark
.sql.functions.max().over(window)使用.where()会抛出Java异常
、
、
、
我在上关注了一篇关于返回按另
一列
分组
的
列
的
最大值
的
帖子,得到了一个意外
的
Java异常。() | A| B|| a| 5|| a| 7|| b| 3|以下是据称适
用于
其他用户
的
解决方案:w = Window.partitionBy('A') df.
浏览 0
提问于2019-02-04
得票数 6
1
回答
PySpark
中未使用with列条件替换
的
空值
、
、
、
、
我已经编写了一段
PySpark
代码,
用于
设置这样
的
条件:如果给定列中存在空值,则将“Yes”附加到另
一列
,否则将“No”附加到另
一列
。data = data.
withColumn
('Coupon_code',when((data.coupon ==""),"No coupon").otherwise("coupon")) 这里
的
条件是
在
列'coupon‘
上
浏览 22
提问于2020-12-08
得票数 0
回答已采纳
1
回答
pyspark
:将
一列
数组拆分为多列更有效?
、
、
、
我有
一列
数组,可以这样创建 df = spark.CreateDataFrame(["[{\"key\":1}, {\"key\":2}"], "tmp")
withColumn
("tmp", F.from_json(in_col_name, "array<string>")).\the arra
浏览 74
提问于2020-09-23
得票数 0
回答已采纳
3
回答
如何在Spark dataframe中添加带有当前日期
的
额外列
、
、
、
我正在尝试使用
withColumn
方法
在
我现有的
Pyspark
Dataframe中添加
一列
。我想在此column.From中插入当前日期我
的
源中我没有任何日期列,因此我
在
我
的
数据框中添加此当前日期列,并将此数据框保存在我
的
表中,以便以后
用于
跟踪目的。我正在使用下面的代码 df2=df.
withColumn
("Curr_date",datetime.now().strftime('
浏览 78
提问于2020-09-09
得票数 2
回答已采纳
1
回答
对
pyspark
dataframe
的
多个列应用不同
的
函数
、
、
、
我有一个有几列
的
pyspark
dataframe col1 col2 col31. 2.1. 3.2-------------------f3(5.1) 我尽量避免为每
一列
定义一个udf,所以我
的
想法是从每
一列
浏览 49
提问于2020-07-29
得票数 0
回答已采纳
1
回答
对于不带参数
的
函数,
Pyspark
失败,但对于不带参数
的
lambda则有效。
、
、
、
、
我试图使用不带参数
的
DataFrame和udf将
一列
添加到我
的
星火
withColumn
中。这似乎只有当我使用lambda封装我
的
原始函数时才有效。这是一辆MWE:from
pyspark
.sql.functions import udf spark = SparkSession.builder.getOrCreateTypeError: _create_udf() missing 1
浏览 0
提问于2019-04-23
得票数 2
回答已采纳
2
回答
使用
PySpark
将string类型列转换为struct并解压列
、
']|+------+--------+-----------------+ ("200", "[('doe', 'customer')]"), ['rowNum', 'infoCol'] fro
浏览 1
提问于2020-08-19
得票数 1
回答已采纳
4
回答
PySpark
1.5如何将时间戳从秒截断到最近
的
分钟
、
、
、
、
我正在使用
PySpark
。我
在
dataframe ('canon_evt')中有
一列
('dt'),这是一个时间戳。我正在尝试从DateTime值中删除秒数。它最初是以字符串
的
形式从地板
上
读出
的
。然后,我尝试将其转换为时间戳canon_evt= canon_evt.
withColum
浏览 0
提问于2015-12-11
得票数 15
回答已采纳
1
回答
pandas_udf错误RuntimeError:来自pandas_udf
的
结果向量不是所需
的
长度:预期长度为12,实际长度为35
、
、
代码是创建一个基于另
一列
的
数据类型
的
列。相同
的
代码适
用于
正常
的
较慢
的
udf (注释掉)。import
pyspark
.sql.types from
pyspark
.sql.functions import pan
浏览 109
提问于2019-11-28
得票数 3
回答已采纳
1
回答
逐组遍历
上
一行查找
的
数据
、
、
、
、
请帮助我在这方面我是新来
的
火花。null 0 03 0 126 03 4 0 0下面应该是我
的
输出4 0 0 121挑战在于,对于每一组类型列,都必须这样做,公式类似于prev(col2)-col1+col3part = Windo
浏览 2
提问于2017-09-20
得票数 1
回答已采纳
3
回答
PySpark
DataFrame
上
分组数据
的
熊猫式转换
、
、
、
、
如果我们有一个由
一列
类别和
一列
值组成
的
Pandas数据框架,我们可以通过执行以下操作来删除每个类别中
的
平均值:据我所知,不直接提供这个按组/转换操作(我
在
Spark1.5.0
上
使用
PySpark
)。我认为(但尚
浏览 8
提问于2015-12-25
得票数 19
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券