腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4592)
视频
沙龙
1
回答
Pyspark
:
如果
其他
列为
空
,
则在
pyspark
列
中
填充
固定值
python
、
pyspark
我有一个有两
列
的
pyspark
dataframe。
如果
另一
列
中
的行值为
空
,我想用
固定值
填充
一
列
。因此,在customer_df
中
,
如果
customer_address为null,则将城市
列
填充
为“unknown” 我在试这个 customer_df = customer_df.withColumn
浏览 172
提问于2020-09-26
得票数 0
回答已采纳
2
回答
Pyspark
中
的
填充
pyspark
、
spark-dataframe
我有一个具有以下数据(所有
列
都有字符串数据类型)的
Pyspark
(原始数据): 1 103我需要在value
列
中
创建一个新的带有
填充
的修改的dataframe,这样该
列
的长度应该是4字符。
如果
长度小于4个字符,
则在
数据
中
添加0,如下所示: id Valu
浏览 2
提问于2017-07-30
得票数 11
1
回答
将拼花文件复制到具有逗号分隔数据的Redshift
中
的错误
sql
、
amazon-web-services
、
amazon-s3
、
amazon-redshift
我试图将位于S3
中
的拼花文件复制到Redshift,但由于一
列
中有逗号分隔的数据,它失败了。有谁知道如何在地板文件
中
处理这样的场景吗?文件
中
的Parquet数据示例"column_2" : "data2"特定
列
中
的数据以逗号分隔为"test1,tes
浏览 10
提问于2022-11-29
得票数 0
1
回答
如何将所有的日期格式转换为日期
列
的时间戳?
apache-spark
、
datetime
、
pyspark
、
apache-spark-sql
我使用的是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被
填充
为字符串类型。 ? ? 如何使用
pyspark
将date
列
中
的行值转换为时间戳格式? 我已经尝试了很多东西,但所有的代码都需要当前的格式,但如何转换为正确的时间戳,
如果
我不知道什么格式的csv文件。我也尝试过下面的代码,但这是在创建一个
空
值的新
列
浏览 16
提问于2020-12-30
得票数 2
1
回答
Pyspark
使用.filter()过滤掉
空
列表
python-2.7
、
filter
、
pyspark
、
pyspark-sql
我有一个
pyspark
dataframe,其中一
列
填充
了列表,要么包含条目,要么只包含
空
列表。我想高效地过滤掉所有包含
空
列表的行。import
pyspark
.sql.functions as sf也许为了清楚起见,我有多个
列
浏览 17
提问于2017-02-24
得票数 7
回答已采纳
1
回答
使用
pyspark
将数据插入到另一个cassandra表
apache-spark
、
pyspark
、
cassandra
、
spark-cassandra-connector
---+---------+---------++----+---------+---------++---------+--------------+---------+ 如何根据ids将测试表
中
的数据插入到主表
中
,使用
py
浏览 2
提问于2020-04-21
得票数 2
回答已采纳
2
回答
对
列
列表应用条件的数据帧过滤
pyspark
、
databricks
如果
列表
中
的任何字符串
列为
空
,我想过滤一个
pyspark
dataframe。 df = df.where(all([col(x)!
浏览 16
提问于2019-09-08
得票数 3
回答已采纳
1
回答
PySpark
-按行和列计数不同
python
、
pyspark
我在
PySpark
中有数据(
列
:“排名”、“歌曲”、“艺术家”、“年份”、“歌词”、“源”)。“歌词”
列
包含字符串值,应按单词划分。我已经计算了“歌词”
列
中
每一行的所有单词数。我还将字符串转换为列表,将结果保存在新
列
"uniqWords_count“
中
。不幸的是,我无法弄清楚如何奉献和计算不同的价值。下面是代码,
如果
有用的话: billdf = billdf.withColumn('allWords_count'
浏览 2
提问于2020-04-13
得票数 1
回答已采纳
1
回答
检查火花数据
中
的行值是否为
空
。
apache-spark
、
pyspark
、
user-defined-functions
、
spark-dataframe
、
isnull
我正在使用
pyspark
中
的自定义函数来检查星火数据true
中
每一行的条件,
如果
条件为true,则添加
列
。守则如下:from
pyspark
.sql.functions import *sdf.show()AttributeError:'un
浏览 3
提问于2016-08-19
得票数 7
5
回答
DataFrame对象没有属性“col”
apache-spark
在“火花:最终指南”
中
,它说: df.col("count")这本书是错的,还是我该怎么做呢? 我上的是星火
浏览 2
提问于2018-08-12
得票数 9
2
回答
如果
A
列
不为
空
,
则在
B列上使用
sql
例如,
如果
给予:结果:解释: 您将如何在SQL中使其工作
浏览 5
提问于2017-03-30
得票数 0
4
回答
电火花approxQuantile函数
apache-spark
、
pyspark
、
apache-spark-sql
我有这些
列为
id、price、timestamp的数据。我正在使用这个代码来找到它,但是它给了我这个错误。from
pyspark
.sql import DataFrameStatFunctions as statFuncmedian.over(windowSpec) 难道不能使用DataFrameStatFunctions来<em
浏览 20
提问于2017-07-24
得票数 12
回答已采纳
1
回答
将两
列
串接在
pyspark
中
&在两者之间添加一个文本
apache-spark
、
pyspark
、
apache-spark-sql
嗨,我在Databricks中使用了3.0.1
中
的火花。我的
pyspark
df包含一个
列
年份,其值类似于2012,另一个
列
季度的编号为1,2,3和4。我想加入year_qtr并创建另一
列
2012 Quarter-1 &它应该包含类似于下面代码的2012 Quarter-1值col_list
浏览 2
提问于2021-01-27
得票数 0
回答已采纳
3
回答
如何在
PySpark
中
绑定?
apache-spark
、
pyspark
如何在
PySpark
中
执行此操作
浏览 0
提问于2017-09-15
得票数 33
回答已采纳
1
回答
如何检查CSV文件
中
的
列
是否为
空
或未通过shell脚本
csv
、
unix
我有一个CSV文件,如下所示#45ghf|123|laiej||||如何判断
列
是否为
空
如果
有
列为
空
,
则在
result.txt文件
中
打印重新
填充
CSV上方以竖线分隔 有人能帮忙吗??
浏览 0
提问于2016-11-09
得票数 0
1
回答
dataframe
pyspark
从前一行更新行
python
、
dataframe
、
pyspark
我使用的是
pyspark
,我有一个数据框架,看起来像这样:A | 1 | | B | 5 | |我解释说,这个数据帧是按“代码”分组的,并按“位置”排序,我需要一个组“代码”,当我
填充
"COL2“时(本例
中
位置=2 ),获取值"AAA”并将其放在下面的位置3和4(而COL1是
填充
的) 我
浏览 1
提问于2020-09-24
得票数 0
1
回答
PYSPARK
:-在不丢失null值的情况下分解dataframe
中
的数组:“DataFrame”对象没有属性“_get_object_id”
python
、
python-3.x
、
pyspark
、
pyspark-sql
调用下面的对象时出错是在不丢失
空
值的情况下分解dataframe
中
的数组,但在调用
列
时我得到错误,说对象没有属性‘_ code.This _ object _id’。需要帮助,在
其他
方式调用
列
,可以工作。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql import Row from
pyspark
.sql.ty
浏览 2
提问于2018-07-05
得票数 2
3
回答
当一些值为null时,如何将DataFrame
中
的多个
列
连接到另一个
列
中
?
pyspark
、
spark-dataframe
searches_df.withColumn('unique_id',reduce(column_concat,(searches_df[col] for col in search_parameters))) 除非
列
包含
空
值,否则整个级联字符串为
空
。
浏览 3
提问于2016-09-08
得票数 6
回答已采纳
2
回答
检查三
列
中
是否存在
空
值,并在
PySpark
中
创建一个新
列
apache-spark
、
pyspark
因此,目前,我有一个带有三
列
的星火DataFrame,我希望根据
其他
三
列
是否包含
空
值来添加第四
列
,名为target。null| null| null| PASS |
如果
column_1、column_2、column_2都为null,我希望传递目标
列
中
的值,否则失败。最初,我认为UDF或Pandas会起作用,但据我
浏览 9
提问于2022-06-06
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Python开源数据分析工具TOP 3!
PySpark分析二进制文件
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券