腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
删除
pyspark
dataframe
中值
为
字符串
的
行
、
、
、
我正在尝试使用Apache Spark对存储在MongoDB数据库中
的
地理空间数据使用KMeans。数据格式如下:代码如下,其中inputdfinputdf)model = kmeans.fit(inputdf.select("features")) 数据集中似乎有一些空
字符串
com.mon
浏览 2
提问于2019-11-13
得票数 0
回答已采纳
2
回答
从pandas
dataframe
中
删除
句子长度超过特定词长
的
行
、
、
、
我想从pandas
dataframe
中
删除
行
,该数据帧包含长度大于所需长度
的
特定列中
的
字符串
。输入帧: X Y1 An apple3 I like to watch movie 现在,假设我想从
dataframe
中
删除
包含长度大于或等于4
的
单词
字符串
的
行
。所需
的</em
浏览 144
提问于2019-06-12
得票数 9
回答已采纳
3
回答
在保留原始文件
的
条件下从Pandas
dataFrame
中
删除
重复项
、
、
假设我有以下
DataFrame
: 1 | Ms 2 | Ms我想
删除
关于列A
的
重复
行
,并且想要保留列B
中值
为
'PhD‘
的
行
作为原始行,如果我找不到'PhD',我想保留列B
中值
为
'Bs’
的
行
。
浏览 4
提问于2015-10-10
得票数 12
回答已采纳
1
回答
如何使用Python
Dataframe
API在Apache Spark中找到中位数?
、
、
、
Pyspark
API提供了除median之外
的
许多聚合函数。Spark 2附带了approxQuantile,它给出了近似的分位数,但精确
的
中位数计算起来非常昂贵。对于Spark
Dataframe
中
的
一列值,是否有更多
的
Pyspark
方法来计算
中值
?
浏览 3
提问于2016-08-03
得票数 3
回答已采纳
1
回答
在
Dataframe
中,如何根据条件从
行
中
删除
列?
、
当该行上
的
列值
为
零时,我想从
行
中
删除
该列。我不想从
Dataframe
中
删除
该列。仅当列值
为
零时,我才从该特定
行
中
删除
该列。我用
的
是
Pyspark
。
浏览 19
提问于2020-04-09
得票数 0
0
回答
提取与Spark
Dataframe
(
Pyspark
)中
的
特定条件匹配
的
第一个“
行
集合”
、
、
、
Unidentified9 | UseCase211 | Unidentified我必须提取列UseCase
中值
为
Unidentified
的
前4
行
,并对它们进行进一步处理。在这一点上,我不想获得中间和最后两
行
的
Unidentified值。 我希望避免使用ID列,因为它们不是固定
的
。以上数据只是一个样本。当我使用映射函数(在将其转换为RDD之后)或UDF时,我在输出
浏览 5
提问于2016-12-15
得票数 1
2
回答
从
PySpark
DataFrame
列中
删除
元素
我知道
PySpark
DataFrames是不可变
的
,所以我想创建一个新列,该列是根据应用到
PySpark
DataFrame
的
现有列
的
转换生成
的
。我
的
数据太大了,无法使用collect()。该列是唯一int列表(在给定列表中不重复int),例如:[1,2][2,3] 上面是一个玩具例子,因为我
的
实际
DataFrame
有一个最大长度
为
52个唯一ints
的
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
2
回答
如何通过检查条件来
删除
Pandas
DataFrame
中
的
副本?
、
、
我有一个
dataFrame
:-------- 1 | 40 2 | 10 我希望通过检查列'ID‘中
的
重复条目来
删除
重复
行
,并保留a列
中值
为
10
的
行
。我希望我
的
df看起来像-------- 2 | 10
浏览 2
提问于2015-10-01
得票数 4
回答已采纳
1
回答
删除
pandas中缺少值
的
行
、
我有一个pandas
dataframe
,其中一列有几个缺失值。我想
删除
此列
中值
为
?
的
行
。我试过使用像这样
的
东西 df = df[np.isfinite(df[:,4])]
浏览 2
提问于2016-09-24
得票数 1
1
回答
如何将所有的日期格式转换为日期列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取
为
具有2个日期列
的
PySpark
数据帧。但是,当我尝试打印模式时,两列都被填充
为
字符串
类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式。 如何使用
pyspark
将date列中
的
行
值转换为时间戳格式?我已经尝试了很多东西,但所有的代码都需要当前
的</em
浏览 16
提问于2020-12-30
得票数 2
1
回答
从
dataframe
中
删除
行
,其
中值
为
‘n/a’
、
、
1.8 4017, 这是我
的
一列
的
值计数如你所见,第二个最常见
的
是“n/a”。我想从我
的
数据集中
删除
所有
行
,其中该列中
的
值是‘n/a’。
浏览 0
提问于2018-05-16
得票数 0
3
回答
根据多个先前
的
行
/列中
的
值
删除
dataframe
中
的
行
、
b c 09 b c 111 b c 013 a d 015 a d 0 我想
删除
前一列z
中值
相同
的
行
x和y
中值
为
1
的
行
。例如,对于第10
行
,我希望搜索
行
1:9中x= "b“、y= "c”和z=1
的
行
。如果在第1:9
行
中存在这样
浏览 2
提问于2017-04-28
得票数 4
回答已采纳
1
回答
用户定义对窗口中所有
行
的
函数
、
、
我有一组带有一组
字符串
特征ids
的
时间戳位置数据,这些ids被附加到每个位置。我想使用spark中
的
一个窗口将当前N
行
和下一个N
行
ala
的
所有这些特征id
字符串
的
数组连接起来:from
pyspark
.sql.window import WindowwindowSpec = Window \ .partition
浏览 2
提问于2017-04-13
得票数 1
回答已采纳
1
回答
左反团员
、
、
、
我有一个
dataframe
,它有两个列a和b,其中b列中
的
值是a列
中值
的
a子集。,其中anti_b列中
的
值是来自a列
的
任何值,这样a!=anti_b和
行
(a,anti_b)就不会出现在原始
的
数据格式中。** df = spark.createDataFrame(pandas.
DataFram
浏览 2
提问于2019-11-18
得票数 0
1
回答
字符串
中
的
Pyspark
双字符替换避免未映射到pandas或rdd
的
特定单词
、
、
、
、
我继承了一个修改
pyspark
dataframe
中一些
字符串
的
程序。其中一个步骤涉及从
字符串
中
的
一些单词中
删除
双/三/等字母,以及一个额外
的
例外列表,即使它们有重复
的
字母也会保持不变。目前,这是通过将
dataframe
转换为具有udf
的
pandas,然后在读回
pyspark
之前对生成
的
pandas
dataframe
中<em
浏览 7
提问于2021-03-15
得票数 0
回答已采纳
1
回答
将
Dataframe
激发到StringType
、
、
、
在
PySpark
中,如何将
Dataframe
转换为普通
字符串
?我将
PySpark
与Kafka一起使用,而不是硬编码代理名称,而是在
PySpark
中参数化了Kafka broker名称。这些变量
为
带有
字符串
的
Dataframe
类型。错误: 只能将
字符串
(不是
Dataframe
浏览 0
提问于2021-03-05
得票数 0
2
回答
Pandas groupby获取其中行匹配条件
的
组
的
第一个元素
、
、
、
我有一个
dataframe
,其中一些
行
除了一列之外,所有的值都是相同
的
。我希望
删除
重复
的
行
,只保留该列
中值
为
1
的
每个组中
的
第一
行
,或者如果该列中没有值
为
1,则保留任意一
行
。示例数据: '
浏览 2
提问于2018-02-14
得票数 1
回答已采纳
3
回答
根据值从
dataframe
中
删除
行
,忽略NAs
、
、
我有一个基于特定列
中值
的
数据,我想从其中
删除
行
。例如,
dataframe
显示如下所示:1 1 2 3 03 6 4 0 1我希望
删除
d列
中值
大于0
的
所有
行
。df$d > 0, ] 但这似乎起到了
删除
d列中带有安娜值
的
所有值
的
效果。我假设需要一个na.rm =
浏览 0
提问于2019-01-17
得票数 0
回答已采纳
2
回答
如何
删除
星火表列中
的
空白
、
、
、
、
我想从特定列(Purch_location)中
的
所有值中
删除
空格。我使用
的
是spark表,而不是
dataframe
或SQL表(但如果需要,我可以使用
dataframe
或SQL表)。下面是我
的
星火表
的
生成方式:cols = dataset.columns+----------+----导入regexp_replace from
pyspark</e
浏览 6
提问于2017-12-03
得票数 2
2
回答
将数据保存到HDFS
的
格式是什么?
、
、
、
创建
DataFrame
后,我可以将其保存为avro、csv或拼板格式。 在
dataframe
或rdd中是否有其他格式可用于在Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券