腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark
:
过滤掉
数据
框
中
列
值
多次
出现
的
行
python
、
pyspark
给定一个包含两
列
的
PySpark
数据
帧,我希望将
数据
集拆分为两个
数据
帧:一个是ColA和ColB
的
组合是唯一
的
,另一个是不是唯一
的
。ColCDoesntMatter1 | 3 | 31 | 2 | 62 | 3 | 9 唯一
的
A/B配对是: 1-3 2-3 非唯一
浏览 8
提问于2019-02-22
得票数 1
回答已采纳
1
回答
使用Apache光束根据计数进行过滤
google-cloud-dataflow
、
apache-beam
、
dataflow
我正在使用Dataflow和Apache Beam处理一个
数据
集,并将结果存储在一个有两
列
的
无头csv文件
中
,如下所示: A1,aA3,bA5,c ...我想根据以下两个条件
过滤掉
某些条目: 1-在第二
列
中
,如果某个
值
出现
的
次数小于N,则删除所有此类
行
。例如,如果N=10和c只
出现
了7次,那么我希望所有这些行都被
过滤掉
。2-在第二
列
浏览 55
提问于2020-06-12
得票数 1
1
回答
如何转换
pyspark
dataframe
列
的
值
?
python
、
sql
、
apache-spark
、
pyspark
、
data-science
我在
pyspark
数据
框
中有一
列
表示电子设备
的
年龄,这些
值
是以毫秒为单位给出
的
。有没有一种简单
的
方法将该
列
的
值
转换为年份?我不是很精通Spark。编辑:我知道你可以很容易地用基本
的
数学将毫秒转换为年,我正在尝试获取
pyspark
数据
帧
的
一
列
,并迭代它,并将所有
列
值
转换为不同<
浏览 17
提问于2021-05-20
得票数 1
1
回答
使用
PySpark
sql函数
python
、
pyspark
此函数:lg = F.log(5.2)返回: at java.lang.Thread.run(Thread.java:745) 文档指向在
数据
帧中使用函数df.select(log(df.age).alias('e')).rdd.map(lambda l: str(l.
浏览 8
提问于2017-03-07
得票数 0
回答已采纳
1
回答
是否只读取符合条件
的
.parquet文件
的
特定
行
?
python
、
pyspark
、
pyarrow
我正在处理一个充满.parquet文件
的
文件系统。其中一
列
'id‘唯一地标识了一台机器。我能够使用
pyspark
打开某个目录路径
中
的
所有.parquet文件,然后从'id‘
列
创建一组
值
([])。我想打开所有其他文件
中
的
所有其他
行
,其中'id‘与先前计算
的
集合
中
的
一个
值
相匹配。 我可以通过
pyspark</em
浏览 27
提问于2019-10-19
得票数 1
回答已采纳
1
回答
排除R
中
具有模式匹配
的
行
r
假设我有一个
列
很少
的
数据
框
。如何
过滤掉
(从其中一
列
中
)具有模式加入
值
的
行
列
中
的
几个
值
是IADDR、IADDX、IADDV 我试过filter(!
浏览 2
提问于2020-10-30
得票数 0
1
回答
pyspark
使用'in‘子句将一个RDD馈送到另一个RDD
pyspark
、
spark-dataframe
、
rdd
、
pyspark-sql
我有一个
pyspark
RDD (myRDD),它是一个可变长度
的
ID列表,比如我有一个包含
列
ID和value
的
pyspark
数据
框架(myDF)。myDF.select(F.collect_set("
浏览 26
提问于2017-08-24
得票数 0
3
回答
如何根据类别计数过滤
数据
帧
r
、
filtering
如何对
数据
帧进行子集,以便只包含包含
值
在其他
行
中
出现
一定次数
的
列
的
行
。 例如,如果我有一
列
标签为“食物”
的
列
,我如何
过滤掉
在整个
数据
帧中
出现
少于5次
的
食物
的
所有
行
?
浏览 0
提问于2011-07-23
得票数 6
回答已采纳
1
回答
如何在pandas
数据
帧
中
删除所有重复
出现
的
项或获取唯一
值
?
python
、
pandas
、
numpy
、
dataframe
我有一个具有
多次
出现
特定
值
的
pandas
数据
框
。我希望删除所有重复
的
值
或替换为NaN,并最终获得具有任意数量
的
唯一
值
的
列
的
名称。Pandas drop_duplicates函数只删除有重复
值
的
行
,但我想删除
数据
框
中
的
值
浏览 56
提问于2019-04-02
得票数 1
回答已采纳
1
回答
Scala :根据预定义
的
Array Spark 1.6
中
存在
的
列
值
过滤DF
行
scala
、
dataframe
、
apache-spark
、
pyspark
、
user-defined-functions
我
的
问题和很相似| 15| muskmelon|+--------+-----------+| 6| grapes||
浏览 7
提问于2020-08-15
得票数 0
2
回答
如何在删除重复行时将一个或多个
值
保留在一
列
中
?
r
、
dataframe
我正在尝试删除
数据
框
的
一
列
中
具有重复
值
的
行
。我希望确保该
列
中
的
所有现有
值
都被表示出来,如果另一
列
中
的
值
没有重复且不丢失,则
多次
出现
;如果另一
列
中
的
值
全部丢失,则只
出现
一次。ideal &
浏览 0
提问于2020-07-01
得票数 1
1
回答
过滤来自
pyspark
数据
帧
的
负值
dataframe
、
filter
、
pyspark
我有一个>40
列
的
spark dataframe,其中
的
值
是混合
值
。如何一次只从所有
列
中选择正值并
过滤掉
负值?我访问了[ ],但没有一个解决方案有效。我想将朴素贝叶斯拟合到
pyspark
中
,其中一个假设是所有特征都必须是积极
的
。如何通过仅从我
的
特征中选择正值来准备相同
的
数据
?
浏览 2
提问于2018-03-19
得票数 1
1
回答
如何筛选出满为空或列表之和等于0
的
列表?
filter
、
pyspark
、
apache-spark-sql
在
pyspark
中
,我们可以很容易地过滤出特定
列
中
的
单个空
值
,方法如下:但是,在我
的
例子
中
,
列
中
的
值
变成了[null,null,null]或[0,0,0],我想知道如何
过滤掉
这两种情况。
浏览 4
提问于2021-07-07
得票数 0
回答已采纳
1
回答
如何选择
Pyspark
列
并将其作为新
行
添加到
数据
框
中
?
apache-spark
、
pyspark
、
pyspark-sql
、
pyspark-dataframes
我想提取一
列
,并将其
值
作为新
行
附加到
数据
框
中
。例如,如果我有一个这样
的
数据
框
: ---------------------------------------------------------------------------------------------------------------------
浏览 18
提问于2019-12-29
得票数 0
回答已采纳
2
回答
如何按索引位置筛选出pandas
数据
框
中间
的
行
python
、
pandas
我有一个包含20,000个观测
值
的
熊猫
数据
框架。我只想
过滤掉
观察
值
879。我尝试了以下几种方法: df.iloc-879, 不过,这只产生了列名。如何在
数据
框
中间删除特定
的
一
列
?建议如下:如何从
数据
帧
的
单元格
中
获取值? 它没有回答这个问题。它展示了如何基于
列
值
过滤从单元格中提取一个
值
。我需要按索引位置进行过滤,并且只需要在<em
浏览 11
提问于2020-06-18
得票数 1
回答已采纳
1
回答
Pyspark
:如何使用UDF过滤表?
python
、
pyspark
、
filter
我有一个
数据
帧,我想根据一
列
过滤掉
一些
行
。但我
的
条件相当复杂,需要一个单独
的
函数,这不是我可以在单个表达式或where子句中完成
的
事情。我
的
计划是根据是保留还是
过滤掉
该行来返回True或False:from
pyspark
.sql.function import'col1' \
浏览 0
提问于2021-07-16
得票数 0
1
回答
在
Pyspark
中
查找相关
的
文档名称
python
、
pyspark
、
pyspark-sql
我有一个包含两
列
(id,name)
的
数据
框
。名称
列
具有相关
的
名称。例如,术语,相关术语,相关
行
,
行
。 我想在不同
的
行
中找到相似的名字。我已经尝试了余弦相似度,但无法实现这一点。我已经使用
pyspark
计算了TF-IDF。寻找使用
pyspark
在不同行
中
获取相关名称
的
方法。
浏览 11
提问于2018-02-23
得票数 0
1
回答
具有给定术语
的
文档
的
PySpark
HashingTF计数
dataframe
、
pyspark
、
tf-idf
我有一个spark
数据
框
,其中
的
" text“列有一些文本。我想要计算
出现
各种单词
的
行数-本质上是
出现
“术语”
的
“文档”
的
数量-以及相关
的
计数,如最频繁
的
单词,具有最频繁单词
的
行
(或称为文档)。我正在使用来自
pyspark
.ml.feature
的
HashingTF。但是似乎找不到一种有效
的
方法来从输出中提取这些信息。H
浏览 25
提问于2021-08-31
得票数 0
回答已采纳
2
回答
作为记录
数据
出现
在
Pyspark
数据
库
中
的
列名
python-3.x
、
pyspark
、
databricks
、
databricks-sql
我从Kaggle (Covid Live.csv)下载了一个示例csv文件,表
中
的
数据
在可视化代码
中
打开时如下所示(原始CSV
数据
仅为部分
数据
)#,"Country,from
pyspark
.sql.types import * df1 = spark.read.format("c
浏览 9
提问于2022-10-21
得票数 0
1
回答
如何在
pyspark
中
对字符串numpy数组
列
进行筛选
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一张火花放电
数据
foo = pd.DataFrame({'col':[['a_b', 'bad'],['a_a', 'good'],[]]})我尝试首先创建一个二进制
列
,然后对这个
列
进行筛选: from
pyspark
.sql im
浏览 2
提问于2021-04-08
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
必学包之dplyr包
Excel 列表中的数值如何带小数点编号?“.”后面就是出现的次数
快速掌握R语言中类SQL数据库操作技巧
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券