腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
有没有
一种
更快
的
方法来
根据
重复
值
的
数量
来
过滤
Pandas
数据
帧
?
python
、
pandas
目前,我正在使用以下函数; df['i'] = df.groupby(['i']).filter(lambda i: len(i) > 500) 在其他
数据
帧
上测试后,这可以按预期工作,但处理大量组时除外我正在尝试对大约50,000个组使用它,到目前为止还没有看到我
的
程序处理这一行。我让程序运行
的
最长时间是不到48小时。 Edit:假设lambda函数不会删除所有组,该方法适用于大型组。将一个组
的
最小长度减少到250,允许程序在30秒内执行。
浏览 17
提问于2021-01-20
得票数 1
回答已采纳
1
回答
使用函数
过滤
pandas
数据
帧
python
、
pandas
、
dataframe
假设我有一个具有列A, B, C, D, E, F, G, H
的
pandas
dataframe df,并且我想使用一个函数functn来
过滤
数据
帧
,该函数接受一个“行”,并
根据
该行是否满足特定条件返回
有没有
一种
方法可以有效地
过滤
这个
数据
帧
而不使用又长又难看
的
lambda?到目前为止,我
的
解决方案如下所示: df = df[df.apply(functn, axi
浏览 17
提问于2017-12-14
得票数 2
回答已采纳
2
回答
在Python中计算if (COUNTIF)和add到
数据
帧
python
、
pandas
、
dataframe
、
duplicates
、
countif
我有一个
数据
帧
,它有很多
重复
项。我找到了许多解决方案
来
查找
重复
项
的
数量
,但不是我想要
的
方式。如果新列
的
重复
数小于或等于2,
有没有
办法计算新列中
的
重复
数?
数据
帧
如下所示: NAME1 Peter3 Jack5 Luke 但我希望它看起来像这样:
浏览 22
提问于2019-02-13
得票数 2
回答已采纳
2
回答
如何使用
pandas
从以第一个单词为列
的
文本文件创建
数据
帧
?
python
、
pandas
、
dataframe
、
data-science
我有一个有数百万行
的
数据
集。我需要
一种
更快
的
方法来
创建以下格式
的
数据
帧
: column_1 column_2 Yes Go to SchoolYes Go to School No Play video games for hours
有没有
<em
浏览 36
提问于2020-12-28
得票数 0
1
回答
如何在dask中找到
数据
帧
的
长度?
python
、
pandas
、
dask
如何使用dask找到
数据
帧
的
长度?例如,在熊猫中,我可以这样做:import numpy as np我需要长度
的
真正原因是因为df_dask.sample()需要一个小数,而我想从
数据
<em
浏览 0
提问于2018-05-28
得票数 6
2
回答
查询多选查询
python
、
postgresql
、
pandas
、
sqlalchemy
到目前为止,我正在逐个迭代
pandas
数据
帧
,并
根据
几个
数据
帧
值
向
数据
库发出select查询,以检查
数据
是否存在。in dataframe.iterrows():如果
数据
量很大我只是好奇,
有没有
一种</e
浏览 4
提问于2018-10-22
得票数 0
1
回答
如何计算R quosure中
的
变量
数量
?
r
、
dplyr
、
tidyverse
、
rlang
、
tidyeval
假设我有一个函数,它使用非标准求值(NSE)接收一个
数据
帧
和该
数据
帧
中不同
数量
的
变量。
有没有
一种
更快
/更直接
的
方法来
计算提供
的
变量
的
数量
,而不是select()这些变量并计算列数?
浏览 10
提问于2018-08-11
得票数 4
1
回答
测试
Pandas
数据
框
值
并修改它们
的
正确方法
python
、
pandas
我需要
根据
测试修改
Pandas
数据
帧
的
一些
值
,而保持其他
值
不变。我还需要保持行
的
顺序不变。for index, row i
浏览 10
提问于2019-07-10
得票数 0
回答已采纳
2
回答
过滤
掉python
pandas
中两个百分位数之间
的
数据
python
、
pandas
、
numpy
我有
pandas
数据
帧
,我想要消除列
的
极值。例如:我有一个叫做df
的
pandas
数据
框,还有一个叫做percentage
的
列。我想
根据
以下条件
过滤
出
数据
框,
根据
percentage列中
的
值
消除前10个百分位数和最后10个百分位数。 我想把它
过滤
到10%到90%。df.percentage > np.percentile(d
浏览 30
提问于2019-04-28
得票数 1
回答已采纳
0
回答
正确访问存在
重复
索引
值
的
切片
pandas
、
indexing
我有一个带有索引
的
dataframe,它有时包含具有相同索引
值
的
行。现在,我想对该
数据
帧
进行切片,并
根据
行索引设置
值
。考虑以下示例:df.set_indexwarning df1.iloc[0:2]['values'] = 9
浏览 2
提问于2017-11-28
得票数 1
回答已采纳
2
回答
如何使用Scala在Spark SQL中按日期范围列表进行
过滤
scala
、
apache-spark
、
dataframe
假设我们有一个名为df
的
数据
框,其中有一个名为"DATE“
的
列。我知道我们可以用df.filter(col("DATE").between(startDate, endDate))按日期范围
过滤
数据
框,或者用df.filter(col("DATE").between(startDate, endDate) || col("DATE").between(startDate1, endDate1) || ...)按多个日期范围
过滤
浏览 3
提问于2018-12-08
得票数 0
1
回答
如何使用匹配
值
对
数据
进行分组
python
、
pandas
我刚开始使用
Pandas
,我正在尝试重构一个
数据
帧
,以删除第一列中
的
重复
项,同时保留每个
重复
项
的
数量
,并取第二列中
的
值
的
总和。1 | B | 1 | 5 |+---+------+--------+-------+ 到目前为止,我还没有找到
一种
有效
的
方法来
做到这
浏览 2
提问于2019-04-05
得票数 0
1
回答
pandas
奇特
的
索引和合并
python
、
pandas
在通过花哨
的
索引
过滤
后,将更改合并回
pandas
数据
帧
的
最简单方法是什么?d[d.x % 2 == 0]['y'] = 0 “奇特
的</em
浏览 0
提问于2013-01-13
得票数 4
1
回答
非常大
的
制表符分隔
的
文本文件
的
列选择
python
、
r
、
large-files
我正在处理一个非常大
的
以制表符分隔(大约20000行* 30000列)
的
.txt形式
的
表,这使得文件大于20 tab。我检查了桌面的内存,似乎无法直接使用R中
的
read.delim或python中
的
pandas
来
读取该文件。我目前正在考虑基于列
的
过滤
器制作表
的
一个小子集,新
的
文本文件将是20000行* 1200列。我已经将目标文件
的
列名保存在另一个文件中,我猜我
的
浏览 34
提问于2020-10-19
得票数 0
回答已采纳
1
回答
根据
细胞
的
相对
值
给熊猫中
的
细胞着色
python
、
python-3.x
、
pandas
我想要给(python)
pandas
数据
帧
的
单元格着色,
根据
它们
的
值
是在此列中
数据
的
前5%,前10%,...,最后10%,最后5%。
根据
这篇文章
的
Coloring Cells in
Pandas
,一个人可以定义一个函数,然后将其应用于
数据
帧
。 如果你想在一个固定
的
范围内给单元格上色,这是很好
的
。但是,如果只想
浏览 9
提问于2019-04-20
得票数 0
回答已采纳
1
回答
获取“
pandas
”中一个变量中另一个变量为真的每个变量
的
比例
python
、
pandas
、
dataframe
我在
pandas
中有一个
数据
帧
,它包含一个列'A‘和一个布尔
值
列'B’,我想找出'A‘
的
值
,对于这些
值
,至少有一定
数量
的
n行
的
'B’为真。我能想到
的
最接近
的
是然后看看这些数字,看看哪些大于,n。
有没有
浏览 0
提问于2014-03-11
得票数 2
1
回答
尝试使用列表从
pandas
系列中删除大量文本
python
、
performance
、
list
、
pandas
、
nlp
我
的
问题基本上是这样
的
。我有一个
pandas
dataframe,它
的
一个列包含相当多
的
文本(通常是20到200个单词)。这个
数据
帧
大约有600k行。最重要
的
是,我有一个单词列表,大约有15万个条目长,需要从
数据
帧
中
的
字符串中
过滤
掉。我目前正在使用这个
方法来
做这件事: reports['Re
浏览 0
提问于2018-06-14
得票数 0
3
回答
Pandas
:基于现有列
的
值
创建新列
python
、
pandas
我有一个包含两列
的
pandas
数据
帧
,如下所示: A BYes YesNo NoNA NA 我希望基于这些
值
创建一个新列,以便如果有任何列
值
为Yes,则新列中
的
值
也应该为Yes。如果两列都具有
值
No,则新列也将具有
值
No。最后,如果两个列
的
值
都为NA,则新列
的
输出
浏览 12
提问于2020-05-02
得票数 4
回答已采纳
1
回答
用复杂
的
规则快速填充
pandas
数据
帧
的
缺失
值
python
、
algorithm
、
pandas
、
dataframe
、
variable-assignment
在m*(n+1)
pandas
dataframe data_df中,有一个timestamp列,它
的
值
可能是range(0,p) (表示时间;总共有p个唯一
值
)中
的
重复
整数,并且没有遗漏
的
值
。还有其他列data_1、data_2、data_3、... data_n,每个列都缺少一些
值
。 我想使用与该行
的
timestamp
值
相关
的
特定数字
来
填充
数据</em
浏览 0
提问于2017-01-16
得票数 0
2
回答
从多个子文件夹加载未知
数量
的
文件
python
、
pandas
、
loading
我在多个子文件夹中获取了不同
数量
的
检测器
数据
,基本上我需要将它们组合到一个
pandas
数据
帧
中。使用给出:例如,1464个文件 /
浏览 0
提问于2020-06-26
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何只用一行代码让 Pandas 加速四倍?
一文学会在Python中利用过滤器方法进行深度学习特征选择
如何只用一行代码让Pandas加速四倍?
pandas系列学习(五):数据连接
对比3款Pandas可视化GUI界面工具,再见吧,Excel!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券