腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(628)
视频
沙龙
1
回答
使用
分组
编码
优化
的
Pandas
数据
帧
计
数值
超过
阈值
、
、
、
我有一个很大
的
pandas
数据
帧
,我想要计算每一列中
超过
阈值
(零)
的
值
的
数量,按一个name列中
的
值进行
分组
。import numpy as np # Set up problem (also slow, but
浏览 6
提问于2020-02-24
得票数 1
2
回答
需要确定两个系列之间
的
任何求和值
的
组合是否
超过
阈值
、
我有几个有分数
的
数据
。我需要找出是否有任何加在一起
的
分
数值
超过
了一个
阈值
。import
pandas
as pd {'Node': 'A', 'Score': 1}, {'Node': 'B', 'Score': 2,A分数+E分数>
阈值
,.,C分数+F分数><e
浏览 1
提问于2019-08-26
得票数 0
回答已采纳
1
回答
有没有办法在numpy中执行这个子采样算法?
、
、
、
、
该算法只是从输入
数据
数组构建一个新
的
列表。它只在元素
超过
前一个存储元素
的
visibleDelta
阈值
时才从输入数组中追加一个新元素: subsampled = [datasubsampled) - 1]) > visibleDelta:问题是我需要在非常大
的
数据
集(~
浏览 0
提问于2016-03-07
得票数 2
2
回答
使用
更高效
的
内存方法对列进行热
编码
-- Python 3.6.x
、
、
、
我有一个方法,它对
pandas
数据
帧
中
的
列列表进行热
编码
,并删除原始列。虽然这对某些领域非常有效,但对于其他领域,这个过程需要令人难以置信
的
长时间。例如,我目前正在处理一个高度分类
的
数据
集(即,
超过
80个分类特征),其中单个特征将我带入
超过
100,000维度。 我正在寻找一个更
优化
,内存效率更高
的
例程,以一个热
编码
高维
数据
。下面是我目前
的
浏览 0
提问于2020-10-28
得票数 2
1
回答
使用
groupby().sum()函数后列丢失
、
我正在
使用
某个列名将一些
数据
分组
在一起,并对所有值求和。import
pandas
as pddata = pd.read_excel('Data_Cleaning.xlsx', sheetname='Expensesdata.set_index('ALL NUMBERS EXPRESSED IN SGD')print(data.head()) 在我对
浏览 3
提问于2019-08-21
得票数 1
1
回答
部分求和
pandas
列
、
、
我感兴趣
的
是对以下
数据
帧
进行部分求和: ID Name A B2 222 bar 331 944 222 bar 188 89 原始df中
的
第1行和第3行被
分组
。第2行和第4行被
分组
。第5行不与第1行和第3行
分组
,因为已
超
浏览 33
提问于2020-08-17
得票数 2
回答已采纳
5
回答
与oneHotEncoding
的
问题
、
、
因此,我在一个列中有一个带有分类变量
的
PandasDataFrame,我想对它进行一个热
编码
,我
使用
了来自ML课程
的
以下代码但是,我得到以下错误
使用
以下方法将一些信息Y从df转换为对象我想要
浏览 0
提问于2017-10-18
得票数 8
1
回答
我应该为我
的
Google Cloud VM选择什么磁盘映像,才能让
pandas
像在Mac上一样工作?
、
、
、
、
我在本地机器上运行了一个
数据
探索笔记本,发现
pandas
.read_csv()搞砸了我训练
数据
的
导入。 正确导入后,
数据
集是一个具有一列(“text”)
的
pandas
数据
帧
。该栏中
的
3000个条目中
的
每个条目都是来自生物医学文献语料库
的
文章。但是,在VM上发生
的
情况是,应用了某个长度
阈值
,
pandas
将给定文章
的</em
浏览 0
提问于2017-08-08
得票数 0
2
回答
PySpark将IntegerTypes转换为ByteType进行
优化
、
、
、
我通过拼图文件将大量
数据
读入到
数据
帧
中。我注意到大量
的
列都有1,0,-1作为值,因此可以从Int类型转换为Byte类型,以节省内存。我写了一个函数来做这件事,并返回一个新
的
dataframe,其中
的
值被转换为字节,但是当在UI中查看dataframe
的
内存时,我发现它只是保存为原始dataframe
的
转换,而不是新
的
dataframe本身,因此占用了相同
的
内存量。我是Spark
的
新手,可能不完全理解
浏览 3
提问于2018-02-01
得票数 5
3
回答
选中
Pandas
Python中
的
所有列后删除没有值
的
行
、
、
我有一个类似下面的
数据
框架。我想检查所有列,如果没有值,则删除行。 ?
浏览 32
提问于2020-09-17
得票数 0
2
回答
如何
使用
Pandas
样式器为基于给定列
的
整行着色?
、
、
我一直在尝试将
Pandas
数据
帧
打印到html,如果某一特定列
的
值
超过
阈值
,就会高亮显示特定
的
整行。我查看了
Pandas
Styler切片,并尝试为这种用途改变highlight_max函数,但似乎失败得很糟糕;如果我尝试用检查给定行
的
值是否高于所述
阈值
来替换is_max (例如,类似这样
的
内容),
浏览 2
提问于2017-04-25
得票数 17
回答已采纳
1
回答
Pandas
滚动
数据
帧
以创建集群
、
、
、
、
我可以
使用
大量
的
for循环来做到这一点,但这似乎效率很低。为了详细描述这个问题,下面是我
的
数据
帧
的
样子:├────────┼────────┼───────┤ │ 49076 │ 49095 │ 1现在,如果在这些窗口中
的
任何一个窗口中,计数列
的
总和
超过
阈值
(z),我希望该窗口
的
最小(开始)和最大(结束)以及总和作为行存储在新
的<
浏览 2
提问于2018-08-28
得票数 0
1
回答
如果重复,则在Python
Pandas
中返回相应
的
行值
、
、
、
我正在尝试对excel
的
一列进行排序,以显示重复
的
邮政
编码
。如果存在重复
的
邮政
编码
,我会尝试让
pandas
从重复
的
邮政
编码
中查找一列,对这些值求和,然后
使用
重复/求和
的
值创建一个新
的
列表。目前,我可以创建所有副本
的
列表,但我不知道下一步需要采取什么步骤。感谢任何帮助,因为我是
编码
新手。
浏览 27
提问于2019-11-09
得票数 0
回答已采纳
1
回答
在
pandas
中查找行x y z之间
的
几何距离
、
我有这样
的
数据
框架 x y z11202.3235 541.05555 2.835000e+01 需要找到与其他行
的
距离非常小
的
行。
浏览 16
提问于2020-12-12
得票数 0
2
回答
使用
pandas
有效地计算剩余可用寿命
、
我有一个
pandas
dataframe,它包含多个行,其中包含一个日期时间和一个感应值。我
的
目标是添加一个列,用于计算传感器值下次
超过
阈值
之前
的
天数。例如,对于
数据
<2019-01-05 11:00:00,200>,<2019-01-06 12:00:00,250>,<2019-01-07 13:00:00,300>,我希望额外
的
列看起来像1天,0天,0天,
阈值
在200和250之间,2天,1天,0天,
阈值<
浏览 41
提问于2019-05-03
得票数 1
回答已采纳
2
回答
如何自动将一个熊猫
数据
帧
分割成多个块?
、
、
、
我们有一个批处理系统,我们正在寻求修改,以
使用
多线程。该进程接受一个分隔文件,并通过
pandas
对其执行计算。 如果记录总数
超过
阈值
,我希望将
数据
帧
拆分为N个区块。假设有任意数量
的
线程,2(作为示例),如果记录数
超过
200000,我想开始拆分 所以想法是,如果我发送一个包含200001条记录
的
文件,线程1将获得100000条记录,线程2将获得100001条记录。(如果记录总数没有
超过
这个
阈值
,我只会
浏览 23
提问于2021-09-20
得票数 1
回答已采纳
1
回答
如何在多个dataframe lambda函数上实现dask映射分区?
、
、
、
、
我已经
使用
pandas
实现了两个
数据
帧
之间
的
模糊字符串匹配算法。我
的
问题是如何将其转换为
使用
多核
的
dask操作?我
的
程序在纯python上运行大约3-4天,我想并行操作以
优化
时间成本。('my_csv.csv', skipinitialspace=True, usecols=fields) 然后,我必须根据每个字符串关联
的
数值
将
数据
帧<
浏览 3
提问于2018-05-19
得票数 0
1
回答
使用
atol和
pandas
assert_frame_equal
的
意外通过测试
、
、
、
我正在尝试
使用
pandas
的
测试库来比较两个
数据
帧
。我不希望这些值完全相同才能使测试通过,所以我
使用
atol参数。Atol指定允许
的
absoulte容差。但是,当要比较
的
值变得很高时,即使
超过
容差
阈值
,测试也会通过。下面我提供两个可重现
的
例子:import
pandas
.testing df1 = pd.DataFram
浏览 23
提问于2021-05-27
得票数 2
1
回答
如何高效地将数千张高清照片加载到
pandas
df中并转换为HDF?
、
、
、
、
我想加载数以千
计
的
动物图像到熊猫df,添加功能,并可能转换为HDF。我
使用
cv2.imread()尝试了以下方法 import cv2import numpy as np data['Label'] = label data.to_hdf(path, key) 但如果只读取100张图片加上一个错误(
数值</e
浏览 16
提问于2020-01-10
得票数 2
回答已采纳
1
回答
对于Vaex
数据
,是否有相当于`to_json`
的
数据
?
、
、
我目前正在开发一个Dash应用程序来可视化大量
的
数据
。考虑到可伸缩性问题,我试图从
Pandas
迁移到Vaex库,以延迟加载
数据
并
优化
数据
集
的
循环扫描(每次用户与过滤器、采样
阈值
或其他参数交互时)。Dash
使用
dcc.Store组件以JSON格式存储
数据
,目前对我
的
应用程序至关重要。到目前为止,我正在
使用
to_json方法来转换我
的
Pandas
<e
浏览 2
提问于2022-03-15
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python评分卡建模—卡方分箱(2)之代码实现
Scikit-Learn大变化:合并Pandas
机器学习-数据预处理
Pandas 2.0 vs Polars:速度的全面对比
Excel自动化:Python+Pandas,数据处理从未如此轻松!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券