使用分组编码优化的Pandas数据帧计数值超过阈值

、、、

我有一个很大的pandas数据帧，我想要计算每一列中超过阈值(零)的值的数量，按一个name列中的值进行分组。import numpy as np # Set up problem (also slow, but

浏览 6提问于2020-02-24得票数 1

2回答

需要确定两个系列之间的任何求和值的组合是否超过阈值

、

我有几个有分数的数据。我需要找出是否有任何加在一起的分数值超过了一个阈值。import pandas as pd {'Node': 'A', 'Score': 1}, {'Node': 'B', 'Score': 2，A分数+E分数>阈值，.，C分数+F分数><e

浏览 1提问于2019-08-26得票数 0

回答已采纳

1回答

有没有办法在numpy中执行这个子采样算法？

、、、、

该算法只是从输入数据数组构建一个新的列表。它只在元素超过前一个存储元素的visibleDelta阈值时才从输入数组中追加一个新元素： subsampled = [datasubsampled) - 1]) > visibleDelta:问题是我需要在非常大的数据集(~

浏览 0提问于2016-03-07得票数 2

2回答

使用更高效的内存方法对列进行热编码-- Python 3.6.x

、、、

我有一个方法，它对pandas数据帧中的列列表进行热编码，并删除原始列。虽然这对某些领域非常有效，但对于其他领域，这个过程需要令人难以置信的长时间。例如，我目前正在处理一个高度分类的数据集(即，超过80个分类特征)，其中单个特征将我带入超过100,000维度。我正在寻找一个更优化，内存效率更高的例程，以一个热编码高维数据。下面是我目前的

浏览 0提问于2020-10-28得票数 2

1回答

使用groupby().sum()函数后列丢失

、

我正在使用某个列名将一些数据分组在一起，并对所有值求和。import pandas as pddata = pd.read_excel('Data_Cleaning.xlsx', sheetname='Expensesdata.set_index('ALL NUMBERS EXPRESSED IN SGD')print(data.head()) 在我对

浏览 3提问于2019-08-21得票数 1

1回答

部分求和pandas列

、、

我感兴趣的是对以下数据帧进行部分求和： ID Name A B2 222 bar 331 944 222 bar 188 89 原始df中的第1行和第3行被分组。第2行和第4行被分组。第5行不与第1行和第3行分组，因为已超

浏览 33提问于2020-08-17得票数 2

回答已采纳

5回答

与oneHotEncoding的问题

、、

因此，我在一个列中有一个带有分类变量的PandasDataFrame，我想对它进行一个热编码，我使用了来自ML课程的以下代码但是，我得到以下错误使用以下方法将一些信息Y从df转换为对象我想要

浏览 0提问于2017-10-18得票数 8

1回答

我应该为我的Google Cloud VM选择什么磁盘映像，才能让pandas像在Mac上一样工作？

、、、、

我在本地机器上运行了一个数据探索笔记本，发现pandas.read_csv()搞砸了我训练数据的导入。正确导入后，数据集是一个具有一列(“text”)的pandas数据帧。该栏中的3000个条目中的每个条目都是来自生物医学文献语料库的文章。但是，在VM上发生的情况是，应用了某个长度阈值，pandas将给定文章的</em

浏览 0提问于2017-08-08得票数 0

2回答

PySpark将IntegerTypes转换为ByteType进行优化

、、、

我通过拼图文件将大量数据读入到数据帧中。我注意到大量的列都有1,0，-1作为值，因此可以从Int类型转换为Byte类型，以节省内存。我写了一个函数来做这件事，并返回一个新的dataframe，其中的值被转换为字节，但是当在UI中查看dataframe的内存时，我发现它只是保存为原始dataframe的转换，而不是新的dataframe本身，因此占用了相同的内存量。我是Spark的新手，可能不完全理解

浏览 3提问于2018-02-01得票数 5

3回答

选中Pandas* Python中的所有列后删除没有值的行*

、、

我有一个类似下面的数据框架。我想检查所有列，如果没有值，则删除行。 ? 

浏览 32提问于2020-09-17得票数 0

2回答

如何使用Pandas样式器为基于给定列的整行着色？

、、

我一直在尝试将Pandas数据帧打印到html，如果某一特定列的值超过阈值，就会高亮显示特定的整行。我查看了Pandas Styler切片，并尝试为这种用途改变highlight_max函数，但似乎失败得很糟糕；如果我尝试用检查给定行的值是否高于所述阈值来替换is_max (例如，类似这样的内容)，

浏览 2提问于2017-04-25得票数 17

回答已采纳

1回答

Pandas滚动数据帧以创建集群

、、、、

我可以使用大量的for循环来做到这一点，但这似乎效率很低。为了详细描述这个问题，下面是我的数据帧的样子：├────────┼────────┼───────┤ │ 49076 │ 49095 │ 1现在，如果在这些窗口中的任何一个窗口中，计数列的总和超过阈值(z)，我希望该窗口的最小(开始)和最大(结束)以及总和作为行存储在新的<

浏览 2提问于2018-08-28得票数 0

1回答

如果重复，则在Python Pandas中返回相应的行值

、、、

我正在尝试对excel的一列进行排序，以显示重复的邮政编码。如果存在重复的邮政编码，我会尝试让pandas从重复的邮政编码中查找一列，对这些值求和，然后使用重复/求和的值创建一个新的列表。目前，我可以创建所有副本的列表，但我不知道下一步需要采取什么步骤。感谢任何帮助，因为我是编码新手。

浏览 27提问于2019-11-09得票数 0

回答已采纳

1回答

在pandas中查找行x y z之间的几何距离

、

我有这样的数据框架 x y z11202.3235 541.05555 2.835000e+01 需要找到与其他行的距离非常小的行。

浏览 16提问于2020-12-12得票数 0

2回答

使用pandas有效地计算剩余可用寿命

、

我有一个pandas dataframe，它包含多个行，其中包含一个日期时间和一个感应值。我的目标是添加一个列，用于计算传感器值下次超过阈值之前的天数。例如，对于数据<2019-01-05 11:00:00,200>，<2019-01-06 12:00:00,250>，<2019-01-07 13:00:00,300>，我希望额外的列看起来像1天，0天，0天，阈值在200和250之间，2天，1天，0天，阈值<

浏览 41提问于2019-05-03得票数 1

回答已采纳

2回答

如何自动将一个熊猫数据帧分割成多个块？

、、、

我们有一个批处理系统，我们正在寻求修改，以使用多线程。该进程接受一个分隔文件，并通过pandas对其执行计算。如果记录总数超过阈值，我希望将数据帧拆分为N个区块。假设有任意数量的线程，2(作为示例)，如果记录数超过200000，我想开始拆分所以想法是，如果我发送一个包含200001条记录的文件，线程1将获得100000条记录，线程2将获得100001条记录。(如果记录总数没有超过这个阈值，我只会

浏览 23提问于2021-09-20得票数 1

回答已采纳

1回答

如何在多个dataframe lambda函数上实现dask映射分区？

、、、、

我已经使用pandas实现了两个数据帧之间的模糊字符串匹配算法。我的问题是如何将其转换为使用多核的dask操作？我的程序在纯python上运行大约3-4天，我想并行操作以优化时间成本。('my_csv.csv', skipinitialspace=True, usecols=fields) 然后，我必须根据每个字符串关联的数值将数据帧<

浏览 3提问于2018-05-19得票数 0

1回答

使用atol和pandas* assert_frame_equal的意外通过测试*

、、、

我正在尝试使用pandas的测试库来比较两个数据帧。我不希望这些值完全相同才能使测试通过，所以我使用atol参数。Atol指定允许的absoulte容差。但是，当要比较的值变得很高时，即使超过容差阈值，测试也会通过。下面我提供两个可重现的例子：import pandas.testing df1 = pd.DataFram

浏览 23提问于2021-05-27得票数 2

1回答

如何高效地将数千张高清照片加载到pandas* df中并转换为HDF？*

、、、、

我想加载数以千计的动物图像到熊猫df，添加功能，并可能转换为HDF。我使用cv2.imread()尝试了以下方法 import cv2import numpy as np data['Label'] = label data.to_hdf(path, key) 但如果只读取100张图片加上一个错误(数值</e

浏览 16提问于2020-01-10得票数 2

回答已采纳

1回答

对于Vaex数据，是否有相当于`to_json`的数据？

、、

我目前正在开发一个Dash应用程序来可视化大量的数据。考虑到可伸缩性问题，我试图从Pandas迁移到Vaex库，以延迟加载数据并优化数据集的循环扫描(每次用户与过滤器、采样阈值或其他参数交互时)。Dash使用dcc.Store组件以JSON格式存储数据，目前对我的应用程序至关重要。到目前为止，我正在使用to_json方法来转换我的Pandas<e

浏览 2提问于2022-03-15得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

需要确定两个系列之间的任何求和值的组合是否超过阈值

有没有办法在numpy中执行这个子采样算法？

使用更高效的内存方法对列进行热编码-- Python 3.6.x

使用groupby().sum()函数后列丢失

部分求和pandas列

与oneHotEncoding的问题

我应该为我的Google Cloud VM选择什么磁盘映像，才能让pandas像在Mac上一样工作？

PySpark将IntegerTypes转换为ByteType进行优化

选中Pandas* Python中的所有列后删除没有值的行*

如何使用Pandas样式器为基于给定列的整行着色？

Pandas滚动数据帧以创建集群

如果重复，则在Python Pandas中返回相应的行值

在pandas中查找行x y z之间的几何距离

使用pandas有效地计算剩余可用寿命

如何自动将一个熊猫数据帧分割成多个块？

如何在多个dataframe lambda函数上实现dask映射分区？

使用atol和pandas* assert_frame_equal的意外通过测试*

如何高效地将数千张高清照片加载到pandas* df中并转换为HDF？*

对于Vaex数据，是否有相当于`to_json`的数据？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐