对`DataFrame`行进行内存高效过滤

下面的代码将使用从配置文件动态生成的不同查询执行超过150万次csv_file_profit = pd.read_csv('C:\\Users\\test_data.csv') profit_sum = csv_file_profit.query(query_str)['P/L'].sum() trans_count = csv_file_profit.query(query_s

浏览 2提问于2020-05-28得票数 0

回答已采纳

1回答

在Python中共享具有循环多处理的大熊猫DataFrame

、、、

在Windows机器上使用Python2.7，我在一个SQL查询中有一个大型的pandas DataFrame (大约700万行和20+列)，我想通过循环‘d来过滤这个查询，然后对结果过滤的数据运行计算我知道，如果我尝试使用Windows中的multiprocessing包中的标准方法，每个进程将生成一个大型DataFrame的新实例，供其自己使用，而我的内存将被消耗殆尽。因此，我试图使用我在上读到的信息，使我的DataFrame成为一个代理对象，并在

浏览 0提问于2016-02-24得票数 1

4回答

Pandas DataFrame的空拷贝

、、

我正在寻找一个高效的成语，用于创建一个新的Pandas DataFrame，其列和类型与现有的DataFrame相同，但没有行。下面的方法可以工作，但可能效率要低得多，因为它必须创建一个长的索引结构，然后对每一行进行计算。我假设这是行数中的O(n)，我希望找到一个O(1)解决方案(这还不算太糟)。在R中比较，一个很好的成语是做df[0,]，因为没有零行。df[NULL,]也能工作。

浏览 5提问于2020-12-07得票数 6

回答已采纳

1回答

熊猫-检查列中的值是否是同一列中另一个值的子字符串。

、、、、

我正在尝试编写一个脚本，它检查DataFrame的一个列，即每个值不是另一个值的子字符串，也不等于一个不同的列。我编写了一段代码，对每一行进行迭代并返回其他的子字符串值。举个例子： df = pd.DataFrame({'names': ['Bob', 'Sam', 'Tom', 'Bob'], 'value': ['abc', 'ab', 'de

浏览 1提问于2019-11-20得票数 2

回答已采纳

2回答

如何将一行的值与所有其他行进行比较？

、、

我想比较一下熊猫的每一行和所有其他行。拥有这个DataFrame： 2我知道我需要在变量中保留索引A的行，然后将其与循环中的所有其他行进行比较。完成此操作后，我将使用索引B移动到行，并对其他行重复此操作，包括带索引A

浏览 4提问于2019-10-10得票数 0

回答已采纳

1回答

对象相似度Pandas和Scikit学习

、、

是否有一种方法可以找到Pandas Dataframe中的行并根据它们与另一Dataframe中的一行的相似程度对行进行排序？

浏览 0提问于2017-08-09得票数 1

回答已采纳

2回答

通过检查一行的每一个元素过滤熊猫的数据

、、、

我有一个dataframe，它包含列中的一个对象。id_original'].iloc[0].ClassOut[20]: u'Classtype2'是否有任何方法可以用.isin

浏览 0提问于2018-06-13得票数 2

回答已采纳

2回答

如何获取熊猫数据中单元格的内容

、、

我希望能够在表中取出一个值，并在代码中的其他地方引用它，但我只能让print语句打印列。Animal, Name, AgeCat, John, 8}import pandas as pd 它应该打印出Ege (单元格的内容，而不是带索引的整列)。

浏览 0提问于2021-05-13得票数 3

回答已采纳

1回答

如何根据状态列拆分Pandas DataFrames

、、、、

我有一个看起来像下面这样的DataFrame： 0 0 2 20 2现在，我想选择状态为== 2的所有行，并对结果行进行分组，这些行不会被任何其他行状态打断，这样我以后就可以单独访问每个组。A 1 6 2 18 3 8 2 18 有没有一

浏览 6提问于2021-05-16得票数 0

回答已采纳

2回答

如何在一列由numpy数组组成的列上使用条件来索引数据帧？

、

我目前有一个pandas dataframe，它有一列数值是numpy数组。我正在尝试获取数据帧的行，其中列的值是一个空的numpy数组，但我不能使用pandas方法进行索引。B', 'C', 'D'], 'stats': [np.array([1,1,1]), np.array([]), np.array([2,2,2]), np.array([])]} df = pd.DataFrame(data) 我尝试只获取‘KeyError’为None的行，但

浏览 18提问于2021-08-24得票数 0

回答已采纳

1回答

多指标熊猫DataFrame的慢速迭代

、、

我有一个很大的dataFrame，有三个索引我已经确定了符合“i”和“j”给定公式的feasible_i_j行，这样我就可以使用.loc过滤df现在，我想对行进行dataFrame筛选，这些行的'k‘返回来自某些函数foo的True fo

浏览 0提问于2019-09-06得票数 0

回答已采纳

2回答

根据列值保持数据帧的行数百分比

、

假设我有一个这样的数据帧：df = pd.DataFrame({'id':['A','A', 'A', 'B','B'], 'value':[2, 4, 6,3, 4]}) col1 col21 A

浏览 2提问于2020-03-13得票数 2

1回答

基于标准的熊猫样本

、

我想使用熊猫的功能，但有一个标准，不分组或过滤数据。import pandas as pd这将对100行进行示例，但是如果我想要示例包含df['a']中1的0到50行的50行，该怎么办

浏览 3提问于2017-11-22得票数 3

回答已采纳

1回答

如何将`pandas.DataFrame`存储在熊猫中--可加载的二进制格式，而不是“寻址”

、、、、

我在节省pandas.DataFrame (14万行)方面有问题。从API中可以看到，存储(然后加载)数组的唯一可用选项是CSV或泡菜。保存泡菜格式以一个神秘的异常(SystemError: error return without exception set)结束，而使用CSV保存是浪费空间，即使它是压缩的(2字节长的np.float16比ASCII编码的值高效得多如何以可加载的、内存高效的(包括磁盘空间)格式存储数据？

浏览 2提问于2017-06-12得票数 0

回答已采纳

1回答

我如何迭代星火的DataFrame行？

、、、

我需要对DataFrame行进行迭代。我不想每次都将其转换为RDD并过滤所需的行，例如：def next = { index += 1} 有一个选项可以调用“收集”方法，它将返回ArrayRow，并对其进行迭代，但我相信，当有大量数据时，它将不起作用。val rowsIterator:Iterator[Row] =

浏览 3提问于2018-01-08得票数 3

4回答

熊猫FutureWarning切片0.21.0

、、、

我正在尝试选择dataframe子集的一个子集，只选择一些列，并对行进行过滤。现在正确的切片和过滤方法是什么？

浏览 12提问于2017-12-19得票数 41

回答已采纳

2回答

如何在数据库中读取列？

、、

Employee where name = 'Scott'; 通过从6.30到8.30(2分钟)的视频之后，我的理解是在关系数据库(如oracle/Mysql等)下，即使我必须读取两列，数据库管理系统也会从内存中读取完整的行，然后它将根据名称对行进行过滤，最后读取列工资。

浏览 0提问于2017-07-23得票数 1

回答已采纳

1回答

拥有vs WHERE和聚合函数MySQL工作台

、

上下文：I对编码非常陌生，在过去几个月转向之前，从开始大约2个月。我几乎是自学的，使用youtube视频和通过Udemy上课(就像选择这个问题听起来很傻一样)。我正在解决一个练习问题。我知道，一般来说，WHERE用于查询vs中所有记录的一般条件，用于进一步过滤，可以用于聚合函数，而WHERE不能用于聚合函数。我使用了我的代码中的位置和解决方案所使用的位置，但是每个代码都有一些不同。

浏览 1提问于2022-07-20得票数 0

回答已采纳

点击加载更多