问：[Pandas]如何在非常大的df中有效地为具有多个条目的个体分配唯一ID

答：在非常大的DataFrame中为具有多个条目的个体分配唯一ID，可以使用Pandas库中的groupby和cumcount方法来实现。

首先，使用groupby方法按照个体的唯一标识进行分组。然后，使用cumcount方法为每个分组中的个体分配唯一的序号。

下面是一个示例代码：

import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({'个体标识': ['A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'C'],
                   '条目': ['条目1', '条目2', '条目1', '条目2', '条目3', '条目1', '条目2', '条目3', '条目4']})

# 使用groupby和cumcount方法为每个个体分配唯一ID
df['唯一ID'] = df.groupby('个体标识').cumcount() + 1

# 打印结果
print(df)

运行以上代码，输出结果如下：

  个体标识   条目  唯一ID
0    A  条目1     1
1    A  条目2     2
2    B  条目1     1
3    B  条目2     2
4    B  条目3     3
5    C  条目1     1
6    C  条目2     2
7    C  条目3     3
8    C  条目4     4

在这个示例中，根据个体标识进行分组后，使用cumcount方法为每个分组中的个体分配了唯一的ID。

这种方法适用于非常大的DataFrame，因为它只需要对每个分组进行计数，而不需要遍历整个DataFrame。这样可以提高处理大数据集的效率。

腾讯云相关产品和产品介绍链接地址：

查看Python相关矩阵条目的常见观察计数的快速方法

、、、

假设我有一个名为pandas.DataFrame的df。df的列表示不同的个体，索引轴表示时间，因此(i，j)条目是单个j对时间段i的观测，我们可以假设所有数据都是float类型，可能有NaN值。在我的例子中，我有大约14,000列和几百行。 pandas.corr会给我14,000乘14,000的相关矩阵，它的时间性能对我的应用程序来说是很好的。但我也想知道，对于每一对个体(j_1，j_2)，在相关计算中有多少非零观测，这样我就可以分离出数据覆盖率较差的相关细胞。我想出的最好办法是： not_null_locations = pandas.notnull(df).values.asty

浏览 3提问于2013-08-14得票数 7

回答已采纳

1回答

使用tidyverse函数pivot_wider时出错

、、

输入image description hereDear all，我有一个非常大的文件(14,566,680条记录)，其中有2个变量(ID和A)。第一个变量(ID)是个体(n=258)，每个个体有56,460条记录(A) 我想写出一个“转置”文件(即258行和54460列)。当我执行以下代码时： system.time(snp1 %>% #filter(`Sample ID`=='8362974') %>% select(`Sample ID`,A) %>% mutate(id = row_number()) %>% #hea

浏览 72提问于2020-01-23得票数 0

回答已采纳

3回答

基于另一列的值在pandas中创建新列

、

我有一些关于不同个体性别的数据集。假设数据集如下所示： Male Female Male and Female Male Male Female Trans Unknown Male and Female 一些人认为自己是男性，一些人认为自己是女性，还有一些人认为自己既是男性又是女性。现在，我要做的是在Pandas中创建一个新列，该列映射 Males to 1, Females to 2, Others to 3 我写了一些代码 def gender(x): if x.str.contains("Male") return 1 elif x.

浏览 3提问于2016-09-19得票数 3

回答已采纳

2回答

循环遍历数据帧比较对

、、

我创建了以下数据格式： set.seed(42) df1 = data.frame(pair = rep(c(1:26),2), size = rnorm(52,5.4,1.89)) 它表示由“对”列指定的具有一定大小的个体的随机对。随机分布(5.4，1.89)是基于我在我的研究中抽样的组(N=26对)的观测数据。我现在想问一个非常基本的问题，我无法用我的方式编码到：想象一下，在平均值(5.4)处有一条水平线，将人口分成两部分：在同一条线上，有多少比例的个体与另一个个体成对？也就是说，是否有一种倾向，即小与小，大与大？我想把我观察到的比例和多次“问”上面的问题所产生的比例进行比较(例

浏览 0提问于2017-01-17得票数 1

回答已采纳

3回答

管道从外壳进入jupyter笔记本电池

、、、

是否有人知道如何将shell命令( csvkit工具调用链)的输出流到jupyter笔记本单元，但特别是在Pandas DataFrame中。从单元格的内容来看，它应该是这样的： output = !find /path -name "*.csv" | csvstack ... | csvgrep ... df = DataFrame.read_csv(output) 只是上面这些并不是真正的工作。shell的输出是非常大的数百万行，Pandas可以很好地处理这些行，但我不希望将输出作为字符串整体加载到内存中。我正在寻找一种管道/流解决方案，它允许Pandas读取输出。

浏览 4提问于2016-06-12得票数 2

1回答

将异构pandas.DataFrame转换为同构

、、、、

我希望分析异构数据的形式：pandas.DataFrame中包含的观察/变量如下： Age Name Ok Result 0 25 Bob True 1.2 1 41 John False 0.5 2 30 Alice True 0.3 为此，我通常使用Numpy将其转换为它的pandas.DataFrame.values表示，从而获得： [[25 'Bob' True 1.2] [41 'John' False 0.5] [30 'Alice' True

浏览 1提问于2018-09-08得票数 0

1回答

添加使用pandas读取数据帧的进度条？

、

我想创建一个进度条，可以在读取一个非常大的CSV文件时显示进度。我正在创建一个通过网络读取CSV文件的pandas数据帧。因为CSV有很多数据，所以我的程序在处理它的时候会卡住，所以我想要有一个进度条，可以给出处理完成了多少的状态。有一个进度条来跟踪它是可行的吗？

浏览 67提问于2020-04-23得票数 0

3回答

根据搜索结果创建列并替换值

、

#!/usr/bin/env python3 import pandas import numpy example_dataset = { 'Date' : ['01 Mar 2022', '02 Apr 2022', '10 Apr 2022', '15 Apr 2022'], 'Transaction Type' : ['Contactless payment', 'Payment to', 'Contactless payment&#

浏览 10提问于2022-04-29得票数 1

回答已采纳

1回答

Python使用Dataframe列搜索文本文件

、、、、

我有一个非常大的文本文件(11条million+记录)，";“分隔，三列。我有一个Pandas dataframe (单列)，其中包含在文本文件中搜索所需的值。问题是我无法将这个大的文本文件加载到内存中。我嵌套了for循环，这需要很长时间。在文本文件的每一行内搜索每个列值。这就是我所拥有的： import os import pandas as pd os.chdir('D:\\AllFiles\\Projects') mainPath = os.getcwd() inputFile = 'A.txt' inputPath = os.path.jo

浏览 4提问于2021-11-22得票数 0

1回答

相同的个人属性和数据类型属性冲突

、、

当我运行一个推理机(Pellet1.5或fact++)时，我在protege中遇到了“相同的个体属性”的问题。让我们以本体论为例物体有A级和B级，A有C级和D级。 B、C和D具有相同类别的个体。我不能说个体C和个体B是“相同的个体”，然后加上个体D和个体B是“相同的个体”吗？这是真的，他们有不同的名字，但他们是同一个人。为什么它只在我设置个体B具有类型C或D的“相同个体”时才起作用？ protege错误是"InconsistentOntologyException:Fact++.Kernel:不一致的本体“，而pellet说本体不一致。编辑:这似乎是一个根深蒂固的问题，这个例

浏览 5提问于2010-06-10得票数 2

3回答

如何获取交易没有超过月度限制的行？

、

我在这里简化了我的问题，问一下如何找到月度交易从未超过月度限制的信用卡交易？问题 import numpy as np import pandas as pd df = pd.DataFrame({'cc':[1,1,1,2,3], 'month':[1,2,3,1,1], 'limit':[100]*3+[110,120], 'expense':[110,80,120,90,90]}) print(df)

浏览 12提问于2020-03-03得票数 1

回答已采纳

1回答

在Pandas中查找不适合日期时间格式的行

、、、

如果这个问题已经被问过了，很抱歉。我想会的，但我一直没能找到答案。我想要将pandas dataframe中的列转换为日期时间格式。 import pandas as pd df['DateOfBirth'] = pd.to_datetime(df['DateOfBirth'], format='%Y-%m-%d') 显然，有些行还包含其他字符 ValueError: time data 0000-00-00 doesn't match format specified 现在df非常大，所以对所有唯一值的视觉检查都不起作用(我也想了解一

浏览 41提问于2020-11-13得票数 1

回答已采纳

1回答

熊猫检查多个最小后果准则

、、、、

我有一个场景，我想检查一个列(Col1)中连续的pandas数据帧行是否满足最小标准(0.6)，当起始值至少为(0.7)时，它也满足一个标准，即： Col1 0.3 0.5 0.55 0.8 = true 0.65 = true 0.9 = true 0.61 = true 0.3 0.6 0.67 0.74 = true 0.63 = true 0.61 = true 换句话说，如果值至少为0.7，或者如果值至少为0.6且之前的值至少为0.6且连续序列中的第一个值至少为0.7，则检查将为True。它将运行在一个非常大的数据集上，因此需要高效。我在想，shift()有点问题，work...b

浏览 1提问于2016-11-02得票数 0

1回答

熊猫颠倒了行的顺序

、、

你好，我正在处理一个非常大的带有熊猫的csv数据框，我如何反转其中的列表？下面的代码在运行时分配row:0 = 15710.01和row:1862 = 243.95，我想反转代码，以便row:1862 = 15710.01和row:0 = 243.95。代码： import pandas as pd data =pd.read_csv('input.csv') PC_close =data['Close'] PC_close 当前代码的输出 0 15710.01 1 15710.87 2 15318.00 3 15

浏览 0提问于2020-12-14得票数 0

2回答

python嵌套循环"if“语句

、

import pandas as pd Data = {'participant': ['Jordan', 'Jess', 'Jake', 'Alice', 'Alan', 'Lauren'], 'Age': [26, 23, 19, 20, 24, 28], 'Sex': ['M', 'F', 'M', 'F', 'M', 'F'], 'BMI&

浏览 2提问于2020-04-21得票数 0

1回答

使用另一个dask dataframe上的apply函数将行附加到dask数据框架中

、、、、

我想使用dask运行以下操作。 df1 = pd.DataFrame() def foo(row): global df1 df1.append(row) def main(): global df1 df2.apply(foo , axis = 1) 当我在不使用dask的情况下运行下面的操作时，它运行得非常好，但是当我将两个数据都转换为Dask时，在计算之后我就不会在df2数据中获得任何数据。 df1 = pd.DataFrame() df1 = from_pandas(df1, npartitions=10) def foo(row): gl

浏览 1提问于2022-07-16得票数 1

1回答

如何对另外两列的总和求和

、

我有一个带有一些列的df。我可以得到“利润”栏和“佣金”栏的总和。我正在尝试从列‘利润’和‘佣金’中获得总和的新列‘净利润’，但我只能获得列表的串联或列中每行的总和 gross_profit = [df['Profit'].sum()] commissions = [df['Commission'].sum()] 我尝试过的： df['net_profit'] = df['Profit'] + df['Commission'] df['net_profit'] =

浏览 14提问于2020-08-29得票数 2

1回答

R geom_bar图的序

、、

我有一个与此类似的数据集(1000个I，9个类)： ID Class Value 1 A 0.014 1 B 0.665 1 C 0.321 2 A 0.234 2 B 0.424 2 C 0.342 ... ... ... Value列是(相对)丰度，即一个个体的所有类之和等于1。我想在R中创建一个geom_bar图，其中x轴不是按in排序的，而是通过降低类的丰度来排序的，类似于这个图：在我

浏览 0提问于2018-09-25得票数 0

回答已采纳

1回答

熊猫群正在为同一个独特的身份返回两组

、、、

我有一只大熊猫的资料，在那里，我通过操作管理小组。 CHROM POS Data01 Data02 ...... 1 .................... 1 ................... 2 .................. 2 ............ scaf_9 ............. scaf_9 ............ 所以，我在做：： my_data_grouped = my_data.groupby('CHROM') for chr_, data in

浏览 1提问于2018-05-27得票数 1

回答已采纳

4回答

在包含违反一对一映射的列的Pandas DataFrame中查找行

、

我有一个类似这样的DataFrame： | index | col_1 | col_2 | | 0 | A | 11 | | 1 | B | 12 | | 2 | B | 12 | | 3 | C | 13 | | 4 | C | 13 | | 5 | C | 14 | 其中，由于数据损坏，col_1和col_2可能并不总是一对一的。如何使用Pandas来确定哪些行的col_1和col_2条目违反了这种一对一关系？在本例中，它将是最后三行，因为C可以映射到13

浏览 0提问于2014-06-03得票数 6

6回答

如何释放pandas数据帧使用的内存？

、、

我在pandas中打开了一个非常大的csv文件，如下所示。 import pandas df = pandas.read_csv('large_txt_file.txt') 一旦我这样做了，我的内存使用量就增加了2 2GB，这是意料之中的，因为这个文件包含数百万行。当我需要释放这个内存时，我的问题就出现了。我跑..。 del df 但是，我的内存使用率并没有下降。这是释放pandas数据帧使用的内存的错误方法吗？如果是，正确的方式是什么？

浏览 11提问于2016-08-23得票数 154

2回答

熊猫与SettingWithCopyWarning

、

我有一个非常大的数据集(测试)，大约有100万行。我想从数据集中更新一列(“日期”)。我只想在我的“约会”栏里写三个日期： 2014-04-01, 2014-05-01, 2014-06-01 因此，一行中的每个日期和第三行之后的每个日期都是重复的。我试过这样做： for i in range(0,len(test),3): if(i <= len(test)): test['Date'][i] = '2014-04-01' test['Date'][i+1] = '2014-05-01&

浏览 0提问于2019-06-25得票数 0

1回答

python getattr自动完成

、、、

__getattr__可用于定义对象的属性。例如，下面的代码将返回'bar'。 class Test(object): def __getattr__(self, key): if key == 'foo': return 'bar' t = Test() t.foo 为了方便起见，我希望能够在ipython中键入t.，然后使用tab键完成属性名称。我似乎不能找到如何做到这一点，虽然这似乎是可能的。例如，在ipython中运行以下代码 import pandas df = pandas.DataFr

浏览 4提问于2017-05-24得票数 7

3回答

如何有效地从DataFrame中删除重复行

我正在处理一个非常大的数据框架，并使用pandas进行分析。该数据框架的结构如下 import pandas as pd df = pd.read_csv("data.csv") df.head() Source Target Weight 0 0 25846 1 1 0 1916 1 2 25846 0 1 3 0 4748 1 4 0 16856 1 问题是，我想删除所有的“重复”。从这个意义上说，如果我已经有一个包

浏览 4提问于2016-03-08得票数 1

回答已采纳

4回答

在跳过缺失值的同时对数字序列进行计数

、、

我有一系列的日期，我想对每条记录的日期序列进行计数，同时跳过缺少的值。本质上，我希望看到以下结果，其中a是我的日期，b是我的日期记录的索引。您可以看到，第5行是我的第4条记录，而vise7是我的第5条记录。 tibble(a = c(12, 24, 32, NA, 55, NA, 73), b = c(1, 2, 3, NA, 4, NA, 5)) a b <dbl> <dbl> 1 12 1 2 24 2 3 32 3 4 NA NA 5 55 4 6 NA

浏览 58提问于2021-01-27得票数 2

回答已采纳

2回答

Python日期时间函数-从Pandas迁移到Dask

、、

我在Pandas的一个文件上做了一些ETL。但是这个文件现在非常大(30 is ) 所以我决定用Dask Dataframe来威胁它。如何将此Pandas函数替换为类似的Dask函数？喜欢: pd.to_datetime，pd.offsets.MonthEnd(n=0) import pandas as pd import dask.dataframe as dd df = dd.read_csv('some_big_file.txt', sep = '|', names = names) date_str1 = df['DT_OP']

浏览 0提问于2021-05-26得票数 0

1回答

顶部有总价值的堆叠条形图

、、、、

这是我的数据： import pandas as pd import matplotlib.pyplot as plt data = {'Client': ['Client_1', 'Client_2', 'Client_3'], 'Currency': ['USD','USD','USD'], 'Product_1': [1200, 1400, 3300], 'Product_2'

浏览 3提问于2022-03-30得票数 0

2回答

Python表格:如何打印特定的单元格内容？

、、

我有这样的代码： from tabulate import tabulate import pandas

浏览 0提问于2018-12-13得票数 1

回答已采纳

1回答

如何绘制多个个体的平均时间序列

、

我有时间序列数据，其中对15个人(由唯一的ID表示)进行了7个变量(Var1:Var7)的测量。这些个体是从3个不同的Location中采样的。请注意，每个个体的观察次数是不同的。我相信每个Location中的个体在价值和趋势上都会比其他Location中的个体更相似。对于每个Location中的每个Variable，我想绘制平均时间序列(以了解组作为一个整体的样子)，直到每个个体的Time相同的点(因此x轴的长度将仅与最短的个体一样长)。我如何做到这一点，并为每个Time点添加错误条，以查看个体之间存在多大差异？以下是一些示例数据： set.seed(123) ID = factor(let

浏览 0提问于2020-03-05得票数 0

1回答

删除R中只有一个人的组

考虑下面的数据集。数据按每组一人或两人进行分组。但是，一个人可能有几个条目。 df1<-data.frame(group,individualID,X) > df1 group individualID X 1 1 1 0 2 1 1 1 3 1 2 1 4 1 2 1 5 2 3 1 6 2 3 1 7 3 5 1

浏览 0提问于2021-10-12得票数 0

1回答

改变海事局的属性

、、、

这看起来是一个非常简单的任务，但我找不到正确的解决方案。我确实生成了10个集合，每个集合中有100个样本，并将它们打包到pandas.DataFrame中，为每一列分配索引号。如何绘制所有的10条线:相同的颜色=‘b’，设置alpha=0.5，linewidth=1.0？ import matplotlib.pyplot as plt import numpy as np import seaborn as sns import pandas as pd import random sns.set_style("darkgrid") sns.set_context(

浏览 1提问于2021-01-26得票数 0

3回答

python bokeh，如何制作相关图？

、、

如何在Bokeh中绘制相关热图？ import pandas as pd import bokeh.charts df = pd.util.testing.makeTimeDataFrame(1000) c = df.corr() p = bokeh.charts.HeatMap(c) # not right # try to make it a long form # (and it's ugly in pandas to use 'index' in melt) c['x'] = c.index c = pd.melt(c, 'x&#

浏览 6提问于2016-08-28得票数 2

回答已采纳

3回答

快速熊猫过滤

、

如果name列条目在给定的列表中有一项，我想过滤一个pandas数据帧。这里我们有一个DataFrame x = DataFrame( [['sam', 328], ['ruby', 3213], ['jon', 121]], columns=['name', 'score']) 现在假设我们有一个名为['sam', 'ruby']的列表，我们想要找到列表中名字所在的所有行，然后对分数求和。我的解决方案如下： total = 0 names = ['sa

浏览 0提问于2014-02-13得票数 7

回答已采纳

1回答

对于很长的数据库，有没有办法知道panda `to_csv`的状态？

、

在Pandas中，我有一个非常大的数据帧，我正在尝试将其写入CSV文件。它花费了很长的时间(几个小时，还没有完成)，我想知道是否有任何方法可以检查此命令中的完成百分比。我在to_csv中查找了所有的论点，但似乎没有任何帮助 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html pd.to_csv('thefile.csv', chunksize =1000 ) 我想要任何时间的状态，区块编号等。

浏览 2提问于2019-06-10得票数 1

回答已采纳

1回答

Hdf5文件中未显示的列

、、、

我有一个很大的数据集(13亿个数据)，我想用Vaex进行可视化。由于csv中的数据集非常大(在520个单独的文件中，大约130 in )，我使用pandas dataframe.to_hdf函数将它们合并到一个hdf5文件中(格式:表，附加到每个csv文件)。如果我使用pandas.read_hdf函数加载一段数据，就不会有问题。 x y z 0 -8274.591528 36.053843 24.766887 1 -8273.229203 34.853409 21.883050 2 -8289.577896 15.326737 26.

浏览 0提问于2019-12-16得票数 1

1回答

用R填写数据(长度不等的两列)

大家好，非常感谢你们的帮助，如上文所示，我必须将数字从A列分配到B列，这样B列中的数字4193每次都与A列中的数字1匹配，B列中的数字15每次都与A列中的数字2相匹配，以此类推(这只是我作为一个示例提供的一个随机样本，因为我正在处理一个非常大的数据集)。这应该没什么大不了的，但问题是这两列的大小不同(A列比B列大得多)。我花了好几个小时自己做这个，还浏览过论坛，但在如何解决这个问题上我没有发现任何类似的问题。而且，由于我正在处理的数据集非常大，所以我无法手动完成此操作。主要的想法是使B栏中的每一个数字与A栏中对应的数字并排重复(如前所述)。我不知道如何在计算上做到这一点，但从逻辑上讲，

浏览 3提问于2022-04-15得票数 0

1回答

pandas.Panel反对建议的警告实际上是什么？

、、、、

我有一个包，它使用熊猫面板生成MultiIndex DataFrames。但是，每当我使用pandas.Panel时，都会得到以下DeprecationError： DeprecationWarning:不再推荐面板，并将在以后的版本中删除。表示这些类型的三维数据的推荐方法是通过MultiIndex ()方法在DataFrame上使用Panel.to_frame()。或者，您可以使用xarray包。熊猫提供了一个.to_xarray()方法来帮助自动转换。但是，我不明白这里的第一条建议实际上是推荐什么来创建MultiIndex DataFrames。如果面板将被删除，我如何才能使用P

浏览 4提问于2018-01-28得票数 19

回答已采纳

1回答

Recode (car)不工作以将NA转换为0，将值转换为1

这里是一个R初学者，(尽我最大的努力问正确的问题)。我以前在ds上运行了这段代码，以便将变量的所有NA编码为'0‘，将所有值重新编码为’1‘。 MyVars$Var5 <- car::recode(MyVars$Var4, "NA = '0'; else = '1'") 现在，我收到了一条以前没有得到的错误消息：错误:无法转换为。我也尝试过对ifesle做同样的事情。也不起作用。安装了正确的软件包。我做错了什么？帮助感激。

浏览 0提问于2020-09-22得票数 0

回答已采纳

1回答

在Pandas中重命名

、、、

我试图在Pandas MultiIndex中重命名列名，但它不起作用。在这里你可以看到我的系列对象。顺便问一下，为什么dataframe df_injury_record会成为这个函数中的一个系列对象？ Frequency_BodyPart = df_injury_record.groupby(["Surface","BodyPart"]).size() 在下一行中，您将看到我试图重命名该列。 Frequency_BodyPart.rename_axis(index={'Surface': 'Class'}) 但在此之后，该列的名

浏览 7提问于2020-01-24得票数 1

回答已采纳

1回答

如何在pandas数据透视表中创建仅包含已填充列的匹配值的新列？

、、

我有一个pandas数据透视表，它列出了行中的个人和列中的数据源。有成百上千的个体在行之间下降，成百上千的源沿着列穿过。 Desired_Value Source_1 Source_2 Source_3 ... Source_50 person1 20 20 20 20 person2 5 5 5 5 person3 Review 3 4 4

浏览 13提问于2019-03-26得票数 0

回答已采纳

6回答

将熊猫的数据从行修改到列

、、、、

我想重塑我的数据。乍一看，这听起来像是转位，但事实并非如此。我试过熔炼、叠/解堆、连接等。用例我希望每个唯一的个体只有一行，并将所有的作业历史记录放在列中。对于客户端，跨行读取信息比读取列更容易。以下是数据： import pandas as pd import numpy as np data1 = {'Name': ["Joe", "Joe", "Joe","Jane","Jane"], 'Job': ["Analyst","Man

浏览 8提问于2016-07-31得票数 9

回答已采纳

2回答

熊猫:将列添加到另一栏

、、

我搞不懂如何在熊猫中添加一栏给另一栏以下是我要做的事： from pandas import DataFrame df1 = DataFrame({'a':[1,2], 'b':[3,4]}) concat((df1['a'], df1['b'].rename({'b':'a'}))).reset_index(drop=True) 这是我想要的:带着我的4种价值的意甲。我不明白的是:为什么我不能把它分配给'a‘列？ >>> from pandas import DataF

浏览 3提问于2022-11-14得票数 0

回答已采纳

1回答

Pandas正在使用大量内存

我有flask应用程序代码，其中一个API是公开的，以将数据从oracle数据库转储到postgress数据库。我使用Pandas将表的内容从oracle、mysql和postgress复制到postgress。连续使用15天左右，CPU内存消耗非常大。它通常每两天至少传输500万条记录。有没有人能帮我优化熊猫的写作。

浏览 0提问于2019-08-05得票数 0

1回答

在磁盘上保存一个大的DataFrame？

、、、

对于我的项目，我需要序列化pandas数据帧。这是序列化pandas数据帧的最佳方式。我有一个非常大的数据框架。我正在考虑以下格式，但每种格式都有saome限制。 Pickle : issues with very large dataframe. hdf5 : issues with mixed datatypes csv : ok, but have very large size

浏览 1提问于2018-03-12得票数 1

1回答

如何创建预计算表以加快查询速度

、

我目前遇到的问题之一是，我们有某些非常大的表(>1000万行)--.When--我们引用这些大表或创建连接，查询速度非常慢。解决这个问题的一个假设是创建预先计算的表，其中将已经完成用例的计算，而不是引用原始数据，而是查询预计算的表。是否有任何资源来实现这一目标？我们是否只使用mySQL，或者我们也可以使用Pandas或其他类似的模块来完成相同的任务？哪种方式是最优的？

浏览 0提问于2022-09-07得票数 -1

3回答

Python通过引用将参数传递给构造函数

、

import pandas as pd class MyClass(): def __init__(self, df): self.df = df def edit(self): self.df = self.df[~self.df['numbers'].isin([2,4,6,8,10])] df = pd.DataFrame([1,2,3,4,5,6,7,8,9,10], columns=['numbers']) obj = MyClass(df).edit() print df 我期望print df打

浏览 3提问于2017-11-07得票数 0

回答已采纳

1回答

使用Pandas解析时避免Excel的科学舍入

、、、

我有一个excel文件自动生成，偶尔有非常大的数字，如135061808695。在excel文件中，当您单击单元格时，它将显示完整的数字135061808695，但是，使用自动“通用”格式，该数字显示为1.35063E+11。当我在Pandas中使用ExcelFile时，它用科学表示法1.350618e+11而不是完整的135061808695来提取值。有什么方法可以让Pandas在不破坏excel文件的情况下提取全部值？

浏览 2提问于2015-04-14得票数 7

回答已采纳

2回答

哪个代码段执行得好(在分配变量的同时处理内存)+ java

、、

代码示例1:下面的代码段处理大尺寸的位图。 // Here reusing same variable "bitmap" // Decode the JPEG file into a Bitmap Bitmap bitmap = BitmapFactory.decodeFile(photoDir.getAbsolutePath(), bmOptions); //Re-sizing Matrix mtx = new Matrix(); bitmap =Bitmap.createScaledBitmap(bitmap, tar

浏览 0提问于2012-10-08得票数 0

回答已采纳

3回答

Python Pandas:字符串包含和不包含

、、

我正在尝试匹配包含和不包含特定字符串的Pandas DataFrame的行。例如： import pandas df = pandas.Series(['ab1', 'ab2', 'b2', 'c3']) df[df.str.contains("b")] 输出： 0 ab1 1 ab2 2 b2 dtype: object 所需输出： 2 b2 dtype: object 问:有没有一种优雅的方式来表达这样的话？ df[[df.str.contains("b")==Tru

浏览 0提问于2015-12-03得票数 9

回答已采纳

1回答

日期偏移量取决于pandas df中的其他列

、、

您好，我是从R切换到python的新手，我很难完成这个相当简单的任务，即根据pandas数据框的另一列更改日期。我读了其他几个关于这个的问题，我希望有人能快速解决我的问题，因为除了互联网我没有其他人可以问。我想我有所有的成分(功能)，但我真的很难使用熊猫df，与我在R中习惯的相比。 import datetime from datetime import datetime import pandas as pd import numpy as np today=pd.to_datetime(datetime.today().strftime('%Y-%m-%d')) d=

浏览 12提问于2020-05-10得票数 1

回答已采纳