Pandas:使用For循环迭代已排序的列的唯一值_使用for循环传递数据帧列值的值\迭代循环_对pandas中的列使用唯一值 - 腾讯云开发者社区

、、

我使用pandas_datareader来提取雅虎股票数据并计算百分比变化。现在，我想将这些百分比的更改值从最低到最高排序，并将排序后的数据放入新的列中。列正在生成，但值没有排序，只是复制。 import pandas_datareader as pdr Ticker = 'SQ' result = pdr.get_data_yahoo(Ticker) result = result.drop(['Open','High','Low','Volume','Adj Close'], axis=1)

浏览 2提问于2017-08-05得票数 1

回答已采纳

1回答

大熊猫CSV

、、

上一篇文章的续篇。以前，我帮助使用Pandas在dataframe中创建了一个新列，每个值都表示一个基于另一个列的值的分解后的或唯一的值。我在一个测试用例上使用了它，它成功地工作了，但我在处理更大的日志和htm文件时遇到了问题，无法对其执行相同的过程。我有12个日志文件(每个月)，在合并它们之后，我得到一个17 get的文件来处理。我想要分解它上的每个用户名。我一直在研究使用Dask，然而，我不能复制sort和factorize的功能来为Dask数据帧做我想要的事情。是尝试使用Dask，继续使用Pandas，还是尝试使用MySQL数据库来操作17 or的文件？ import pandas as

浏览 0提问于2017-06-13得票数 1

1回答

Python -按多列分组并获得最大值或和

、

我感兴趣的是产品价格的最大值。这是输入数据. 我想按国家、国家分组如何对这两列进行分组，得到最高价格值。 import csv import locale from itertools import groupby locale.setlocale( locale.LC_ALL, 'en_US.UTF-8' ) total_price = 0 max_price = 0 reader = csv.DictReader(open('/Users/myuser/Downloads/SalesData.csv', 'rU'), dialect

浏览 3提问于2015-08-27得票数 4

回答已采纳

1回答

Map和multimap :内存使用/管理差异？

、、、

我编写了一个程序，它必须用operator>>读取一个大文件，计数一些东西，并将数据(string和int)插入到一个multimap。问题是程序崩溃了，它似乎是一个内存问题(它可以很好地处理小文件)。我认为它达到了Windows的内存分配限制。我试过的是:我做了32位和64位的版本。如您所知，Windows的内存分配限制对于32位和64位构建是不一样的。两者都会崩溃。我查看了任务管理器的performance，以观察内存消耗。32位:程序每次达到5.3GB时都会崩溃.64位:程序的内存消耗不断增加，直到到达系统的整个RAM并崩溃。我试着用一个映射来代替multimap :在整

浏览 4提问于2015-03-24得票数 1

回答已采纳

1回答

结果列表在一行而不是列中，如何更改？

、、

结果是排在一列，而不是列中，如何更改？ my_5_shuffles = [pick_4_cards1() for x in range(4)] print(my_5_shuffles) 输出 [['7', '9', 'J', 'Q'], ['7', '7', '9', '9'], ['10', '9', '9', 'Q'], ['7', '9', 'J'

浏览 2提问于2022-04-12得票数 0

回答已采纳

3回答

通过字典迭代，为搜索的密钥提取错误的值

、、、、

我使用Pandas来读取excel工作表，其中有两列使用create键，值字典。运行时，代码将搜索密钥，并生成它的值。例句:将等于52206. 虽然，当我搜索59904-FX的值时，当我需要它返回22035时，它返回35444；它只在键稍后也是一个值时抛出这个问题。对我如何纠正这个错误有什么想法吗？我会在下面附上我的代码，谢谢！ MapDatabase = {} for i in Mapdf.index: MapDatabase[Mapdf['General Code'][i]] = Mapdf['Upload Code'][i

浏览 0提问于2019-03-30得票数 0

回答已采纳

1回答

如何使用Python数据框基于多个条件进行计算？

、、

我有成千上万行和列的excel数据文件。我正在使用python，并且已经开始使用pandas dataframe来分析数据。我想在D列中为每个ID计算C列中的值每年的年度变化。我可以使用excel来执行此操作-如果组织ID与前一行中的ID相同，则计算年度变化(将单元格突出显示为蓝色，因为这是该特定ID的第一个期间)。我不知道如何使用python来做到这一点。有人能帮上忙吗？

浏览 15提问于2018-08-29得票数 1

2回答

` pandas.core.series.Series`中的X返回True，即使其中没有这样的值

、

我有一个包含多个ID的pandas系列对象。我想通过检查它们的ID是否出现在我的pandas系列对象中来过滤掉其他数据帧的行： DATA['y'] = DATA['ID'].apply(lambda x: 1 if x in IDs else 0) 我注意到数据中的ID 279779在列'y‘中有'1’，尽管该ID不存在于我的ID系列对象中。我运行了以下代码行：279779 in IDs，它返回True，但以下代码没有打印任何内容： for id in IDs: if id == 279779: print('fo

浏览 0提问于2020-01-13得票数 0

1回答

按日期切片，使用可变的开始日期

、

我试图根据日期列(根据索引计算)进行切片，而只根据它旁边的开始日期进行累积求和。下面是要复制/运行的小示例代码： import numpy import pandas data = pandas.DataFrame( {"Bought" : [1,3,4,6]}, index=pandas.to_datetime(['01-01-2020','02-01-2020','03-01-2020','04-01-2020'])) data['StartDate'] = data.index data[&

浏览 4提问于2022-11-22得票数 0

1回答

在for循环中对压缩列表进行排序

、、、、

如果你想运行它，下面是我的代码 import numpy as np import pandas as pd from sklearn.datasets import make_classification from sklearn.ensemble import RandomForestClassifier from treeinterpreter import treeinterpreter as ti import operator X, y = make_classification(n_samples=1000, n_feat

浏览 1提问于2018-02-19得票数 2

回答已采纳

2回答

当使用Python进行排序时，如何获得数据文件中值的(相对)位置？

、

当每个列的值从低到高排序时，我如何创建一个Pandas DataFrame来显示每个值的相对位置？因此，在这种情况下，如何将'df‘转换为'dfOut'？ import pandas as pd import numpy as np #create DataFrame df = pd.DataFrame({'A': [12, 18, 9, 21, 24, 15], 'B': [18, 22, 19, 14, 14, 11], 'C': [5, 7

浏览 5提问于2022-02-11得票数 2

回答已采纳

1回答

使用多列抛出ValueError遍历数据帧

、、、、

我正在尝试申请一个Pandas数据帧内的循环，以便一次访问两列。我的这段代码可以很好地处理单个列。但是当应用于多个列时，它会抛出："ValueError :要解包的值太多(预期为2)“ 我的代码片段如下： <code>A0</code> 小问题是列名太大且无法控制，因为此数据帧具有多标头列，因此在合并后，它们会创建一些随机填充名称。因此有了".startswith“这个词。列名要大得多。我尝试基于列1和列2对列3执行groupby，如果列2不为null，则使用column1执行groupby。有人能告诉我我哪里错了吗，或者我遗漏了什么？

浏览 16提问于2021-06-14得票数 2

回答已采纳

1回答

标识公式中的第一个排序列

如果我有一个电子表格，有没有办法确定公式中使用的第一个排序列(通过简单排序或自定义排序)？例如，假设用户对列B进行排序，那么是否可以执行以下操作 =sort_col(1) 在B上排序时哪个等于B，在C上排序时C等于C，依此类推？

浏览 0提问于2021-06-16得票数 0

1回答

Pandas drop方法的行为不一致地丢弃NaN标头

、、

我在尝试从表中删除nan列时遇到了一个问题。下面是一个按照预期工作的示例： import pandas as pd import numpy as np df1 = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['A', 'B', 'C'], index=['Foo', 'Bar']) mapping1 = pd.DataFrame([['a', 'x

浏览 0提问于2016-04-30得票数 3

1回答

2个csv文件在for循环中，输出一个csv文件python

、、、

我有两个csv文件，第一个(station.csv)有两个纬度和经度的列，第二个(catalog.csv有5个列，还有两个纬度和经度)我已经设法用geopy.distance.distance计算了两个点之间的距离，但是当我试图迭代这些文件以获得catalog.csv中每个经度的距离时，我总是得到最后的值。理想情况下，输出将添加与站点一样多的列，因此对于catalog.csv中的每个点，我都会与给定的站点保持距离。预期输出包含原始数据的ctlg.csv和29个新列，其中包含到每个sts的距离。 timeUtc，纬度，经度，幅度，distance_sts1....29 import

浏览 17提问于2021-09-04得票数 0

3回答

C++简介:排序代码

我正在为今天的期末考试做准备。我的问题是，do -while( question )语句在这里做什么？默认情况下，交换设置为"true“吗？我对这段代码的理解是，对于这类代码的每一次传递，它至少迭代一次。内部for循环携带关键代码，并在传递中执行所有交换。例如，arraycount被复制到temp中，arraycount+1被复制到arraycount中，arraycount被复制到arraycount+1中，如果这两个元素被交换，bool交换被设置为true。外部循环继续迭代，直到它发现交换标志为false。 void sortArray(int array[], int size

浏览 3提问于2013-07-25得票数 0

回答已采纳

2回答

是否在最高分数的x点内对学生的姓名和分数进行排序？

、、

我有一个这种格式的csv文件，它包含一个带有姓氏的列，另一个带有名字的列，以及另一个带有平均值的列。 Word1 Word2 Points World Hello 85 Test1 Test1 81 Test2 Test2 91 (etc.) 我希望这个程序能够找到并打印出学生的word1、word2和最高分5分以内的分数。(因此，如果最高分数为91，则将列出从86(包含)到91的所有姓名和所有分数。到目前为止，我有这样的想法： import csv row = [] in = open(

浏览 1提问于2017-02-05得票数 0

9回答

最低效的排序例程是什么？

、、

对于整数数组，排序效率最低的方法是什么？函数应该在每一步都取得进展(例如没有无限循环)。该算法的运行时间是多少？

浏览 1提问于2011-10-27得票数 3

回答已采纳

4回答

字符串数组-唯一值的实例

、、

我编写了一个程序，它循环遍历字符串数组，打印唯一的单词和它们的出现，然后将它们打印到文件中。这个部分工作得很好，但我很难弄清楚如何计算出唯一单词的总数。我有一种感觉，我需要为计数器创建一个int数组，但我并不完全掌握如何做到这一点。不幸的是，我不允许使用Hashmap、Set或List；必须坚持使用数组。 boolean [] done = new boolean[textfile.length]; for(int i = 0; i<textfile.length; i++){ if(done[i]) continue; int nb = 0; f

浏览 1提问于2013-10-09得票数 0

回答已采纳

2回答

如何在大熊猫中进行分裂

、、

考虑下面是我的数据框架，我希望填充百分比列，将单个标记除以Total，以获得百分比。 Name Marks 0 Total 100 1 Name1 45 2 Name2 65 3 name3 93 4 name4 89 我写了这样的代码 for i in range(0,5): pcnt=(df['Marks'][i])/(df['Marks'][0]) df['Percentage']=pcnt*100 但是百分比列只为所有行生成0。上面的代码只是一个例子

浏览 0提问于2018-03-10得票数 1

回答已采纳

1回答

在pandas DataFrame中选择与一列的前两个不同项匹配的行

、、

我希望显示'Nameid'列下的值对应于该列中的前两个不同值的DataFrame中的所有行。在下面的示例中，名为'Nameid'的列下的前两个不同值是1和2。我希望选择'Nameid'等于1或2的所有行，并丢弃其余行。我该怎么做呢？我所拥有的： import pandas as pd df = pd.DataFrame(data={ 'Nameid': [1, 2, 3, 1], 'Name': ['Michael', 'Max', 'Susan

浏览 34提问于2020-11-10得票数 1

回答已采纳

2回答

使用随机林中选择变量返回整个数据帧

、、、、

我正处于降维过程中。我使用随机森林查找与目标SalePrice列相关程度最高的列。问题是产量太大了。绝对不是我想要的。它正在返回259列。其中一些列是对分类变量进行一次热编码的结果，并将它们重新添加到dataframe中，这在逻辑上增加了数据集的维度。但是，我只想返回与目标变量'SalePrice‘相关最大的列。不是整个该死的数据。这是输出： 0 1 2 3 4 5 6 ... 252 253 254 255 256 257 258 0 1 RL 65.0 8450 Pave NaN Reg

浏览 0提问于2019-08-11得票数 2

回答已采纳

2回答

按字母顺序重新排序后，所有单元格都变为NaN

、、

在我尝试按country列对我的Pandas数据帧进行排序后： times_data2.reindex_axis(sorted(times_data2['country']), axis=1) 我的数据帧是这样的： Argetina Argentina .... United States of America ... NaN Nan .... NaN ....

浏览 2提问于2016-04-29得票数 0

1回答

如何向python dataframe插入多个包含空值的连续列

、

我有一个有四个列"1990“、"2000”、"2006“和"2012”的dataframe stations和区域数据。若要在间隔期间插入年份，我希望在空白中插入带有空值的列。我确实使用pandas.DataFrame.insert在特定位置插入列，但无法找到如何使用多个列(如pandas.DataFrame.insert[1, ["1991":"1999"], np.nan] )来实现这一点。是否有方法插入具有连续编号/名称的多列以填补空白？我很感激每一个人的帮助！

浏览 0提问于2019-08-15得票数 3

回答已采纳

1回答

如何使用五角壶从一组行中找到唯一的值？

、、

我有一个反规范化的表。我希望从该表的一个特定列中选择所有值，并仅将该列中的唯一值加载到单独的表中。如何使用Pentaho Spoon做到这一点？请注意，我完全是Spoon的新手。在我的生活中，我只尝试过hello world transformation。我有一个名为'Employees‘的表，它有很多列，如下所示(我在这里没有给出不相关的列)： +-------------------------------------------------------+ Employees +----------------------

浏览 0提问于2012-04-17得票数 1

回答已采纳

4回答

如何获取一列中每个元素的长度

、

在csv文件中，有一个名为"no_pun“的列。里面有一些标记词。我想得到这个列中每个元素的长度。这在python中很容易实现。但我有个错误。我的代码： for i in range(0,len(data['no_pun'])): data["len_desc"][i] = len(data["no_pun"][i]) KeyError： KeyError Traceback (most recent call last) /anaconda3/lib/python3.6/site-packages/pandas/core

浏览 0提问于2019-04-07得票数 2

2回答

用Python按两列对值进行排序

、、

其思想是按两列对值进行排序。这样，在给定两列的情况下，我期望输出类似于预期产出 x y 0 2.0 NaN 1 3.0 NaN 2 4.0 4.1 3 NaN 5.0 4 10.0 NaN 5 24.0 24.7 6 31.0 31.4 但是，使用下面的代码 import pandas as pd import numpy as np df1 = pd.DataFrame ( {'x': [2, 3, 4, 24, 31, '',10], 'y

浏览 0提问于2021-06-17得票数 1

回答已采纳

2回答

散列映射和有序遍历

、、、

我将在C++中从头开始实现一个哈希图作为一个功能齐全的抽象数据类型。特别是，我将为这个数据容器提供一个迭代器，它将能够以标识键的升序遍历所有记录。这部分让我很困惑，我不知道该怎么做。顺便说一句，通过散列功能，我决定对单向列表使用单独的链接。我想到的一个解决方案是创建另一个列表，该列表将以适当的顺序绑定所有元素，其功能将在插入过程本身期间得到保护。但在我看来，这似乎会损害散列本身的许多好处，至少在插入方面是这样；特别是考虑到我的ADT的用途，遍历功能将相对较少使用。长话短说，我应该提供什么样的解决方案？请注意，我不能使用任何专用库。注意：我知道哈希映射是什么，并且根据它的学术定义，它本质上是

浏览 0提问于2012-12-07得票数 0

1回答

从计数器创建三列

、、、

现在，我的柜台是这样的： (('you', 'call'), 3.2875047316896584): 1, (('bonus', 'offer'), 5.880001319229578): 1, (('without', 'warranty'), 10.11244740522995): 1 我正在尝试将这些值传递到一个Pandas中，它有三列、两列、分数和频率。因此，例如，使用上面的第一个值，我期望的DF如下所示 Bigrams Score

浏览 2提问于2014-09-22得票数 0

回答已采纳

1回答

如何从'pandas.core.frame.DataFrame‘生成列表？当前的结果是一个TypeError:字符串索引必须是整数

、、、、

我用熊猫创建了一个pandas.core.frame.DataFrame来处理csv文件。这个csv文件有一个列和企业名称，一个列与这些企业的城市等等。 import pandas as pd csv_data = pd.read_csv('cb_sample.csv') 我感兴趣的是从csv_data创建一个位于纽约的所有业务名称的列表。我尝试了下面的代码： names = [obj['city'] for obj in csv_data if obj['city'] == 'New York'] print(names) 它

浏览 1提问于2021-02-17得票数 0

回答已采纳

1回答

主干集合:检索集合的不同值

、

我有模型的主干集合，并希望检索某个属性的不同值如果我已经像下面这样将数据加载到我的集合中： [{brand:'audi',id:'1234'}, {brand:'audi',id:'3456'}, {brand:'bmw',id:'3456'}] 我现在想要从集合中获得不同的品牌。结果应该是： ['audi','bmw'] 看看主干和下划线API，我看不出有什么明显的东西可以实现这一点。我目前的方法是使用像这样的库我是否遗漏了什么明显的东西，或者是否有人有比jsl

浏览 0提问于2012-07-22得票数 4

回答已采纳

1回答

基于条件的哈希内容提取

、、

我有一个包含节点数据的散列。我期望在-r_<count>和-d_<count>属性中打印散列内容。下面是脚本： use strict; use warnings; use Data::Dumper; my %hash = ( 'Network=Test,Cell=31' => [ 'Network=Test,Unit=RU-1-1,Port=A', 'Network=Test,Unit=RU-1-2,Port=A'

浏览 0提问于2020-10-19得票数 1

回答已采纳

3回答

MS Excel:如何才能使Max()更高效？

、、

我有一组数据，看起来像这样： ID Value MaxByID 0 32 80 0 80 80 0 4 80 0 68 80 0 6 80 1 32 68 1 54 68 1 56 68 1 68 68 1 44 68 2 54 92 2 52 92 2 92 92 4 68 68 4 52 68 5 74 74 5 22 74 6 52 94 6 52 94 6 46 94 6

浏览 2提问于2011-09-01得票数 1

2回答

在两列中查找具有双倍数据的行，并且只保留第三列中值最低的行

、、、

我有一个有三列的dataFrame。我希望找到带有相同信息的行(不管列中的外观顺序如何)。我希望删除所有带有冗余和信息的行，但在第三列中保留值最低的行： import pandas as pd pd.DataFrame({"Dependend variable": ["A", "B", "C"], "Independend variable": ["B", "A", "D"], "pvalue": [0.001, 0.005, 0.001]}) Ou

浏览 2提问于2017-12-03得票数 1

回答已采纳

4回答

如何确定大文本文件中的一列或多列是否排序

、、、

我有超过1 1GB的大文本文件。该文件有4列，以制表符分隔。 Col1: Guid Col2: Date-time (yy-mm-yyyy 0000000000) Col3: String Col4: String 我想确定它的一个或多个列是排序的还是不排序的。有什么快速的方法可以做到这一点？也许使用Perl或一些unix命令？或者其他类似的东西？我在大型服务器和本地windows机器上都有文件，所以内存、cpu速度或操作系统都不是问题。

浏览 0提问于2013-01-15得票数 1

回答已采纳

1回答

从列表中创建python中的数据帧

、、、

我已经从文件中提取了多个数据，现在我想为我感兴趣的数据创建一个数据帧。我尝试了以下几种方式： anticodon = re.findall(r'(at.\w\w-\w\w)', line) for line in anticodon: anticod = line.replace('at ', '') import pandas as pd df1 = pd.DataFrame({'id': [m_id], 'cod': [anticod]}) print df1 * similar w

浏览 11提问于2018-07-31得票数 1

回答已采纳

3回答

将Redis流输出转换为Pandas Dataframe

、、、、

将输出(aioredis client/ hiredis解析器)转换为Pandas的最快的方法是什么，其中Redis的时间戳、和序列号以及值都是正确类型转换的Pandas索引列？示例Redis输出： [[b'1554900384437-0', [b'key', b'1']], [b'1554900414434-0', [b'key', b'1']]]

浏览 7提问于2019-04-02得票数 5

回答已采纳

2回答

具有唯一解的递归问题

、、

出于好奇，我编写了一个程序来计算产生一定分数的滑雪球角色组合的不同数量。这些孔的值为0、10、20、30、40、50、100，作为枚举值保存。还有九个球卷。我将每个卷视为递归调用下一个卷，同时循环遍历每个卷的值： private static void scoreCalc(int targetScore, int score, int ballNumber) { for(SkiBallHoles hole : SkiBallHoles.values()) { score += hole.getValue(); ballNumber--;

浏览 1提问于2014-04-19得票数 3

回答已采纳

1回答

使用str.contains替换不超过分隔符的部分字符串

、、、、

在我转向excel宏的可怕世界之前，你是我最后的希望堡垒，我有一个来自excel的庞大的数据框架，我正在操纵，Pandas已经被证明是有用的编辑，因为excel真正的挣扎。我最后的问题如下：现在，我有一个列，按用户列出超过100 k行的兴趣。问题是这些数据从未被验证过，所以我有潜在的有用信息，我需要将这些信息操作成10个输出中的一个。我发现使用str.replace和str.contains是非常有用的，我想我会构建一些数据集或列表来迭代来工作逻辑。当我在list上使用list时，它会替换整个string，并且需要在分隔符之后保留要替换的信息(因为用户可能有多个兴趣)。所以我可以

浏览 0提问于2018-03-28得票数 4

回答已采纳

1回答

循环访问条目集合时的性能

、

对我来说，我有一个非常神秘的效果：在我的Xpage中，我有一个小的java bean，在其中我循环遍历一个entry集合，使用getallentriesbykey(username)构建(得到大约200个条目。 viewA有2个排序列: UserName + customerID， viewB有两个排序列: UserName +发货周数(文本) 使用viewA时，循环需要不到1秒，而使用viewB时，循环需要10秒以上！真正疯狂的是(对我来说)：当我在viewB中将带有customerID的列放在viewB中的weeknumber后面，并对其进行排序时，循环又快了一次！ Vi

浏览 1提问于2014-06-04得票数 0

3回答

算法的运行时间(大O)

、、

我在计算这个算法的运行时间？ Cost No Of Times for(j=1;j<=n-1;j++){ c1 n(loop will run for n-1 times +1 for failed cond for(i=0;i<=n-2;i++){ c2 n*(n-1) (n-1 from outer loop and n for inner if(a[i]>a[i+1]){ c3

浏览 5提问于2013-06-29得票数 4

9回答

Pandas DataFrames中的相等-列顺序重要吗？

、

作为单元测试的一部分，我需要测试两个DataFrames是否相等。DataFrames中列的顺序对我来说并不重要。然而，这对熊猫来说似乎很重要： import pandas df1 = pandas.DataFrame(index = [1,2,3,4]) df2 = pandas.DataFrame(index = [1,2,3,4]) df1['A'] = [1,2,3,4] df1['B'] = [2,3,4,5] df2['B'] = [2,3,4,5] df2['A'] = [1,2,3,4] df1 == df2 结果

浏览 0提问于2013-01-09得票数 29

回答已采纳

1回答

如何改变熊猫的生命周期

、、

我有一个数据帧，我需要按照规则更改3d列 1)如果第2列的i+1行和第i行的差值大于1，则3d列+1 我写了一个使用循环的代码，但是这个代码是永远有效的。我用纯python写了一段代码，但肯定有更好的方法用pandas来做这件事。那么，如何用pandas重写我的代码来减少时间呢？ old_store_id = -1 for i in range(0,df_sort.shape[0]): if (old_store_id != df_sort.iloc[i, 0]): old_store_id = df_sort.iloc[i, 0]

浏览 17提问于2019-07-23得票数 0

回答已采纳

2回答

附加两个DataFrames列和排序列(前两个除外)

、、

我想连接由两个列表创建的两个数据帧： import pandas as pd import numpy as np header_1 = ['A', 'B', -1, 3, 5, 7] data_1 = ['X', 'Y', 1, 2, 3, 4] d = pd.DataFrame(np.array([data_1]), columns=header_1) header_2 = ['A', 'B', -2, 4, 5, 6] data_2 = ['X', 'Z',

浏览 0提问于2016-11-10得票数 1

回答已采纳

2回答

Groovy唯一()方法的计算复杂度是多少？

、

问题1 Groovy 计算复杂度的unique()方法是什么？问题2 我怎么能自己想出来呢？unique()方法是在类DefaultGroovyMethods中定义的。源代码可以在这里找到：org.codehaus.groovy.runtime.DefaultGroovyMethods。你能给我指一段说明问题1答案的代码吗？

浏览 0提问于2013-06-20得票数 3

回答已采纳

1回答

groupby与pandas数据帧中的条件

、

我需要根据包含两列的条件来创建groupby，例如，我有以下数据帧： item start_date end_date A 10/03/2019 31/03/2019 B 10/03/2019 31/03/2019 A 31/03/2019 10/04/2019 B 31/03/2019 10/04/2019 如果end_date等于start_date，并且结果行应该具有第一行的start_date和第二行的end_date，则需要对项进行分组 item start_date end_date A

浏览 0提问于2020-03-24得票数 0

2回答

熊猫索引过滤器比非索引列过滤器慢。

、、、

我对两个Pandas查询进行了计时，希望通过索引实现更高的速度。然而，事实恰恰相反。有人能解释一下为什么吗？还是我做的事情不对？我的理解是，Pandas索引作为哈希表工作，查找将在固定时间内发生。就行过滤而言，我相信这是一种顺序过滤，每次应用一个过滤器时，数据帧中的所有行都会被扫描。数据集大约有800万行和7列。我试图通过数据不唯一的列中字符串值的组合进行筛选。 In [1]: import pandas as pd In [2]: df = pd.read_csv("/path/to/file", header=None, sep='\t', usecol

浏览 2提问于2018-02-07得票数 1

回答已采纳

1回答

Pandas group by和sort by列，需要添加逗号分隔的条目

、、、

我们有以下Pandas Dataframe ? 所需输出： ? 我想做逗号分隔的列，按data列分组，按order列排序我尝试了下面的代码，但它自己订购。 data= (df['section'].str.split(', ') .groupby(df['data']) .agg(lambda x: ', '.join(set(y for z in x for y in z))) .reset_i

浏览 29提问于2020-06-18得票数 2

回答已采纳

3回答

如何更改Pandas DataFrame的列名？

、、

我有一个有n列的Pandas DataFrame，不知道会有多少列。 df = index task_1 task_2 ...... 0 dummy_1 dummy_2 .... 1 dum_1 dum_2 ... 我希望将列名从task_1更改为Label_1，因此on.The out需要 df = index Label_1 Label_2 ...... 0 dummy_1 dummy_2 .... 1 dum_1 dum_2

浏览 2提问于2021-06-09得票数 2

回答已采纳

2回答

从两个熊猫系列创建元素级词典( csv列为DataFrame)

、、

我希望做一个逐行字典映射的两列标题多列csv通过pandas DataFrame通过read_csv()读取。换句话说，对于每一行，将列X中的值作为键，Y列中的相应值作为值。由于pandas中的许多操作都是按元素计算的，因此我推测，我可能通过以下一行程序来实现这一点： {df['X'] : df['Y']} 唉，没有这样的运气。 pandas是否公开了它自己的方法？我还将看到类似于.xls和.xlsx的东西。 Python: 2.7.11 熊猫: 0.18

浏览 3提问于2016-05-13得票数 2