Python pandas迭代具有复杂计算的行的当前代码更快的方式 - 腾讯云开发者社区

pandas、data-science、data-cleaning

我想清除使用python熊猫的csv文件中的这个日期列。假设我的代码是： import pandas as pd df = pd.DataFrame({ 'name': ['alice','bob','charlie'], 'date_of_birth': ['10/25/2005 R','10/29/2002','01/01/2001 BD'] }) ，我怎样才能清理数千行的混乱呢？我想用： df['date of birth'

浏览 11提问于2022-11-03得票数 0

3回答

尝试找到一种在引用前一行的pandas中使用while循环的有效方法

python-3.x、pandas

我想要多次快速地对数千行数据运行这个自定义函数。我认为解决这个问题的方法需要很长的时间。我尝试过使用.apply，但我不明白如何只应用于某些行。我考虑过尝试将前面的row解决方案存储为变量，但无法对代码进行推理，并认为它可能具有相同的速度。下面的代码是我试图使其更高效的一个示例。这就像4分30秒的excel版本的https://www.youtube.com/watch?v=Dt0KQg52c6c&t=274s 我是编程新手，而且是自学成才，如果有人能给我指出一个方向，可以帮助我想出一种非循环形式的计算方法，那将对我很有帮助，并适用于我未来对编码的理解，谢谢！ import pa

浏览 20提问于2019-10-01得票数 3

2回答

如何处理计算100万列CSV中两列的相关性？

python、pandas、csv、bigdata、pearson-correlation

设想情况： I有一个CSV，它的第一列是“年龄”，另有一百万个列。我希望找到与年龄相关最大的列。Row count很低，比方说在1000行以下。--这是用Python编写的更大解决方案的一部分，但不必是python。和大多数东西一样，我想要平衡代码可重放性和性能在下面的示例中，为了简单起见，我只看了一列。真正的解决方案可能会使用所有cols.的多处理。我下面的代码将工作，但它是可以理解的慢与一个CSV存储为一个Pandas数据格式，这是非常(非常！)很宽。如果是你你会怎么做？ python mycode.py myfile.csv columnname-to-measure：cmdline

浏览 3提问于2021-07-10得票数 0

1回答

dask环境中变量到字符串的转换

python、dataframe、dask

我正在尝试将变量名转换为字符串( dask环境)。这个在正常的python环境中工作得很好。但是，当我在创建dask数据名后运行它时，此代码不起作用。代码在下面。 from dask.distributed import Client client = Client() import dask.dataframe as dd import numpy as np import pandas as pd df = pd.DataFrame({'A':['ant','ant','cherry', 'dog', &#

浏览 1提问于2019-04-10得票数 0

回答已采纳

1回答

如何使用阴影映射和延迟渲染来创建大量的灯光？

shadow、shading、shadow-mapping、deferred-rendering

好的，所以我试着理解如何将这两种技术结合起来，我失败了。主要目标是达到延迟渲染的O(lights+fragments)复杂度，而不是天真/前向渲染的O(灯光*片段)。我现在就是这样做的：说我们有灯。然后生成n个影子映射O(n) 现在我们做一个渲染传递来生成正常的，漫射的颜色，深度.几何缓冲区中的信息。然后我们检查每个片段是否在所有光线中被遮挡。如果是的话就把它藏起来。这有一个O(灯光*碎片)的复杂性，这是错误的，所以你如何才能达到理想的渐近复杂性？你应该怎么做？

浏览 0提问于2018-02-22得票数 0

回答已采纳

1回答

在R中复制ewm pandas函数

我正在尝试在R中复制ewm python (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.ewm.html)函数，但没有成功。以下是python代码： import pandas as pd df = pd.DataFrame({'B': [0:100]}) df.ewm(span=100).std() 我不能在R中得到相同(或相似)的结果。

浏览 9提问于2021-01-17得票数 0

3回答

使用Python读取大型csv文件

python、dataframe、csv、parsing、dask

我使用Dask读取了2.5 to的csv文件，Python给了我错误。这是我写的代码： import pandas as pd import numpy as np import time from dask import dataframe as df1 s_time_dask = time.time() dask_df = df1.read_csv('3SPACK_N150_7Ah_PressureDistributionStudy_Data_Matrix.csv') e_time_dask = time.time() 以下是我从Python得到的错误： dask_df

浏览 0提问于2021-06-17得票数 0

1回答

爬楼梯巨蟒-大数字

python、algorithm

这段代码应该做的是，你必须用“n”级爬楼梯。在每一步，你可以攀登'1‘或'2’级。此代码适用于小数字，但不适用于大数字，例如打印(climbing_stairs(45))将无法工作。在C中有长和双长，我想知道python中是否有类似的东西。 def climbing_stairs(n): if ( n == 0 ): return 1 elif (n < 0): return 0

浏览 3提问于2022-03-10得票数 0

回答已采纳

3回答

将Pandas中的一行乘以前一行(具有某个名称)

python、pandas

我有一个pandas Dataframe，例如： A B Price 1 2 4232 1 2 5656 1 2 2325 我正在尝试找出如何使用以下公式将一行与前一行相乘: 100*(df"Price“- df"Price" )/ df"Price"。本质上，这将输出Price变量的百分比变化。我如何使用Python和Pandas库来做到这一点？

浏览 125提问于2021-06-26得票数 1

回答已采纳

2回答

O(n^2) vs O(n)中的算法

c#、c++、algorithm、pseudocode

我是计算机科学的新手，刚开始接触伪代码，我有一些问题。这是我这学期的第三周，大部分时间都是自学。我有几个问题： O(n^2)和O(n)算法的区别是什么？-类似地，O( n )和Ω(n^2)是什么？到目前为止，我已经写了： horner = 0; for( i = n; i >= 0; i −− ) horner = x * horner + a[i]; 但发现它是O(n)。如何对其进行转换？运行时间是多少？-我知道第一行的赋值是1个操作它在实际的，比如说C#算法中是什么样子的？

浏览 3提问于2015-01-03得票数 4

2回答

基于PyPy的数据采集

python、pandas、dataframe、pypy

PyPy在加速我的代码方面做得很好(对于没有使用Pandas的代码部分)。然而，当涉及到在PyPy上使用Pandas时，它并没有像预期的那样加快代码的速度。我正在寻找一种方法，用几行不依赖Pandas的代码替换代码的这一部分，这样我就可以从PyPy的全部功能中受益。Pandas的任务非常简单:我有四个数据帧df_AB、df_CD、df_AC和df_BD。我首先用AB和CD，df_tot建立了一个合并的数据框架。删除包含重复值的行，并对所获得的数据帧进行排序。然后，将获得的df_tot与df_AC和df_BD进行比较，如果A和C列中的值存在于df_AC中，而B和D中的值存在于df_AD中，则在d

浏览 3提问于2022-10-29得票数 0

4回答

如何计算该算法的时间复杂度

python、algorithm、performance、big-o

我对渐近分析的概念还很陌生。我正在读Goodrich的"Data Structures and Algorithms in Python“。在该书中，它的实现如下所示： def prefix average2(S): ”””Return list such that, for all j, A[j] equals average of S[0], ..., S[j].””” n = len(S) A = [0] n # create new list of n zeros for j in range(n): A[j] = sum(S[0:j+1]) / (j+1

浏览 1提问于2020-07-20得票数 0

1回答

std::unordered_set迭代器遍历的复杂性

c++、c++11、stl、c++-standard-library

我最近玩了一台。我怀疑我的STL版本会跟踪一些文件数据结构中的非空桶(看起来像一个列表)。我认为这样做是为了提供完整std::unordered_set的std::unordered_set时间遍历(其中n表示unordered_set中有比n大得多的m桶和m中的元素数)。这改进了O(m)时间中所有桶的简单遍历。我已经测试过，对大型和非常稀疏的unordered_set(使用begin - end)的遍历要比对所有桶的简单遍历要快得多。问题：这个遍历运行时是否得到了标准的保证？或者这只是我特定标准库的一个特性？下面是我要使用的测试代码： #include <iostream>

浏览 1提问于2017-04-13得票数 7

回答已采纳

1回答

加速DASK bag处理文本文件？

python、performance、dask、bag

嗨，我有以下代码： <code>A0</code> 现在，我正在处理~10_000行文本文件，这是一个很轻的负载。它只是每行一句话，被拆分成单词并进行比较。文件中的每一行和所有其他行。问题是它太慢了…100步需要大约1M 20秒，而所有的CPU都在工作。同时，得分函数速度快~2微秒 <code>A1</code> 那么你有什么技巧可以帮我加快速度吗？

浏览 19提问于2021-06-12得票数 1

2回答

基于另一列在熊猫数据中添加新列

python、pandas、dataframe

我有一个数据，它有一个列用于，bmi，，基于该列，我想创建另一个列，它将显示bmi范围与该行的bmi值有关。下面是我的代码： for i in range(df["bmi"].count()): if df["bmi"][i] < 18.5: df["bmi_category"] = "Under Weight" elif 25 > df["bmi"][i] >= 18.5: df["bmi_category"] = "Healthy Weight"

浏览 3提问于2021-04-02得票数 0

回答已采纳

1回答

无需使用pandas/numpy等库即可计算每个流派的平均值

python、python-3.x、pandas、average、data-analysis

我是一个学习数据分析和学习Python的学生。我必须在数据库上使用纯python编写一些代码来获取摘要统计信息。然后，我必须使用numpy或pandas获取汇总统计信息。然后比较使用纯python和使用库的过程。我已经用纯python完成了必须的统计，并在numpy中完全完成了-因为库让它变得容易得多。但是，我坚持使用纯python的一个统计数据。特别是我如何获得每种类型的平均销售额。附加的数据库图片，以进一步解释我的查询。任何信息都将不胜感激。谢谢 ? 这就是我使用pandas所做的事情，我想在python中实现这一点，而不使用任何库。 ?

浏览 28提问于2021-11-12得票数 0

1回答

如何通过处理像行中的换行符这样的情况来读取csv文件？

python、python-3.x、pandas、amazon-s3、codec

for row in codecs.getreader(self.encoding)(self.response[u'Body']).readlines(): row_string = StringIO(row) print ("Row read from the data is: ") print (row_string.getvalue()) df = pd.read_csv(row_string, sep=",") 我已经编写了上面的代码来从S3

浏览 1提问于2018-11-12得票数 2

1回答

在近距离连接用户的最佳方式是什么？(纬度、经度)

python、android、geolocation、bounding-box、geojson

我创建了一个android应用程序，它可以将跑步者连接在一起。我使用了一个Tornado和一个No- ServerWeb数据库。我的解决方案是：将所有{lon，lat}个用户(定期更新)存储在DataLocation中。当用户想要看到他周围的用户时，它会调用特定的函数到我的服务器，从他的当前位置生成一个边界框。下一步是返回我的DataLocation的边界框中的用户。这是个好方法吗？有什么建议吗？GeoJSON对我有用吗？我如何在Python中做到这一点？

浏览 0提问于2011-01-20得票数 1

2回答

在两个不同的Pandas数据帧上循环

python、numpy、pandas

我有两个不同的数据帧，我正在尝试比较。因此，我的第一个数据帧有10行，第二个有2000行。我尝试做的是将我的第一个df中的第一行与另一个df中的全部2,000行进行比较。然后对我的第一个df中的下一行执行相同的操作。这是我目前拥有的代码。它在前2,000中工作得很好，然后当我应该递增时，它崩溃了。 i = 1 j = 1 for u in userFrame.iterrows(): for d in dbFrame.iterrows(): if userFrame['tag'][i] == dbFrame['tag1'][j]:

浏览 0提问于2016-02-12得票数 2

1回答

我有很多SQL代码可以帮助对一些数据进行图形化建模，有什么方法可以轻松地将这些代码转换成Python呢？

python、sql

我目前正在使用一个包含数千行SQL代码的代码库。但是，逻辑是正确的，但是需要将代码转换为Python。在维护SQL逻辑/功能的同时，是否有一种简单的方法将此代码转换为Python？我研究过SQlalchemy，但不太确定这是否是最佳方法。谢谢示例SQL： SELECT DISTINCT sale_date, store_state, sum(sale_amount) as total_sales FROM customers GROUP BY store_state, sale_date ORDER BY sale_date ASC; 谷歌：“将SQL转换为Python”。有人

浏览 3提问于2022-11-16得票数 0

1回答

读取整个数据集，但不包括标头？

python、pandas、dataset、weather、readlines

我得到了一个.csv文件，这是一个来自气象站的数据文件，其中包括日期、时间、温度、露点、湿度等。这是迄今为止我在Python文件中所拥有的： import math import pandas as pd import math import numpy openfile=pd.read_csv('KOAK.csv','r',delimiter=',',skiprows=8,header=None) f1=openfile.read() openfile.close() 我跳过了前8行，因为它们包含标题信息。如何修复此Python代码以读取整个数

浏览 0提问于2020-04-10得票数 0

2回答

为什么熊猫的索引这么慢？如何使它更快？

python、pandas

运行此代码显示了大熊猫与常规python列表在速度上的差异： ser = pd.Series(range(100)) lst = ser.tolist() for _ in range(10): pandas_time = 0 list_time = 0 for _ in range(100000): r = randint(0, len(ser)-1) t = time() ser[r] pandas_time += time() - t t = time() lst[

浏览 2提问于2019-01-01得票数 1

回答已采纳

1回答

如何在插入仍在进行时检查插入到表中的行数

python、pandas、oracle

我有一个包含400万行和53列的dataframe。我正在尝试将数据写入到oracle表中。下面是我在python中的代码片段； import pandas as pd import cx_Oracle conn = (--------------) df = pd.read_sql(------) #write to oracle table df.to_sql(---) 这段代码已经运行了三天多了，遥遥无期。请问怎样才能得到插入的进度？ PS:我的连接运行良好，并且我已经确认"to_sql()“正在工作，因为我在一个10行的数据帧上尝试了它，并且它工作了。编辑：谢谢大家，帮了忙

浏览 4提问于2020-01-13得票数 0

1回答

熊猫df:检索具有单元格值的记录，==浮点不起作用。我做错了什么？

python、pandas

我有这段代码，我不知道如何检索我想要的行。我正在尝试检索具有device_id=16384035的行。我尝试了浮点数和整数，并在那里进行了字符串(因为它告诉我列是对象)，但都没有工作。 print(s_devices['Device ID']) print(s_devices.columns) print(s_devices.iloc[0,1]) print(type(s_devices.iloc[0,1])) print(s_devices[['Device ID']==float(16384035)]) 以上打印如下： 0 16384035.0

浏览 4提问于2022-02-12得票数 -1

回答已采纳

1回答

Pandas在小数据下的效率

python、performance、pandas、memory

我只是好奇！有没有一个下限，我们不应该使用熊猫？考虑到效率和可读性，对大数据使用pandas是很好的。但是，对于熊猫，我们必须使用传统的循环(Python 3)有什么下限吗？什么时候我应该考虑使用pandas或numpy？

浏览 2提问于2017-08-18得票数 1

1回答

处理大型数据集时，Python脚本性能非常慢

python、performance

我有一个Python代码，它是执行计算的类。该类从csv文件中获取数据，执行计算并将其写回csv文件。不幸的是，当我通过大量的数据(20K行和50列)时，大约需要一个小时。有没有可能提高速度，或者我应该改变脚本，从处理pandas系列到numpy数组?下面是我的代码示例，开始部分和最后部分。总共有500行代码。类中的方法非常简单和基本： import pandas as pd class Asset: def __init__(self, filename): #read csv data self.data=pd.read_csv(filename) self.fil

浏览 17提问于2021-05-28得票数 2

1回答

基于关键字导入Python时排除Excel行

python、excel、dataframe、row

要求：将目录中的所有XLS文件合并为1 XLSX工作表，其中只包含几个列(由列位置例如确定)。A，F，G)，但是由于数据大小太大，我需要排除几行(由几个关键字eg决定)。几个columns)中的“类别”、“所有者” 我需要第3点的帮助。下面是当前代码。 import pandas as pd import glob path=r'C:\Users\user.name\Documents\TEST' files_xls = glob.glob(path + "/*.xls") df = pd.DataFrame() for f in files_xls:

浏览 2提问于2020-07-01得票数 0

回答已采纳

1回答

让VSCODE在逐行运行python时导航到script目录？

python、visual-studio-code、settings

最近从世爵转到了VSCode。虽然我很喜欢VSCode，但对于新手来说有点太难了，特别是来自像Spyder这样的集成开发环境，它基本上是开箱即用的(尽管定制较少)。我有一个特别的问题，我似乎搞不清楚。通常，我喜欢在编写代码时逐行遍历代码。这意味着当我运行一行代码时，终端启动python shell并运行它(如果它是我运行的第一个命令，否则它将在打开的shell中运行)。运行选择/行的键盘快捷键是F1。当我按F1时，终端打开并启动python shell并运行这行代码。我的问题是，在运行该命令之前，我希望将其cd到文件所在的目录中。在调试模式下和运行整个文件时，我可以让它工作：调试

浏览 53提问于2020-04-27得票数 0

1回答

我应该使用哪些模块来创建游戏树？

python、tree、artificial-intelligence

我正在为一个Python编码类写一个项目，我有一个问题。我正在编写一个引擎，它将在游戏中向前看几步棋，然后选择它认为最好的一步棋。虽然我知道python不是一种理想的语言(因为它不像其他一些语言那样快)，但我认为可以写出至少是函数式的代码，同时可能仍然有点慢。也就是说，我正在尝试创建两个表:一个游戏板(考虑一个矩阵)和一个包含整数的博弈树。我想使用一些内存效率高、速度快的东西来添加、删除和读取条目。我现在使用的板子效率不是很高。我想问一下，任何人都会推荐什么模块(以及如何使用它们的说明)来编写与此相同但内存更少的东西(例如: array，numpy；除非我不知道如何使用这两个模块)： se

浏览 1提问于2012-04-13得票数 4

回答已采纳

1回答

从控制台读取F#输入

recursion、f#、console.readline

我的代码有一个小问题，我编写的代码是作为行序列从F#中的控制台读取输入的。我的问题是，它只读了5行文字，然后结束，但它应该读更多的行。如果有人告诉我这段代码出了什么问题就好了。 let allList = new List<string>() let rec readlines () = seq { let line = Console.ReadLine() let b = allList.Add(line) if line <> null then yield line yield! readlines () } let b =

浏览 1提问于2019-01-07得票数 4

回答已采纳

1回答

“numpy.int64”对象在使用潜在的dirichlet分配时不可迭代

python、pandas、numpy、lda

我正在尝试将隐狄利克雷分配算法应用于从twitter数据检索到的.csv文件。目前我遇到了这个错误： Traceback (most recent call last): File "...Python\Python39\lib\tkinter\__init__.py", line 1884, in __call__ return self.func(*args) File "...\src\project.py", line 262, in lda for i in top_topic_words: TypeError: '

浏览 36提问于2021-02-25得票数 0

回答已采纳

3回答

与匹配线一起打印前一行

awk

我想搜索模式，如果匹配，然后打印匹配的线和前一行。我用了密码 awk '/pattern/ {print a}{a=$0}' file 但它只是打印前一行的匹配线。如何打印前一行与匹配线。

浏览 1提问于2021-02-23得票数 2

回答已采纳

1回答

在绘制给定数据集的功率谱密度时需要abs ()方法

python、numpy、machine-learning、scipy、signal-processing

大家好，我是数据科学方面的新手，我想知道使用abs ()函数和除以python的fft的fft ()函数的输出值的重要性。fftpack库，用于绘制数据集的功率谱密度。我已经发现，许多绘制功率谱密度的代码示例都使用abs ()，然后对此后得到的值进行平方。有谁能告诉我这样做的原因吗？我们不能直接绘制python的Can中从fft ()函数中得到的值吗？fftpack图书馆？下面是我编写的代码，通过引用一些代码示例来绘制功率谱密度， import scipy.io as sio import numpy as np Import matplotlib.pyplot as plt import

浏览 0提问于2017-04-07得票数 1

1回答

代码比较和性能

java、performance

在一个高性能的库实现中，我看到了以下代码 double meanQ=0; int counter=0; for(...){ //some cycle with many iterations where meanQ and counter are incremented } meanQ /= (double)counter + 0.001D; 最后一行看起来让我很困惑。我就会这么做 if(counter>0) meanQ /= counter; 当counter为0时，meanQ也为0，否则除以counter。作为一种均值，它也(稍微)更准确，没有强制转换，它更容易理解

浏览 0提问于2016-10-13得票数 2

2回答

如何在大熊猫中进行分裂

python、pandas、dataframe

考虑下面是我的数据框架，我希望填充百分比列，将单个标记除以Total，以获得百分比。 Name Marks 0 Total 100 1 Name1 45 2 Name2 65 3 name3 93 4 name4 89 我写了这样的代码 for i in range(0,5): pcnt=(df['Marks'][i])/(df['Marks'][0]) df['Percentage']=pcnt*100 但是百分比列只为所有行生成0。上面的代码只是一个例子

浏览 0提问于2018-03-10得票数 1

回答已采纳

1回答

在Pandas DataFrame上循环API调用的最快方法

python、pandas、python-requests

我的目标是为Pandas DataFrame中的每一行调用一个API，其中包含响应JSON中的字符串列表，并创建一个新的DataFrame，每个响应只有一行。我的代码基本上如下所示： i = 0 new_df = pandas.DataFrame(columns = ['a','b','c','d']) for index,row in df.iterrows(): url = 'http://myAPI/' d = '{"SomeJSONData:"' + row[

浏览 2提问于2017-10-17得票数 7

6回答

我如何通过跳过和接收linq来完成这个任务？

c#、linq

我有一个包含超过50k行的数据集。我决定取前50个值的平均值，然后取第二个50个值，以此类推(这样我就可以得到平均50个值组的数据集的一半)。这是我的代码： var Rate = (from dr in ds.Tables[0].AsEnumerable() select new { rate = dr.Field<double>(columnName)

浏览 2提问于2012-05-17得票数 0

回答已采纳

3回答

是否有更好的方法在嵌套循环上迭代行(30000)？

python、pandas、dataframe

我想在下表中找到行，其中包含重复的电子邮件地址。当电子邮件地址被重复时，我在下面的代码中创建了一个额外的列，值为'ja‘。对于少数行(150)来说，这是可以的。对于大量行(30000)，脚本挂起。有什么更好的方法来循环行吗？ import pandas as pd data={'Name':['Danny','Damny','Monny','Quony','Dimny','Danny'], 'Email':['danny@gmail.com

浏览 4提问于2022-10-24得票数 2

回答已采纳

2回答

从整数列表中筛选最大20个值

python、list、max

我想要创建一个列表maxValues，其中包含整数列表1的前20个值。 maxValues = [] for i in range(20): maxValues.append(max(lst)) lst.remove(max(lst)) 是否有一个更紧凑的代码来完成这一任务，甚至内置功能？

浏览 3提问于2012-03-18得票数 6

回答已采纳

1回答

P将多个列分配给apply: TypeError: Series.name必须是可散列类型

python、pandas

有没有人能帮我解决这个错误，或者告诉我发生了什么？我们正在尝试将多个数据列放入一个apply()中。 import pandas as pd import matplotlib.pyplot as plt pd.set_option('display.max_columns',None) pd.set_option('display.max_rows',None) df = pd.read_csv('data.csv') df['modification_date']=pd.to_datetime(df['modif

浏览 195提问于2020-12-01得票数 0

3回答

在Python / Pandas中计算两行之间的差异

python、pandas

在python中，如何引用前一行并对其进行计算？具体地说，我在pandas中使用dataframes -我有一个充满股票价格信息的数据框架，看起来像这样： Date Close Adj Close 251 2011-01-03 147.48 143.25 250 2011-01-04 147.64 143.41 249 2011-01-05 147.05 142.83 248 2011-01-06 148.66 144.40 247 2011-01-07 147.93 143.69 下面是我是如何创建这个数

浏览 2提问于2012-10-29得票数 67

回答已采纳

2回答

设置Pandas列时提高性能

python、pandas

是否有一种方法来改进Python中的代码写。我使用Pandas库和Python3.4： bd_data = pd.DataFrame(list(bd_data)) column = list(bd_data[numeric]) for i in range(0,len(column)): pos = bisect.bisect_left(intervalsArray,int(column[i])) bd_data.ix[i,'colorCluster'] = colorsPalette[pos] 我试图根据数字在间隔列表中的位置，

浏览 2提问于2017-04-12得票数 1

回答已采纳

1回答

Python --老熊猫合并的结果比新的熊猫多。

python、pandas

我有两个环境：环境#1: Python3.7.5Pandas 0.23.4 环境#2: 3.8.10Pandas 1.3.4 Python 我在两个版本中都有相同的代码，没有对其进行任何修改。但是，我有这一行特定的代码，这些代码似乎导致了问题/产生了不同的输出： df_result = pd.merge(df_l, df_r, left_on=left_on, right_on=right_on, how='inner', suffixes=suffixes) df_l和df_r只是读取Excel文件。我在两个版本的调试器中检查了它们，它们是完全相同的，所以应该没问题。另外

浏览 1提问于2021-12-14得票数 0

回答已采纳

1回答

KeyError同时使用熊猫数据

python-3.x、pandas、dataframe、machine-learning、data-science

我正在尝试使用python实现自定义性能度量。目的是求出概率的最佳阈值，给出度量A的最低值。我编写了以下计算混淆矩阵和阈值的代码。 def confusion_matrix(self): """This method returns the confusion matrix for the given pair of Y and Y_Predicted""" #y,ypred y = self.df["y"] ypred = self.df["

浏览 3提问于2021-07-06得票数 0

回答已采纳

1回答

列表中最常见的元素-列

python、pandas、dataframe

我正在使用python / pandas。我有一个这样的数据帧： date id my_column 0 31.07.20 128909 ['hey', 'hi'] 1 31.07.20 128914 ['hi'] 3 31.07.20 853124 ['hi', 'hello', 'hey'] 4 30.07.20 123456 ['hey'] ..

浏览 20提问于2020-10-16得票数 0

回答已采纳

1回答

如何在一系列行的熊猫数据栏上矢量化？

python、pandas、numpy、dataframe

所以我有一个带有y行的x列的Pandas DataFrame。DataFrame中的数据是float64值。我试图计算两列之间的斜率相关性，但是对于单个列的范围(例如，列有25000行，我只想要介于5-10之间的值，这些值恰好在2000-4000行中)。为了做到这一点，我将以下面的psuedocode演示的方式进行迭代： for i in range(i, len(df['Column 1'])) if df.loc[i, 'Column 1'] <= 10.0 & df.loc[i, 'Column 1'] >= 5

浏览 2提问于2020-06-29得票数 0

回答已采纳

3回答

用numpy /大熊猫阅读Python中CSV文件的最后N行

python、csv、pandas、numpy

是否可以使用numpy或pandas快速读取Python中CSV文件的最后N行我不能在numpy中执行numpy，在pandas中不能执行skiprow，因为文件的长度是不同的，而且我总是需要最后的N行。我知道我可以使用纯Python逐行读取文件的最后一行，但这会非常慢。如果有必要的话，我可以这样做，但是使用numpy或pandas (本质上是使用C)的更有效的方法将是非常感谢的。

浏览 5提问于2016-08-01得票数 4

回答已采纳

1回答

python脚本在终端上运行1分钟后停止运行

python、pandas、bioinformatics

我正面临一个关于我的python脚本的问题。我在我的机器上使用Ubuntu作为第二个操作系统，我已经编写了一段python代码来输出关于某些蛋白质的不同信息。在给了我第一个蛋白质的输出后，它在第二个蛋白质的过程中变慢了很多，在某个时候它不会再有反应了。当我键入control+c时，我得到以下消息： Traceback (most recent call last): File "testPerf.py", line 185, in <module> uniqueDict(args.input,args.output) File "testPerf.py&#

浏览 18提问于2020-05-27得票数 0

回答已采纳

1回答

使用多列将包含多个elif分支的IF语句传递给Pandas数据with

python、pandas、if-statement

以下是我的dataframe (Mrp)快照：我试图将以下逻辑应用于每一行，并将结果保存到一个新列中： def planning_period(x): if x <= 30: return mrp['p01'] + mrp['p02'] elif x <= 60: return mrp['p01'] + mrp['p02'] + mrp['p03'] elif x <= 90: return mrp['p01'

浏览 3提问于2022-07-23得票数 -1

1回答

为什么"i“不在下面的代码中得到增量

python

我对编码很陌生，只是偶然发现了"python“中的这些代码行。 a = [1,2,3,4,"hello"] for i in a: try: print(i) i + 1 print (("i is : %d") %(i)) except: print("nope " + i + " is a string") 产出如下： 1 i is : 1 2 i is : 2 3 i is : 3 4 i is : 4 hello nope hello

浏览 2提问于2017-06-06得票数 0

回答已采纳