改进pandas中双环的性能

文章/答案/技术大牛

发布

1回答

、

我有一个由数字和分类字段组成的数据框架： import pandas as pddf2 我正在计算每一行与以下代码的相似度： #calculate distance matrix comparing how similar，但

浏览 14提问于2019-09-10得票数 0

回答已采纳

2回答

IPv6 4/IPv6 6依赖性测试

、、

来自研究的软件改进小组显示，每12个应用程序中就有1个在面临双堆栈IPv4+IPv6环境时行为不正确。质量保证通常如何处理这一问题以确保：应用程序与IPv4和IPv6兼容吗？应用程序正确处理双堆栈环境？

浏览 0提问于2012-02-27得票数 4

回答已采纳

1回答

下面是我的一些公共传输数据集的示例：data set。日期从2018-06-01到2018-06-30，时间是工作时间，从早上5点到24点， People是指特定日期、时间和行程中的人数。from_to是那些人进入和离开的地方(一种旅行)，最后是工作日。这里我需要做的是为每个行程创建一个时间表，例如，如果我想为trip "G1_G2“创建一个表，我现在使用的代码是： for i in [0,1,2,3,4,5,6]: for j in [0,1,5,6,7,8,9

浏览 16提问于2019-03-22得票数 1

回答已采纳

2回答

改进pandas tolist()的性能

、

我在一个有200列的pandas数据帧上执行了以下操作，该操作使用了大约1s： for col in mycols: if (_item is not None) and str(_item)] 有没有更好的方法来做到这一点我在这里尝试做的是转换类似如下的内容： field field2 '2014-0

浏览 52提问于2018-12-25得票数 0

1回答

升级到Linux应用程序中的Ring 0

、

不幸的是，它们是特权指令，只能通过环0执行。我曾考虑过使用内核模块将它们添加为syscall，但这会破坏我所需要的性能改进。然而，我不知道在源代码中切换到环0的位置，也不知道它是否会对虚拟内存产生任何副作用。有什么想法吗？

浏览 1提问于2013-08-18得票数 0

2回答

双for循环性能的改进

、、

为了计算pearson相关性(一个数字决定用户是否适合彼此)，我必须检查用户在同一家餐厅留下评论的位置。为了增加火柴的数量，我已经包括了一个匹配的价格范围的主题。{ get; set; }这是一个简化的版本，但对我的示例来说已经足够了。价格区间可以是1-5的整数，这决定了餐厅的价格有多高。这是一个for循环，我用它来检查他们是在同一家餐厅留下评论，还是在价格相同的餐馆上留下评论。您可以看到，我正在循环第一个用户留下的<

浏览 4提问于2016-10-31得票数 1

1回答

在python中使用大型csv

、、、

我的目标是从前500 k取每一行，并根据一定条件将其与以下所有行(即5kk-n)进行比较。或现在，我对列表使用简单的循环and j[3].split()[0] if j[3].split() else '' in i[3]):这显然需要很长的时间来完成

浏览 4提问于2014-10-06得票数 2

回答已采纳

2回答

改进pandas中的datetime比较性能

、、、、

我有一个pandas数据帧，它的值如下： df['ORDER_RECEIVED_DATE'].head()0 2018-01-012 2018-01-014 2018-01-01 我正在定义一个自定义函数来创建另一个列"Period"，这取决于与"ORDER_RECEIVED_DATE“中的日期值的比较。y=6 elif x<pd.to_date

浏览 21提问于2019-04-30得票数 1

回答已采纳

3回答

32位和64位操作系统中的双字节大小

、、、、

当我在32位和64位环境下运行我的应用程序时，大小有区别吗？如果我没记错的话，32位环境中的双精度将占用0之后的16位，而64位环境中的双精度将占用32位，对吗？

浏览 1提问于2009-07-09得票数 36

回答已采纳

1回答

改进pandas处理子集的性能

、、、

希望每个人在这个艰难的时刻都做得很好。我有个问题，如果有人能帮我。我有以下使用Pandas完成的代码，用于测试Dataframe是否有足够的数据开始计算： def testa_liga(dados,data,liga,minimo_jogos): return minimo 不仅如此，我还为许多其他的验证做了这样的</

浏览 13提问于2020-03-22得票数 0

3回答

自动装箱和性能

目前我们所有的值都是双精度的。我使用JFormula引擎进行大部分计算，并注意到api使用了一个双精度参数，因此当我传入一个双精度参数时，会发生一些自动装箱。我已经阅读了一些文章，并创建了一些简单的测试，确实注意到了性能影响，但我仍然在努力弄清楚它所花费的时间来检查我的代码并解决这个问题，这将是任何性能改进的价值所在。我想知道其他人是否有过类似的经验，并通过使用原语获得了性能提升？

浏览 3提问于2008-10-27得票数 2

2回答

Python中的多个导入会影响内存吗？

、

假设我有一个python脚本import matplotlib现在我读到pandas在matplotlib上有内置的绘图，类似的Seaborn是建立在matplotlib之上的，所以当我导入所有这3个包时，这对性能/内存有什么问题吗，因为单个包被多次导入，或者有任何改进。

浏览 1提问于2020-08-28得票数 0

1回答

熊猫在索引上的表现与栏上的切分

、、、

我有一个相当大的Pandas (3000万行)，我需要一遍又一遍地切分，所以性能至关重要。切片需要对一列的值和另一列中的值列表进行。我尝试了两种不同的方法，可以用以下示例加以说明：import pandas as pd np.random.randint，这两种方案的性能都是截然不同的： 3.92

浏览 1提问于2018-03-12得票数 0

1回答

性能下降与两个前程循环？

双前环性能下降？ }}}, label: { })两个前置循环是否导致性能下降我有100 - 150

浏览 1提问于2022-01-30得票数 0

1回答

以更快的速度将填充物用在整个df上。

、

我有一行代码来填充熊猫的数据：这很好，任何空值都会被字符串'na‘替换，这正是我想要的。然而，它是缓慢的。在我的代码的其他地方，我使用了一个更快的lambda函数，它使用可用的核心并行处理，例如：pages['dimension3'] = pages['dimension3'

浏览 2提问于2019-12-24得票数 0

回答已采纳

1回答

Dask和Numba -如何有效地使用地图分区？

、、、

我试图加快我的代码，提高我对Dask和Numba的理解，我尝试在我创建的示例中使用这两种方法，但是没有改进，我也不明白为什么。我必须说，我是在一个有四个核心的笔记本电脑上，所以改进可能不是很大，但它应该在那里。这是我的代码：import pandas as pdimport dask.dataframe as dd data这是一个相当大的数据存储

浏览 1提问于2019-01-10得票数 2

1回答

Corda硬币选择算法

、

我注意到硬币选择算法只是收集第一个UTXO，直到有足够的平衡。是否有改进该算法的路线图？

浏览 2提问于2017-11-23得票数 0

回答已采纳

1回答

高效的Pandas数据帧滚动平均值

、、、

我有一个巨大的数据帧，并且经常添加单行。我希望在添加单行后更新滚动平均值(在最近的时间窗口内)和标准差。有没有人知道pandas是使用新包含/删除的行的增量在固定时间内自动执行此操作，还是实际上重新计算和和平方和？编辑:已经请求一个例子来解释我所说的恒定时间滚动平均更新是什么意思：old_mean = 2 expired_value = 1 new_mean

浏览 3提问于2018-08-20得票数 4

1回答

未能将大数据从Google BigQuery导入到Google Cloud DataLab

、、

为了使用Tensorflow进行机器学习，我尝试了两种方法，在Google中将大约5000万行( 18GB )的大表导入到BigQuery中。首先，我使用(所需的所有模块都是导入的)：data = pd.read_gbq(query='SELECT {ABOUT_30_C

浏览 1提问于2017-07-02得票数 3

3回答

R中的双环

、、

我对R很陌生，我有一个关于循环的问题特定部门中的不同类型的组织在特定country.Percentage中的总预算金额，在一个部门中给予不同类型的organizations.smalltable <-subset(table, (country == "

浏览 1提问于2012-06-19得票数 2

回答已采纳

点击加载更多