为什么在使用pythons多处理在for循环中使用共享numpy数据进行令人难以置信的并行问题时,没有加速？ - 腾讯云开发者社区

文章/答案/技术大牛

发布

3回答

OpenMP线程中的fread慢性能

、、、

我使用英特尔Xeon x2 (24个内核)和Windows 2008。vector< string > files;...} CPU使用率仅为0%到5%。当我插入而不是fread时(&datai，sizeof of (浮)，s

浏览 6提问于2011-11-14得票数 2

2回答

为什么在使用pythons多处理程序来处理具有共享的numpy数据的for -循环中的令人尴尬的并行问题时，没有速度提高？

、

i使用m= 3000，p= 1500和n= 100。因此，作为一个线性模型，系数矩阵u的推论由n个独立的计算组成。因此，我尝试使用Python的多处理模块，但速度没有提高。有3个for-循环.唯一看起来是“可并行的”的是第三种，其中的系数是推断的：生成一个队列，并将迭代数从0到batch_size-1叠加到队列中，生成8个进程，并让它们通过工作。

浏览 5提问于2010-12-07得票数 16

回答已采纳

3回答

使用numpy数组和共享内存的并行python循环

、、、、

我知道有几个关于这个主题的问题和答案，但还没有找到一个令人满意的答案：对通过numpy/scipy函数操作numpy数组的python循环进行简单的共享内存并行化，最简单的方法是什么？我并不是在寻找最有效的方法，我只是想要一些简单的实现方式，当循环不并行运行时，不

浏览 1提问于2012-10-25得票数 24

回答已采纳

1回答

, 'off'); x = ga(@dejong5fcn, 2, [], [], [], [], [], [], [], options);end 首先，我在没有启动matlabpool的情况下运行test1。正如预期的那样，它运行良好，但与Windows资源监视器观察到的一样，它只使用了一个CPU核心。运行20020次健康评估需要4.2秒。然后，我用"start matlabpool local 4“启动了<em

浏览 0提问于2014-02-04得票数 1

1回答

在Python中的进程之间共享数据

、、、

我有一个复杂的数据结构(用户定义的类型)，对其执行大量独立的计算。数据结构基本上是不变的。我说，基本上是因为虽然界面看起来是不可变的，但内部正在进行一些懒惰的评估。一些计算迟缓的属性存储在字典中(通过输入参数返回代价高昂的函数的值)。我想使用Pythons 模块来并行化这些计算。我脑子里有两个

浏览 4提问于2010-08-10得票数 7

回答已采纳

2回答

OpenMP共享数据

、、

我对OpenMP有点陌生，但一般都有并行处理方面的经验。我以前和boost::threads合作过，现在我正在用openmp进行测试。问题是，我不知道如何处理共享数据访问，因为我不知道openmp在并行循环内部对共享数据对象做了什么。我现在正在做的事情(到目前为止还在起作用)：我用mmap将文件从磁盘读入内存。在内存映射部分之后，我收到char上的</e

浏览 0提问于2011-05-10得票数 3

1回答

为数据科学目的加快Python代码的方法

、、

虽然这听起来可能是一个纯粹的技术问题，但我想知道，对于非常像数据科学的过程，当您需要加速处理时(考虑到数据检索并不是一个问题，并且它也适合内存等)，我想知道您通常尝试哪种方法。其中一些可能包括以下内容，但我希望收到关于其他任何其他方面的反馈意见：良好的实践，在可能的情况下，在数字操作上使用Numpy，而不是循环。更好的

浏览 0提问于2020-01-29得票数 1

1回答

POSIX比OpenMP慢的原因

、、

我在一个带有Xeon处理器的Mac上运行一个完全并行的矩阵乘法程序。我创建了8个线程(与内核一样多的线程)，并且没有共享的写入问题(没有写入相同的位置)。由于某些原因，我使用pthread_create和pthread_join的速度大约是使用#pragma openmp的两倍。在任何事情上

浏览 3提问于2011-04-13得票数 9

回答已采纳

5回答

循环的并行版本不快于串行版本

、、、、

我正在用C++编写一个程序来执行对特定系统的模拟。对于每个时间步骤，执行的最大部分由一个循环占用。幸运的是，这是一个令人尴尬的并行，所以我决定使用Boost线程来并行它(我运行在一台2核心机器上)。我预计在加速接近2倍的串行版本，因为没有锁定。然而，我发现根本没有加速。我实现了循环的并行版本

浏览 2提问于2010-04-14得票数 5

回答已采纳

1回答

与多处理一起使用时，PyTesseract调用工作非常慢

、、、、

我有一个函数，它接收图像列表，并在将OCR应用到图像之后，在列表中生成输出。我有另一个函数，它通过使用多处理来控制这个函数的输入。因此，当我有一个列表(即没有多处理)时，列表的每个图像都需要1s，但是当我将必须并行处理的列表增加到4个时，每个图像都得到了惊人的13s。为了了解问题的真正所在，我尝试创建一个最小的</em

浏览 1提问于2018-11-25得票数 3

回答已采纳

1回答

在python中的进程之间共享连续的numpy数组

、、、、

共享连续numpy数组的动机如下：图像需要特定的预处理和数据增强。(1)标签的连续性(它们是浮动的)和(2)数据增强的约束意味着我在python中对数据进行预处理，然后<

浏览 0提问于2015-07-01得票数 23

1回答

为了更快地运行这段代码，我应该对它进行哪些更改？

、、、

我写了一个用于卫星图像处理的python脚本。基本上，代码所做的是查看图像中每个像素周围的每个窗口，并将其与同一图像中的特定感兴趣区域进行比较。存储具有最相似信息的窗口并将其转换为地理空间向量。并不是图像中的每个像素都被允许成为内核的一部分，所以我也有90个掩码，允许我测试该窗口是否是可选的。问题是，每个月向量大约需要8小时才

浏览 2提问于2020-07-21得票数 0

回答已采纳

1回答

numpy matmul并行化了吗?如何阻止它？

、、

在我的脚本执行过程中查看资源监视器时，我注意到我的PC机的所有内核都在工作，即使我没有实现任何形式的多处理。为了找出原因，我发现当使用numpy的matmult (或者，如下面的例子中的二进制运算符@)时，代码是并行的。尽管我的代码运行速度更快，并且使用了所

浏览 1提问于2020-01-28得票数 1

回答已采纳

1回答

tensorflow多GPU训练

、、、

我按照tensorflow 1.2.0：上的教程创建了一个多GPU训练系统在创建多GPU版本之前，我能够在单个GPU上容纳64个批处理大小。我想如果我按照上面的教程创建一个多GPU版本的代码，我可以通过数据并行化来适应更多的批处理。我希望使用4个GPUS，每个GPUS的批处理大小为64，但我面临内存不足的<e

浏览 18提问于2017-06-28得票数 1

4回答

在GPU上运行操作系统内核级计算有意义吗？

、、

我注意到一个GPU可以有数百个内核，这样可以大大加快并行计算的速度。在操作系统内核中，似乎没有并行算法用于加速。人们在用户中进行并行计算的速度与OpenMP相同，但为什么不在内核空间中进行呢？我猜在操作系统内部有很多任务需要并行处理，比如处理多个网络连接和数据包，执行密码操作，管理内存，搜索

浏览 3提问于2011-03-09得票数 14

回答已采纳

1回答

加速空间命名实体识别

、、

由于无法进入的原因，我需要在迭代循环中逐页地使用Spacy进行预测。我在AWS上使用了一个c4.8xlarge实例，当spacy对数据进行评估时，所有的36个核都会被最大化。Spacy正在将处理几百万个网页的工作从1分钟的工作转变为1 hour+的工作。删除其他管道会影响模型本身，还是只是暂时的事情？我看到您可以在ER培训

浏览 0提问于2018-04-06得票数 18

3回答

Python中的多处理。为什么没有加速？

、、、、

我正在尝试掌握Python中的多处理。我从创建这段代码开始。它简单地计算整数i的cos(i)，并测量使用多处理和不使用多处理时所用的时间。我没有观察到任何时差。下面是我的代码： from multiprocessing import Pool imp

浏览 1提问于2015-07-24得票数 2

2回答

如何计算GPU程序的加速比？

、、、

动机：我的任务是测量我的CUDA代码的和，这需要计算加速比。特别是，我需要将所有这些指标绘制为处理器数量p的函数。定义：是指并行算法比相应的顺序算法快多少，其定义为：问题：我已经在CUDA C中实现了我的算法，并对其进行了计时以获得Tp。但是，在确定Sp时仍然存在一些问题如何在不完全从头重写代码

浏览 33提问于2013-01-16得票数 16

回答已采纳

1回答

将Numpy应用于"for循环“

、、、、

import numpy as np vertical=[] horizontal.append(j)当我处理数组和循环时，需要花费太多的时间。据我了解，由于未定义的数据

浏览 0提问于2017-06-12得票数 2

回答已采纳

1回答

使用Numpy并行化图像处理

、、

我试图在python中使用并行处理来加速我的一段代码，但我无法让它正常工作，甚至无法找到与我相关的示例。我已经能够通过向量化我的代码获得很好的速度提升，但希望通过并行化获得更多：for tri in tris: lopo[tridex==tritris -包含三角形所有索引的唯一py

浏览 1提问于2015-04-13得票数 0

点击加载更多

OpenMP线程中的fread慢性能

为什么在使用pythons多处理程序来处理具有共享的numpy数据的for -循环中的令人尴尬的并行问题时，没有速度提高？

使用numpy数组和共享内存的并行python循环

为什么这个简单的并行Matlab程序比非并行版本慢得多？

在Python中的进程之间共享数据

OpenMP共享数据

为数据科学目的加快Python代码的方法

POSIX比OpenMP慢的原因

循环的并行版本不快于串行版本

与多处理一起使用时，PyTesseract调用工作非常慢

在python中的进程之间共享连续的numpy数组

为了更快地运行这段代码，我应该对它进行哪些更改？

numpy matmul并行化了吗?如何阻止它？

tensorflow多GPU训练

在GPU上运行操作系统内核级计算有意义吗？

加速空间命名实体识别

Python中的多处理。为什么没有加速？

如何计算GPU程序的加速比？

将Numpy应用于"for循环“

使用Numpy并行化图像处理

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐