腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
OpenMP线程
中
的
fread慢性能
、
、
、
我
使用
英特尔Xeon x2 (24个内核)和Windows 2008。vector< string > files;...} CPU
使用
率仅为0%到5%。当我插入而不是fread
时
(&datai,sizeof of (浮),s
浏览 6
提问于2011-11-14
得票数 2
2
回答
为什么
在
使用
pythons
多
处理
程序来
处理
具有
共享
的
numpy
数据
的
for -
循环
中
的
令人尴尬
的
并行
问题
时
,
没有
速度提高?
、
i
使用
m= 3000,p= 1500和n= 100。因此,作为一个线性模型,系数矩阵u
的
推论由n个独立
的
计算组成。因此,我尝试
使用
Python
的
多
处理
模块,但速度
没有
提高。有3个for-
循环
.唯一看起来是“可
并行
的
”
的
是第三种,其中
的
系数是推断
的
:生成一个队列,并将迭代数从0到batch_size-1叠加到队列
中
,生成8个进程,并让它们通过工作。
浏览 5
提问于2010-12-07
得票数 16
回答已采纳
3
回答
使用
numpy
数组和
共享
内存
的
并行
python
循环
、
、
、
、
我知道有几个关于这个主题
的
问题
和答案,但还
没有
找到一个令人满意
的
答案: 对通过
numpy
/scipy函数操作
numpy
数组
的
python
循环
进行
简单
的
共享
内存
并行
化,最简单
的
方法是什么?我并不是
在
寻找最有效
的
方法,我只是想要一些简单
的
实现方式,当
循环
不
并行
运行时,不
浏览 1
提问于2012-10-25
得票数 24
回答已采纳
1
回答
为什么
这个简单
的
并行
Matlab程序比非
并行
版本慢得多?
、
, 'off'); x = ga(@dejong5fcn, 2, [], [], [], [], [], [], [], options);end 首先,我
在
没有
启动matlabpool
的
情况下运行test1。正如预期
的
那样,它运行良好,但与Windows资源监视器观察到
的
一样,它只
使用
了一个CPU核心。运行20020次健康评估需要4.2秒。然后,我用"start matlabpool local 4“启动了<em
浏览 0
提问于2014-02-04
得票数 1
1
回答
在
Python
中
的
进程之间
共享
数据
、
、
、
我有一个复杂
的
数据
结构(用户定义
的
类型),对其执行大量独立
的
计算。
数据
结构基本上是不变
的
。我说,基本上是因为虽然界面看起来是不可变
的
,但内部正在
进行
一些懒惰
的
评估。一些计算迟缓
的
属性存储
在
字典
中
(通过输入参数返回代价高昂
的
函数
的
值)。我想
使用
Pythons
模块来
并行
化这些计算。我脑子里有两个
浏览 4
提问于2010-08-10
得票数 7
回答已采纳
2
回答
OpenMP
共享
数据
、
、
我对OpenMP有点陌生,但一般都有
并行
处理
方面的经验。我以前和boost::threads合作过,现在我正在用openmp
进行
测试。
问题
是,我不知道如何
处理
共享
数据
访问,因为我不知道openmp
在
并行
循环
内部对
共享
数据
对象做了什么。 我现在正在做
的
事情(到目前为止还在起作用):我用mmap将文件从磁盘读入内存。在内存映射部分之后,我收到char上
的</e
浏览 0
提问于2011-05-10
得票数 3
1
回答
为
数据
科学目的加快Python代码
的
方法
、
、
虽然这听起来可能是一个纯粹
的
技术
问题
,但我想知道,对于非常像
数据
科学
的
过程,当您需要
加速
处理
时
(考虑到
数据
检索并不是一个
问题
,并且它也适合内存等),我想知道您通常尝试哪种方法。其中一些可能包括以下内容,但我希望收到关于其他任何其他方面的反馈意见: 良好
的
实践,
在
可能
的
情况下,在数字操作上
使用
Numpy
,而不是
循环
。更好
的
浏览 0
提问于2020-01-29
得票数 1
1
回答
POSIX比OpenMP慢
的
原因
、
、
我
在
一个带有Xeon
处理
器
的
Mac上运行一个完全
并行
的
矩阵乘法程序。我创建了8个线程(与内核一样
多
的
线程),并且
没有
共享
的
写入
问题
(
没有
写入相同
的
位置)。由于某些原因,我
使用
pthread_create和pthread_join
的
速度大约是
使用
#pragma openmp
的
两倍。 在任何事情上
浏览 3
提问于2011-04-13
得票数 9
回答已采纳
5
回答
循环
的
并行
版本不快于串行版本
、
、
、
、
我正在用C++编写一个程序来执行对特定系统
的
模拟。对于每个时间步骤,执行
的
最大部分由一个
循环
占用。幸运
的
是,这是一个令人尴尬
的
并行
,所以我决定
使用
Boost线程来
并行
它(我运行在一台2核心机器上)。我预计
在
加速
接近2倍
的
串行版本,因为
没有
锁定。然而,我发现根本
没有
加速
。 我实现了
循环
的
并行
版本
浏览 2
提问于2010-04-14
得票数 5
回答已采纳
1
回答
与多
处理
一起
使用
时,PyTesseract调用工作非常慢
、
、
、
、
我有一个函数,它接收图像列表,并在将OCR应用到图像之后,
在
列表中生成输出。我有另一个函数,它通过
使用
多
处理
来控制这个函数
的
输入。因此,当我有一个列表(即
没有
多
处理
)
时
,列表
的
每个图像都需要1s,但是当我将必须
并行
处理
的
列表增加到4个
时
,每个图像都得到了惊人
的
13s。 为了了解
问题
的
真正所在,我尝试创建一个最小
的</em
浏览 1
提问于2018-11-25
得票数 3
回答已采纳
1
回答
在
python
中
的
进程之间
共享
连续
的
numpy
数组
、
、
、
、
共享
连续
numpy
数组
的
动机如下: 图像需要特定
的
预
处理
和
数据
增强。(1)标签
的
连续性(它们是浮动
的
)和(2)
数据
增强
的
约束意味着我
在
python
中
对
数据
进行
预
处理
,然后<
浏览 0
提问于2015-07-01
得票数 23
1
回答
为了更快地运行这段代码,我应该对它
进行
哪些更改?
、
、
、
我写了一个用于卫星图像
处理
的
python脚本。基本上,代码所做
的
是查看图像
中
每个像素周围
的
每个窗口,并将其与同一图像
中
的
特定感兴趣区域
进行
比较。存储具有最相似信息
的
窗口并将其转换为地理空间向量。并不是图像
中
的
每个像素都被允许成为内核
的
一部分,所以我也有90个掩码,允许我测试该窗口是否是可选
的
。
问题
是,每个月向量大约需要8小
时
才
浏览 2
提问于2020-07-21
得票数 0
回答已采纳
1
回答
numpy
matmul
并行
化了吗?如何阻止它?
、
、
在
我
的
脚本执行过程
中
查看资源监视器
时
,我注意到我
的
PC机
的
所有内核都在工作,即使我
没有
实现任何形式
的
多
处理
。为了找出原因,我发现当
使用
numpy
的
matmult (或者,如下面的例子
中
的
二进制运算符@)
时
,代码是
并行
的
。尽管我
的
代码运行速度更快,并且
使用
了所
浏览 1
提问于2020-01-28
得票数 1
回答已采纳
1
回答
tensorflow
多
GPU训练
、
、
、
我按照tensorflow 1.2.0:上
的
教程创建了一个
多
GPU训练系统
在
创建
多
GPU版本之前,我能够
在
单个GPU上容纳64个批
处理
大小。我想如果我按照上面的教程创建一个
多
GPU版本
的
代码,我可以通过
数据
并行
化来适应更多
的
批
处理
。我希望
使用
4个GPUS,每个GPUS
的
批
处理
大小为64,但我面临内存不足
的
<e
浏览 18
提问于2017-06-28
得票数 1
4
回答
在
GPU上运行操作系统内核级计算有意义吗?
、
、
我注意到一个GPU可以有数百个内核,这样可以大大加快
并行
计算
的
速度。
在
操作系统内核
中
,似乎
没有
并行
算法用于
加速
。 人们在用户中
进行
并行
计算
的
速度与OpenMP相同,但
为什么
不在内核空间中
进行
呢?我猜
在
操作系统内部有很多任务需要
并行
处理
,比如
处理
多个网络连接和
数据
包,执行密码操作,管理内存,搜索
浏览 3
提问于2011-03-09
得票数 14
回答已采纳
1
回答
加速
空间命名实体识别
、
、
由于无法进入
的
原因,我需要在迭代
循环
中逐页地
使用
Spacy
进行
预测。我
在
AWS上
使用
了一个c4.8xlarge实例,当spacy对
数据
进行
评估
时
,所有的36个核都会被最大化。Spacy正在将
处理
几百万个网页
的
工作从1分钟
的
工作转变为1 hour+
的
工作。删除其他管道会影响模型本身,还是只是暂时
的
事情? 我看到您可以
在
ER培训
浏览 0
提问于2018-04-06
得票数 18
3
回答
Python
中
的
多
处理
。
为什么
没有
加速
?
、
、
、
、
我正在尝试掌握Python
中
的
多
处理
。我从创建这段代码开始。它简单地计算整数i
的
cos(i),并测量
使用
多
处理
和不
使用
多
处理
时
所用
的
时间。我
没有
观察到任何时差。下面是我
的
代码: from multiprocessing import Pool imp
浏览 1
提问于2015-07-24
得票数 2
2
回答
如何计算GPU程序
的
加速
比?
、
、
、
动机:我
的
任务是测量我
的
CUDA代码
的
和,这需要计算
加速
比。特别是,我需要将所有这些指标绘制为
处理
器数量p
的
函数。定义: 是指
并行
算法比相应
的
顺序算法快多少,其定义为:
问题
:我已经
在
CUDA C
中
实现了我
的
算法,并对其
进行
了计时以获得Tp。但是,
在
确定Sp
时
仍然存在一些
问题
如何在不完全从头重写代码
浏览 33
提问于2013-01-16
得票数 16
回答已采纳
1
回答
将
Numpy
应用于"for
循环
“
、
、
、
、
import
numpy
as np vertical=[] horizontal.append(j)当我
处理
数组和
循环
时
,需要花费太多
的
时间。据我了解,由于未定义
的
数据
浏览 0
提问于2017-06-12
得票数 2
回答已采纳
1
回答
使用
Numpy
并行
化图像
处理
、
、
我试图
在
python中
使用
并行
处理
来
加速
我
的
一段代码,但我无法让它正常工作,甚至无法找到与我相关
的
示例。我已经能够通过向量化我
的
代码获得很好
的
速度提升,但希望通过
并行
化获得更多:for tri in tris: lopo[tridex==tritris -包含三角形所有索引
的
唯一py
浏览 1
提问于2015-04-13
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券