腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4657)
视频
沙龙
1
回答
OpenMP
运行时
有条件
的
图形
处理器
目标
内核
执行
、
、
是否有一种语法允许根据
运行时
条件
的
状态在设备(GPU)或主机上
有条件
地
执行
内核
?下面是一个示例fortran代码,它可以根据变量onGPU
的
状态轻松地切换设备数据子句 然而,
内核
似乎只是在条件为false时中止,并且永远不会在主机上
执行
。下面是我正在查看
的
示例代码。问题出在设备
内核
上。从设备
内核
中删除if子句并使用data子句可以得到预期
的
行为。我还尝试了if()语句在
内核
浏览 7
提问于2021-03-29
得票数 1
2
回答
OpenCL与
OpenMP
性能
、
有没有研究比较OpenCL和
OpenMP
的
性能?具体地说,我感兴趣
的
是使用OpenCL启动线程
的
开销成本,例如,如果将域分解为非常大量
的
单独工作项(每个工作项由一个
执行
小任务
的
线程运行),而在
OpenMP
中,较重
的
线程是将域分解为数量等于核心数量
的
子域似乎OpenCL编程模型更多地针对大规模并行芯片(例如GPU),而不是具有更少但更强大
内核
的
CPU。 OpenCL能成为
Op
浏览 0
提问于2011-09-01
得票数 32
回答已采纳
1
回答
如何将
OpenMP
线程映射到作业调度程序(例如: LSF)分配
的
特定
内核
?
、
、
、
当程序与作业调度器一起
运行时
,调度程序为作业分配n个
处理器
核(由用户指定)。当使用
OpenMP
的
程序
运行时
,
OpenMP
通常会使用OMP_NUM_THREADS线程,为了简单起见,我们可以说每个线程都映射到不同
的
处理器
核心。
OpenMP
不知道调度程序(afaik)为程序/作业分配了哪些
内核
。另外,操作系统实际上是将
OpenMP
线程映射到核心,而不是
OpenMP
。我
浏览 3
提问于2014-07-11
得票数 1
回答已采纳
1
回答
CUDA:使用
OpenMP
运行程序
、
、
有没有可能使用CUDA或其他东西在
图形
处理器
上运行带有
openMP
的
程序?我需要在8个或更多
的
内核
上测试程序。 感谢您
的
帮助!
浏览 0
提问于2012-10-16
得票数 1
回答已采纳
3
回答
应用程序将如何安排在超线程支持
的
多核机器上?
、
、
我试图更好地理解超线程支持
的
多核
处理器
是如何工作
的
。假设我有一个可以用MPI、
OpenMP
或MPI+
OpenMP
编译
的
应用程序。据我所知,有四个8核
的
物理
处理器
,总物理核是32个,每个
处理器
核都启用了超线程,逻辑
处理器
的
总数是64。 用MPICH2编译,如果我使用mpirun -np 16运行,将使用多少物理
内核
?它是否在可用
的
16个物理核或16个逻辑
处理
浏览 10
提问于2011-01-28
得票数 2
1
回答
什么是opencl中
的
主机?
、
我现在正在做教程,但我不能真正掌握
的
想法是主机可以有人explain.Thank你
浏览 2
提问于2011-06-27
得票数 6
回答已采纳
1
回答
困惑于OMP_NUM_THREADS和numactl NUMA-核绑定
、
、
、
、
对于同一个python命令
的
多个启动如何绑定到NUMA机器上
的
核心,我感到困惑。 如果4-7都是物理核,那么在HT上只需要两个
浏览 8
提问于2021-05-25
得票数 2
1
回答
` `std::mutex`和` `std::lock`能保证
处理器
间代码中
的
内存同步吗?
、
、
、
我目前正在使用
openMP
编写在多核节点上运行
的
代码。
openMP
有一个特定
的
内存模型,它保证在获取锁时在不同
内核
上运行
的
线程之间
的
内存同步。我考虑使用C++11结构(带有std::mutex和std::lock
的
std::thread)而不是
openMP
(因为它们具有更大
的
灵活性),并且想知道这里是否/如何保证
处理器
之间
的
内存同步?如果不是,我如何
执行</em
浏览 2
提问于2012-06-08
得票数 6
回答已采纳
1
回答
为什么在共享内存结构上
OpenMP
的
减少速度比MPI慢?
、
、
、
我试着测试了两个向量
的
内积(元素值是动态计算
的
)
的
OpenMP
和MPI并行实现,发现
OpenMP
比MPI慢。loop time = %f sec, total time = %f \n", np, sum, time, ttime); return 0; 我已经用
OpenMP
尝试了几种不同
的
实现。这就是我所能达到
的
最好
的
性能,而不是复杂化。更新:我已经为OMP写了一个可以接受<e
浏览 8
提问于2021-07-08
得票数 4
1
回答
在OpenCV上使用GPU时,如何确定线程数?
、
、
、
、
我使用OpenCV和VB C++在
图形
处理器
上运行我
的
代码我
的
图形
处理器
设备有96个
内核
,我
的
代码使用OpenCV并在上面运行,但我
的
线程问题是,我想确定线程
的
数量,以便代码在8个线程上
执行
一次,在16个线程上
执行
一次,以此类推,如果在
图形
处理器
OpenCV上不可能,我可以确定在
执行
时使用
的
内核</em
浏览 0
提问于2018-05-04
得票数 1
1
回答
VNCoreMLModel启动时间较慢
、
MobileNet.mlmodel测试VNCoreMLModel,我通过VNImageRequestHandler(ciImage: sourceImage, orientation: imageOrientation)发出
的
第一个请求大约需要1.9秒,但随后
的
每个请求都需要0.213秒。我只需
执行
以下操作即可生成请求:VNCoreMLRequest(model: model, completionHandler: { ... }。我没有在生成请求
的
处理程序(VNImageRequestHandler(ciImage: s
浏览 0
提问于2018-11-01
得票数 0
1
回答
使用
openMP
对多线程进行多核处理
、
、
、
这个问题听起来很基本,但我找不到具体
的
答案。现在假设我们有了一个像corei5 680这样
的
多核
处理器
(2个物理核,使用HT支持4个可用
的
内核
到操作系统)。我
的
问题是,
openMP
到底适合于哪里?1-当我们说使用
openMP
的
多线程时,它会自动使用所有可用
的
内核
(在本例中是4个虚拟核)并根据可用
的
CPU周期
执行
线程吗?2-
openmp
是否给出了
浏览 3
提问于2014-02-07
得票数 3
回答已采纳
4
回答
在OpenCL上使用OpenACC?
、
、
我对OpenACC是个新手,它是一个新
的
图形
处理器
加速编程标准。据我所知,OpenACC是一种编译器指令语言,我们可以直接在任何我们想要
的
地方加速代码,而不需要改变整个代码。这个编程标准将适用于
图形
处理器
,这也不同于
OpenMP
。我们有用于加速
的
OpenCL,现在是OpenACC(它非常容易使用,只需给出编译器提示)。对于主机程序加速,我们可以简单地放上编译器指令,那么如果我们有一个
内核
浏览 3
提问于2013-01-31
得票数 6
回答已采纳
1
回答
在
OpenMP
中,不同
内核
的
运行与不同线程
的
运行是不同
的
吗?
、
要使用已知数量
的
线程并行
执行
代码
的
一部分,我们通常这样做:{} 然而,我们如何设置
内核
数目而不是线程呢?这些不一样吗?
浏览 1
提问于2021-03-14
得票数 2
回答已采纳
1
回答
OpenMP
4.0
的
卸载指令
、
、
、
我
的
想法是使用
OpenMP
4.0指令将任务卸载到协
处理器
上。*********************************************************************************问题是,当我
浏览 6
提问于2016-02-02
得票数 0
1
回答
OpenCL上
的
快速傅立叶变换和快速转换,无需将数据拷贝到主机
、
我想在
图形
处理器
上
执行
快速傅立叶变换、FastConv和互相关,并将结果传递给其他OpenCL
内核
,而不是将结果复制到主机内存中。你能建议我一个快速傅立叶变换,FastConv和交叉相关
的
OpenCL实现,可以被称为
内核
,而不需要从
图形
处理器
向主机传输数据?
浏览 0
提问于2014-05-15
得票数 0
2
回答
如何将传输数据与
执行
推力算法重叠?
、
、
、
我使用(CUDA C++)推力为
图形
处理器
GeForce GTX460SE
的
asyncEngineCount = 1。因为我知道我可以重叠传输数据
的
一种方式,或从
图形
处理器
和
执行
单一
内核
。但是当我使用
的
时候:cudaStreamCreate(&Stream1);cudaMemcpyAsynccuda
浏览 0
提问于2012-08-16
得票数 2
回答已采纳
1
回答
使用
OpenMP
处理程序中
的
GUI线程
、
、
、
、
我有一个使用
OpenMP
并行
执行
一些冗长计算
的
C++程序。现在,该程序还必须响应用户输入并更新一些
图形
。到目前为止,我一直从主/GUI线程开始我
的
计算,仔细地平衡工作负载,以便既不短而不掩盖
OpenMP
线程开销,也不长而使
图形
用户界面变得无响应。 显然,我希望通过并发运行所有内容来解决这个问题。据我所知,
OpenMP
2.5没有提供一个很好
的
机制来做到这一点。我假设它不是为这类问题而设计
的
。我也不想把整个<
浏览 3
提问于2011-03-12
得票数 3
1
回答
在OpenCL C中计算
内核
代码
的
运行时
间
、
、
、
、
我想测量
内核
代码在不同设备上
的
性能(读取
运行时
),即CPU和GPU。我写
的
内核
代码是:{ A[0]=2; A[1]=3;如果这是真的,那么谁能给出原因,如果不是,请告诉我实现同样
的
方法。此外,正如我所说
的
,我希望比较我
的
CPU和GPU
的
性能,其中一种方法是通过计算
内核
代码在不同设
浏览 0
提问于2015-07-04
得票数 0
1
回答
如何为theano启用我
的
MacBook Pro GPU优化?
、
、
浏览 2
提问于2015-08-17
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
优化串行处理代码,获取OpenVPX数字信号处理模块最佳性能,拓展串行算法在计算密集型领域应用
基于深度神经网络的点云孔洞修补算法的并行化研究
VS2019:OpenMP更新及错误修复
VS2019 v16.9 预览版3:MSVC后端更新汇总
存内计算的3D堆叠内存利用简介
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券