腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
将
线程
块
分配给
NVIDIA GPU上的
多处理器
?
、
、
假设我有8个
线程
块需要执行,在我的GPU上有8个SMs(流式
多处理器
),8个
线程
块可以放入一个SM中。我想知道
线程
块是如何
分配给
SMs的。是否
将
所有
线程
块都
分配给
单个
SM,而其他7个
线程
块为空?或者
每个
线程
块将被分配到一个单独的SM?
浏览 14
提问于2021-02-10
得票数 0
回答已采纳
1
回答
库达-
多处理器
,翘曲大小和
每个
块的最大
线程
:确切的关系是什么?
、
、
、
因此,这意味着
每个
多处理器
中有32个CUDA核,它们在相同的翘曲中精确地工作在相同的代码上。最后,
每个
块大小的最大
线程
数是1024。 我的问题是,块大小和
多处理器
计数翘曲的大小是如何精确相关的。在这种情况下,来自N个块的16被
分配给
不同的
多处理器
。
每个
块包含1024个
线程
,硬件调度程序将其中的32个
线程
分配给
单个
多处理器
中的32个核心。同一个
多处理器</e
浏览 1
提问于2012-07-19
得票数 24
回答已采纳
1
回答
将
单个
对象
分配给
每个
Python
多处理器
线程
、
、
我有一个映射多个工作
线程
来执行的函数。我希望
每个
线程
维护自己的字典,以便从函数中写入结果,最后,
将
每个
字典的内容分别写入单独的文件。我想知道如何在
Python
中实现这一点。我发现没有明确的方法
将
一个
对象
分配给
单个
线程
。该文档仅涵盖了与
线程
之间(与管理器
对象
)共享内存相关的信息。下面是我在工作中使用的代码(除了worker中的current_thread_dict,
浏览 16
提问于2020-01-30
得票数 0
1
回答
并发块如何运行
单个
GPU流
多处理器
?
我正在研究CUDA编程结构,在研究之后我感觉到,在创建块和
线程
之后,这些块中的每一个都被
分配给
每个
流
多处理器
(例如,我使用的是GForce 560Ti,它是has14流
多处理器
,所以在同一时间可以
将
14个块
分配给
所有流
多处理器
)。但当我浏览几个在线材料时,比如下面这个: 其中已经提到可以在一个
多处理器
上同时运行几个块。基本上,我对流式
多处理器
上的
线程
和块的执行感到非常困惑。我知道块的分配和
浏览 0
提问于2012-08-31
得票数 4
回答已采纳
1
回答
一个
线程
能在多个进程之间共享吗?如果是,怎么做?
、
、
每个
进程都可以有多个
线程
,但是是否允许在多个进程之间共享
单个
线程
? --我很困惑,我把它与
多处理器
之间共享内存的紧密耦合
多处理器
联系在一起。在紧密耦合的
多处理器
中:内存在松散耦合的
多处理器
:分布式内存中共享。 如果我想错了,就纠正我。
浏览 2
提问于2015-06-09
得票数 2
回答已采纳
2
回答
GPU架构(Nvidia)
、
、
在我正在阅读的所有论文中,我看到GPU是由
多处理器
组成的,
每个
多处理器
有8个处理器,能够并行执行
单个
warp。我能说在Nvidia 560上并行执行的最大
线程
数是32*6*7=1344
线程
吗?(32=warp,7=multipric
浏览 4
提问于2012-05-15
得票数 3
回答已采纳
1
回答
CUDA:
每个
线程
计算的最佳像素数(灰度)
、
、
我必须读取
每个
像素的3个值read,计算相应的灰度值,并将灰度像素存储在输出图像上。我正在与一个NVIDIA GTX 480。关于这张卡的一些细节:
每个
多处理器</
浏览 3
提问于2015-12-16
得票数 1
2
回答
CUDA程序的速度如何随着块的数量而扩展?
、
、
知道
每个
8核由
单个
多处理器
控制,并且
每个
线程
块被
分配给
单个
多处理器
,那么我预计启动一个由30个块组成的网格的执行时间应该与
单个
块的执行时间相同。然而,事情并没有那么好的伸缩性,即使
每个
块有8个
线程
,我也从来没有得到过这么好的伸缩性。走到另一个极端,
每个
块有512个
线程
,当网格最多包含5个块时,我得到的时间与一个块的时间大致相同。当我
将
性能与在8核
浏览 0
提问于2012-08-29
得票数 4
1
回答
流
多处理器
,
每个
流处理器在cuda中的核心
、
对于不同的nvidia显卡,在不同的流
多处理器
数量和不同的处理器核数的情况下,
每个
流处理器具有不同的特性。我认为我们需要更好地利用设备属性来进行更好的优化。 在设备中如何处理
每个
流处理器的流处理器和核心??/
浏览 3
提问于2014-04-22
得票数 4
回答已采纳
1
回答
相对于块数来度量cuda的执行时间
、
、
在
每个
块上,它们按顺序读取。还有我读过的r_dev和我想并行写入的v_dev,它们都是长度gnum * 3的数组。 程序产生了我希望它产生的结果,但是复杂性(时间与数据大小的函数)不是我所期望的。
浏览 2
提问于2014-03-23
得票数 1
回答已采纳
1
回答
cuda如何在内核中处理__syncthreads()?
想想看,我有一个1024大小的块,假设我的gpu有192个cuda核。当库达核心尺寸低于块大小时,库达如何处理内核中的__syncthreads()?{ int t = threadIdx.x; s[t] = d[t]; d[t] = s[tr];怎么能留在本地记忆里呢?
浏览 2
提问于2017-02-26
得票数 0
回答已采纳
1
回答
如果是单
线程
进程,我的服务器只能运行一个客户端吗?若有,原因为何?
、
、
、
、
我已经用谷歌搜索到了足够好的信息,可以理解
线程
和进程。我感到困惑的一件事是关于单
线程
进程。场景是Server-Client应用程序进程,其中
每个
客户端都被视为服务器中的
单个
进程,该进程是单
线程
的。根据我的理解,在单核处理器系统中,如果它是为多任务编程的,那么根据
分配给
每个
进程的时间片,可以并发处理多个进程。在
多处理器
系统中,也可以并行处理多个客户端进程。如果它有任何其他并发服务器,它是否会处理多个进程,而无需等待
每个
进程完成后再处理下
浏览 57
提问于2020-04-28
得票数 1
1
回答
对
多处理器
数量的兴趣-与SMs混淆
、
SMs和
多处理器
是不同的东西,对吗?例如,通过使用可视化分析器,我得到了一个虚拟内核,当启动时只有一个
线程
块,它只能等待370 of。我可以推出它与4个块1024
线程
与一个SM,它仍然持续370毫秒。这是正常的,因为任务使用芯片的两个
多处理器
,
每个
处理器使用2048个并发
线程
(当我使用5个块x 1024时,它需要740 is,正常)。那么,如果我有一个
每个
多处理器
有2个
多处理器
和2048个
线程
的卡,或者另一个有4个<
浏览 2
提问于2013-09-29
得票数 4
回答已采纳
1
回答
理解流
多处理器
(SM)和流处理器(SP)
、
我的理解: 在下面的图像中,我无法理解哪个是流
多处理器
(SM),哪个是SP。我认为
多处理器
-1重新呈现
单个
SM,处理器-1 (upto )重新呈现
单个
SP.但我不确定这一点,因为我可
浏览 0
提问于2015-08-26
得票数 9
2
回答
一些基本数据自动化系统查询
、
、
问题1:我已经阅读了
每个
块选择
线程
和
每个
网格数选择块的基本理论,但是仍然缺少一些东西。我试着在这个简单的内核中理解什么是最优的内核参数初始化,我请求一些帮助,开始思考以CUDA的方式。
线程
的数量与此有关吗?问题5:使用内存时钟速率,我们可以说每秒处理多少个
浏览 1
提问于2013-10-01
得票数 0
回答已采纳
1
回答
multiProcessorCount给出了流
多处理器
的数量吗?
一个构建块由两个或多个流
多处理器
组成。 软件
线程
被分配到
浏览 2
提问于2013-05-19
得票数 1
3
回答
JVM
线程
调度器如何控制
多处理器
线程
?
、
、
我一直在为多
线程
先读Head。我对多
线程
的了解是:同样,JVM
线
浏览 5
提问于2017-01-20
得票数 12
回答已采纳
1
回答
如何告诉Hotspot JVM是使用单处理器还是
多处理器
线程
同步?
、
、
、
、
这台机器是双核的,操作系统使用
多处理器
内核。为了运行一些性能评估,我希望
将
JVM的
线程
亲和性设置为单核。然而,我担心我会得到扭曲的性能测量,因为JVM可能没有意识到它现在被限制在
单个
内核上,但仍然使用
多处理器
原语进行
线程
同步和垃圾收集。虽然垃圾收集器可以从命令行调优,但这对于
线程
同步是不可能的。现在,JVM的
线程
主要使用(*)OS
线程
。因此,也许问题应该是“OSes (Windows/Linux)在多
线程
应
浏览 1
提问于2009-07-29
得票数 2
4
回答
Java
线程
与OS
线程
、
、
、
看起来我搞砸了Java
线程
/OS
线程
和解释型语言。 在开始之前,我确实了解绿色
线程
是Java
线程
,其中
线程
由JVM负责,整个Java进程仅作为
单个
OS
线程
运行。因此,在
多处理器
系统上,它是无用的。我有两个
线程
A和B,
每个
线程
都有10万行独立代码。我在
多处理器
系统上的Java程序中运行这些
线程
。
每个
线程
都将被赋予一个本地
浏览 0
提问于2010-12-13
得票数 40
回答已采纳
2
回答
GPU上的强缩放
、
、
、
然而,我相信在GPU中有一些强大的扩展,例如在流
多处理器
上(在中)。OpenACC和CUDA的目的是明确地
将
硬件抽象给并行程序员,并将她限制在他们的三层编程模型上,包括帮派(
线程
块)、工作人员(翘曲)和向量(SIMT
线程
组)。我的理解是,CUDA模型的目标是为其
线程
块提供可伸缩性,这些
线程
块是独立的,并且映射到SMX。因此,我看到了两种利用GPU进行强缩放的方法: 修正问题大小,并将
每个
块的
线程
块大小和
线程
数设置为任意常量。缩放<
浏览 2
提问于2014-11-11
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何利用并发性加速你的 python程序(上)
优化Python代码,看这一篇就够了
使用 Python和Oracle 数据库实现高并发性
Java程序员修炼之并发教程 第一篇
thrift源码解析——深度学习模型的服务器端工程化落地方案
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券