仅使用两个NUMA节点之一的MPI - code - 腾讯云开发者社区

、、

我在Windows10上运行一个模型(SWAN)，我使用的是使用MPICH2 (1.4.1p1)的MPI版本。我有两个NUMA节点，每个节点都有36个核心。我使用mpiexec -n <np> swan.exe或swanrun inputfile <np>运行模型。如果我指定mpiexec -n 72，模型将启动72个进程，但只使用一个节点的</e

浏览 35提问于2018-01-03得票数 2

回答已采纳

1回答

使用OpenMP和MPI的混合方法在不同主机数量的集群中不使用相同数量的线程

、、

我正在通过将友好数字(CAPBenchmark)程序与MPI和OpenMP并行来测试一种混合方法。 MPI_Send(num, slice, MPI_INT, 0, 0, MPI_COMM_WORLD); MPI_Send(den, slice, MPI_INT, range, MPI_INT, 0, 2, MPI_COMM_WORLD,0)

浏览 0提问于2018-06-24得票数 1

2回答

如何指定运行在并行程序中哪个节点上的进程

、

我正在一个Intel Sandy集群上运行我的MPI程序，该集群位于16个节点分区上。每个节点有两个处理器，每个处理器有8个核心。我用"mpirun -n 256 ./myprogram“开始运行。现在，我需要在每个节点上有一个有代表性的进程，报告该节点的两个处理器所消耗的功率(使用RAPL)。我的问题是如何选择这个过程。例如，如果保证将进程分

浏览 2提问于2015-10-22得票数 2

回答已采纳

1回答

共享内存模型和分布式内存模型

、、、

假设您的cpu具有下面逻辑门中的当前硬件体系结构：假设我们有一个共享内存模型和一个分布式模型：如果我们想要实现共享内存模型和并行进程线程，那么我们需要一些实用工具(比如OpenMP)，这是正确的吗？为了实现分布式内存模型，我们需要一些实用工具，如MPI和多个计算系统(计算机)？

浏览 0提问于2018-12-02得票数 0

1回答

现在使用混合MPI，我运行两个进程(每个套接字--bind-to socket --map-by socket一个进程，OMP_PROC_PLACES=cores和OMP_PROC_BIND=close每个线程在每个进程拥有的数组的96/12 x 192 x 192 = 8 x 192 x 192部分上工作。我使用线程执行相同的三重循环更新，但每个线程的时间大约为76秒。在这两个问题上，负载平衡都是完美的。性能下降的可能原因

浏览 2提问于2017-08-08得票数 0

1回答

MPI进程如何在同一个节点中进行通信

、、、

假设我们有一个有12个核心的节点。在以下方面有何不同：只需为每个核心运行12个MPI进程。这些差异是微不足道的还是显著的？

浏览 1提问于2017-11-28得票数 2

回答已采纳

2回答

在MPICH中执行混合OpenMP/MPI作业

、、、、

我很难找到正确的方法来执行与MPICH (hydra)混合的OpenMP/MPI作业。我可以轻松地启动进程，它们确实可以创建线程，但是无论我尝试哪种类型的-bind-to，它们都被绑定到与它们的主线程相同的核心上。如果我显式地将GOMP_CPU_AFFINITY设置为0-15，那么所有线程都会被分散，但前提是每个节点都有一个进程。我不想那样，我要每个套接字一个进程。-bind-to numa ./a.out 我得到的</e

浏览 4提问于2015-11-13得票数 0

回答已采纳

2回答

确保混合MPI* / OpenMP在不同的核心上运行每个OpenMP线程*

、、、

我正在尝试运行一个混合的OpenMP / MPI作业，以便OpenMP线程被核心(每个内核只有一个线程)分隔。我看到了使用numa-ctl和bash脚本设置环境变量的其他答案，我不想这样做。我希望仅通过在命令行上设置OMP_NUM_THREADS和或OMP_PROC_BIND和mpiexec选项才能做到这一点。我尝试了以下方法--假设我想要2个MPI进程，每个进程都有2个OpenMP线程，每个线程都运行在不同的核心上，所以我希望总共有4个内核

浏览 7提问于2017-12-14得票数 7

回答已采纳

2回答

我有12个CPU，1个套接字，每个套接字有6个内核，每个内核有2个线程--这些信息如何与MPI和OpenMP并行化相对应？

、、、、

我已经读到，可以使用MPI和OpenMP的组合来实现我所需要的-- MPI可以用于在处理器之间分配任务，而OpenMP用于在各个处理器上的线程之间分配任务。我输入了lscpu (见下文)检查我的办公室PC处理器的细节，但我不知道如何解释它。具体来说，MPI和OpenMP是如何与列表中的项相对应的？MPI是否用于在12个CPU之间分发，然后在两个线程之间分发Open

浏览 3提问于2019-04-09得票数 1

1回答

实例的生成未能分配网络(S)

、

当我试图在openstack上创建一个带有一个SRIOV接口的VM时，在运行OVS-DPDK ( NUMA已启用)的计算机上，我会遇到以下错误。image vM-cloud --availability-zone nova --nic port-id=vm_1_sriov_provider_1_port_parent vm_1vm.nr_hugepages=16 [root@compute admin]#

浏览 12提问于2022-06-27得票数 0

1回答

将第二个CPU套接字上的MPI进程与MVAPICH2.2绑定

、、

我使用NUMA计算节点，其中网络(Mellanox InfiniBand HCA)连接到第二个CPU套接字(和NUMA节点)。是否有任何环境变量可以简单地使用MVAPICH2.2将所有MPI进程绑定到第二个CPU套接字 MV2_CPU_BINDING_LEVEL=socket MV2_CPU_BINDING_POLICY=bunch我通常会使用这样的东西：-genv MV2_CPU_MAPPING 10:11:12:13:14:15:

浏览 3提问于2018-09-12得票数 1

2回答

如果我的应用程序不支持NUMA，我应该禁用NUMA吗

、

我正在运行的应用程序在设计时并没有考虑到NUMA。在我的双插槽系统上禁用NUMA会更好吗？我猜是的，但我想确认一下。我的服务器是韦斯特米尔双插槽系统。

浏览 2提问于2013-05-11得票数 2

1回答

哪个因素决定了Numa节点的数量？

、、、

SITUATION 无论我如何更改vCPU的数量或套接字的数量，VM上总是有一个一个NUMA节点。通过阅读博客，我发现在分配核心或套接字时，NUMA节点的数量并没有差别。我想要的是有两个N

浏览 7提问于2018-03-19得票数 0

1回答

numactl和move_pages不匹配

、、、

基于this question，我开发了一个简单的程序来测试页面所在的NUMA节点。问题是，将我的程序结果与XeonE5-2698NUMA(两个v4节点)上的numactl -H进行比较会显示不同的输出。，这样当这个线程“接触”这个页面时，它将被映射到这个线程所在的NUMA节点(第一个接触策略)。/numa上运行。我之所以使用<

浏览 16提问于2019-01-18得票数 1

回答已采纳

1回答

打开MPI4.0内核和内存绑定

、

我需要一些提示，说明如何使用OpenMPI4.0.1实现我心目中的核心和内存绑定。这是针对一个具有8个NUMA节点和64个核的单个计算节点，即2XAMDEpyc 7551，SMT禁用。该系统的核心按以下方案编号：现在我想到了3种不同的绑定策略，让我们把它们称为“关闭”、“传播”和“分散”。我将给出每个线程6、16和48个线程的3个示例，以明确我的想法(希望如此)。但是，我需要在1到64之间处理任意数量<e

浏览 3提问于2019-09-27得票数 3

回答已采纳

1回答

MPI内部:进程之间的通信实现

、、

我正在尝试弄清楚MPI通信器中的实际进程通信是如何发生的。我有8个节点，每个节点有12个核心(96个实例在运行)。每个进程都被分配了唯一的等级，并且进程之间能够相互通信。那么进程如何获得唯一的排名并设法发送实际的消息呢？根据一些幻灯片，有开放运行时环境(ORTE)，它“驻留在机器上，进程在该单元上启动。(例如，集群的前端)。负责启动单元上的进程。监控单元健康(节点、进程)。向宇宙的

浏览 2提问于2012-05-11得票数 6

2回答

如何在MPICH中结合使用MPI_Info_set和MPI_Comm_spawn

、、、

我需要在群集上使用MPI生成。为此，我理解我需要使用MPI_Info_set来指定节点将运行衍生的进程。下面，我提供了一个生成代码的小示例：MPI_Info_create(&info);MPI_Comm_spawn(".

浏览 5提问于2019-02-05得票数 1

1回答

(线程化的C++ mex函数)

、、

我现在正在不同的机器上运行多线程C++代码。我在MatLab函数中使用它，所以整个程序都是从Matlab运行的。我在这里使用了中的代码，只更改了"main_loop“中的操作，以适应我的任务。该代码在我的两台计算机上运行得非常好，它比运行与单线程相同的C++代码快很多倍。所以我认为这个程序本身是好的。然而，当我在第三台机器上运行相同的东西时，它突然变得非常慢。单线程版本很好，但是多线程版

浏览 16提问于2022-05-29得票数 0

回答已采纳

1回答

NUMA信息在/proc/vmstat中

、、

我需要获得一些关于我的应用程序的NUMA相关信息(例如，我不能使用numatop工具，但我可以使用numastat)。因此，我对/proc/vmstat中的NUMA相关字段有一些疑问，不确定我是否正确理解了它们的含义。 numa_hit成功分配给此节点的页数。numa_miss由于目标节点

浏览 3提问于2020-04-26得票数 2

回答已采纳

1回答

SQL Server 2012在具有16核/处理器的2台处理器计算机上的CPU利用率非常不均衡

、、

在安装了带有Server + Cal许可证模型的sql server Enterprise 2012之后，在一个有两个处理器的计算机上，每个处理器都有16个核(不涉及超线程)，并将服务器置于极其沉重的负载下--第一个处理器上的16个核利用率非常低，第二个CPU上的前4个核被大量利用，最后12个核心根本没有被使用(因为这个SQL服务器版本有20个内核限制)。将产品版本升级到2012，不仅允许Server利用第二个处理器上以前未使用的12

浏览 0提问于2012-11-10得票数 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云