腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >矩阵乘法性能，int对偶数

问矩阵乘法性能，int对偶数
EN

Stack Overflow用户

提问于 2018-07-25 00:44:06

回答 1查看 359关注 0票数 1

我正在使用MPI来尝试矩阵乘法，并想寻求一些帮助来解决一个问题。该机器有6核，32 L3 L1缓存，256 L3 L2缓存和15 L3 L3缓存。乘法是这样的：

vector<vector<double>> mult_mpi(vector<vector<double>> m, 
                                vector<vector<double>> n) { 
    int rows = m.size();
    int size = n.size();
    vector<vector<double>> r(rows, vector<double>(size));

    for (int i = 0; i < rows; ++i) 
        for (int k = 0; k < size; ++k) 
            for (int j = 0; j < size; ++j) 
                r[i][j] += m[i][k] * n[k][j];
    return r;
}

我对int也有同样的要求

vector<vector<int>> mult_mpi(vector<vector<int>> m, vector<vector<int>> n);

然后我做了一些情节，不同的线条颜色表示节点的数量。

下面的图显示了两个int矩阵相乘所花费的时间：

下面的图显示了两个双矩阵相乘所花费的时间：

为什么在双情况下，4节点和6节点的时间相同？我是不是遇到了内存带宽的限制？

最后一个小时我试了好几次，结果一样。还检查了top的机器负载，但在我看来，我是孤独的。

c++

matrix

mpi

matrix-multiplication

hpc

腾讯云域名特惠，新用户首年1元起

腾讯云域名专场特惠：个人新用户.cn仅8.8元/年，企业新用户.com仅1.06元/年...

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-07-25 11:22:25

你确定你没有计时4K向量的分配<‘>的…？

vector<vector< >>不是一种适合于挤压最佳性能的类型。矩阵乘法是关于内存访问的可扩展性和“计算密度”的最佳操作之一。实际上，操作规模为O(N^3)，而数据数为O(N^2)。

实际上，它是用来对top500最快系统进行基准测试的：HPL是用于“高性能linpack”的，是linpack的一个线性代数的参考实现。猜怎么着..。基准测试中使用的操作是DGEMM，即“双精度GEneral矩阵乘”。

DGEMM是BLAS库中运算的名称，是线性代数的事实上的标准.现在有许多本地优化的BLAS库(INTEL MKL，IBM ESSL，.)和开源(阿特拉斯)，但它们都使用相同的原始(最初的fortran，现在也是C)的BLAS接口。(注意：最初的实施没有优化)

基于BLAS，也有LAPACK库:系统求解器，特征系统，.也有优化的lapack库，但是通常90%的性能是通过使用优化的BLAS库来压缩的。

我很清楚一个(不是唯一一个.HPL是另一个功能强大的基于MPI的并行库，即SCALAPACK，它包含PBLAS (PBLAS)。一个优化和并行版本的DGEMM和其他东西。

SCALAPACK附带鼻涕虫，您可以找到块循环分布的极好解释，这是用于挤压并行系统上最优性能排列线性代数问题的数据分配策略。

然而，要获得最佳性能，您需要将MPI可执行文件与本地优化的BLAS库链接起来。或者写你自己的，但你并不孤单，所以不要重新发明轮子。

局部优化不是按行访问矩阵，也不是按列访问矩阵，而是通过块访问矩阵。随着块大小的调整，以优化缓存和/或TLB的使用(我还记得刚才的libgoto，另一个blas库，为了最小化TLB错误而优化的)，达到并超过了一些系统英特尔MKL.很久以前)。例如，在此阿特拉斯纸中查找更多信息。

无论如何，如果你真的想.在尝试制造我的车轮之前，我会开始分析其他车轮是如何锻造的;)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51514536

复制

C#线程篇---线程池如何管理线程（6完结篇）

C#线程基础在前几篇博文中都介绍了，现在最后来挖掘一下线程池的管理机制，也算为这个线程基础做个完结。　　我们现在都知道了，线程池线程分为工作者线程和I/O线程，他们是怎么管理的？　　对于Microsoft设计的CLR线程池，线程池会随着CLR的每个版本的发布，都会发生变化，很难去挖掘，这里的提议是：　最好将线程看成一个黑盒。不要拿单个应用程序去衡量这个黑盒的性能，因为它对任何一个应用程序来说都无法做到完美。相反，它是一种常规用途的线程调度技术，面向大量应用程序；它对某些应用程序的效果要好于其他应

逸鹏

2018/04/10

2.3K0

Linux内存管理 - slab分配器

编程算法数据结构 linux

Linux内存管理是一个非常复杂的子系统，要完全说清的话估计要一本书的篇幅。但Linux内存管理可以划分成多个部分来阐述，这篇文章主要介绍slab算法。

用户7686797

2020/08/25

2.4K0

c#线程-线程同步

编程算法 c++

如果有多个线程同时访问共享数据的时候，就必须要用线程同步，防止共享数据被破坏。如果多个线程不会同时访问共享数据，可以不用线程同步。线程同步也会有一些问题存在： 1、性能损耗。获取，释放锁，线程上下文建切换都是耗性能的。 2、同步会使线程排队等待执行。

苏州程序大白

2021/08/13

7590

【Linux 内核内存管理】伙伴分配器 ② ( 伙伴分配器分配内存流程 )

linux 博客链表内存管理内核

页 / 阶概念参考【Linux 内核内存管理】伙伴分配器 ① ( 伙伴分配器引入 | 页块、阶 | 伙伴 ) 博客 ;

韩曙亮

2023/03/30

7.1K0

C#线程

其他

线程 ---- 　　线程是程序中的一个执行流，每个线程都有自己的专有寄存器(栈指针、程序计数器等)，但代码区是共享的，即不同的线程可以执行同样的函数。　　多线程是指程序中包含多个执行流，即在一个程序中可以同时运行多个不同的线程来执行不同的任务，也就是说允许单个程序创建多个并行执行的线程来完成各自的任务。　　多线程可以提高CPU的利用率。在多线程程序中，一个线程必须等待的时候，CPU可以运行其它的线程而不是等待，这样就大大提高了程序的效率。　　在 C# 中，System.Threading.Thread

拾点阳光

2018/05/10

8740

【Linux 内核内存管理】伙伴分配器 ① ( 伙伴分配器引入 | 页块、阶 | 伙伴 )

管理内存内存管理内核算法

Linux 内核初始化完成之后 , 就会丢弃引导内存分配器 , 如 : bootmem 分配器 , memblock 分配器 ;

韩曙亮

2023/03/30

1K0

C#线程入门

编程算法 c#windows

C#支持通过多线程并行地执行代码，一个线程有它独立的执行路径，能够与其它的线程同时地运行。一个C#程序开始于一个单线程，这个单线程是被CLR和操作系统（也称为“主线程”）自动创建的，并具有多线程创建额外的线程。

aehyok

2019/02/25

5550

C# 多线程

Thread类的使用：初始化： Thread th1 = new Thread(function1); Thread th2 = new Thread(new ThreadStart(function1)); Thread th3 = new Thread(new ParameterizedThreadStart(function2)); ThreadStart和ParameterizedThreadStart是两个委托，方法的抽象。 function1...是方法名，在新线程里要执行的方法名。 pu

小端

2018/04/16

1.1K0

线程详解——c#

日志服务

使用线程，我们需要引用System.Threading命名空间。创建一个线程最简单的方法就是在 new 一个 Thread，并传递一个ThreadStart委托（无参数）或ParameterizedThreadStart委托（带参数），如下：

vv彭

2020/12/16

4280

C#多线程

编程算法

主线程和通过Thread构造函数创建的线程默认都是前台线程，线程池获取的则默认是后台线程，通过 IsBackground 属性可以设置和获取当前线程是前台线程还是后台线程。

全栈程序员站长

2022/09/06

1.4K0

C#多线程

其他

根据上一节中http://www.cnblogs.com/aehyok/archive/2013/05/02/3054615.html对多线程的入门了解。本节就来探讨一下简单的使用多线程。

aehyok

2018/09/11

5330

C#线程入门

其他

aehyok

2018/09/11

5240

Go并不需要Java风格的GC

像Go、Julia和Rust这样的现代语言不需要像Java c#所使用的那样复杂的垃圾收集器。但这是为什么呢? 我们首先要了解垃圾收集器是如何工作的，以及各种语言分配内存的方式有什么不同。首先，我们看

Robert Lu

2021/12/05

9250

C#多线程(12)：线程池

网络安全 https .net 数据结构

线程池全称为托管线程池，线程池受 .NET 通用语言运行时(CLR)管理，线程的生命周期由 CLR 处理，因此我们可以专注于实现任务，而不需要理会线程管理。

痴者工良

2021/04/26

1.5K0

C#多线程(6)：线程通知

数据结构

回顾一下，前面 lock、Monitor 部分我们学习了线程锁，Mutex 部分学习了进程同步，Semaphor 部分学习了资源池限制。

痴者工良

2021/04/26

9110

C#多线程(11)：线程等待

https 数据结构网络安全性能测试

前面我们学习了很多用于线程管理的类型，也学习了多种线程同步的使用方法，这一篇主要讲述线程等待相关的内容。

痴者工良

2021/04/26

2.3K0

C#多线程开发-线程基础 01

c#编程算法

最近由于工作的需要，一直在使用C#的多线程进行开发，其中也遇到了很多问题，但也都解决了。后来发觉自己对于线程的知识和运用不是很熟悉，所以将利用几篇文章来系统性的学习汇总下C#中的多线程开发。

冬夜先生

2021/09/03

4450

C#多线程调试

编程算法 c#

这篇文章主要分享多线程部分调试技巧，在日常的开发工作中会经常遇到多线程调试的需要。在我们调试的过程中会出现断点的焦点在多个线程之间“反复横跳”根本无法集中跟踪某一个线程的操作链路。那么今天我们来看看如何调试操作。如果有其它需要的可以参考下面微软官方的文档地址。

JusterZhu

2022/12/07

7600

C#多线程(8)：线程完成数

api add timespan wait web

假如，程序需要向一个 Web 发送 5 次请求，受网路波动影响，有一定几率请求失败。如果失败了，就需要重试。

痴者工良

2021/04/26

5170

C#多线程开发-线程池03

编程算法 .net javascript node.js

前面2篇文章介绍了线程的基础知识和线程同步，下面我们来一起认识学习下，线程池的使用。

zls365

2021/09/24

9130

相似问题

如何管理加载动画线程？- C#

分配器与多线程

C#：管理线程等待队列

内存管理与std：：分配器

如何管理多线程c#应用程序

活动推荐

助力在校大学生快速入门云计算，畅游云端

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例