腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
浮点数字与定点数字: Intel I5 CPU上的速度
、
、
、
、
我有一个C/
C++
程序,它涉及密集的32位浮点
矩阵
的数学计算,如加法、减法、
乘法
、除法等。 我能否
通过
将32位浮点数字转换为16位定点数字来
加速
我的程序?我能得到多少速度增益?我用Openblas做
矩阵
计算。我应该如何重新实现Openblas函数(如cblas_dgemm )来执行定点计算?我知道
SSE
(简单SIMD扩展)一次操作4x32=8x16=128位数据,即4 32位浮点类型或8 16位定点类型.我猜在从32位浮点转换到16位定点后,我的程序会快两倍。
浏览 14
提问于2016-09-24
得票数 5
2
回答
为什么用浮点
矩阵
乘法
执行浮点数比用int乘整数更快?
、
、
、
、
有两个int
矩阵
A和B,有超过1000行和10K列,我通常需要将它们转换为浮动
矩阵
以获得
加速
比(4x或更多)。为什么在
矩阵
代数库(如Numpy或Eigen )下面没有一个启发式的方法来捕捉这一点,并像浮点一样更快地执行整数
矩阵
乘法
?关于接受的答案:虽然@sascha的答案非常有用,但@chatz的答案是int
浏览 11
提问于2017-07-28
得票数 26
回答已采纳
1
回答
像`float[10][10]`这样初始化的数组已经内存对齐了吗?
、
、
我需要使用SIMD/Intel
SSE
优化我的
矩阵
乘法
。给出的示例代码如下:但是,我使用的是
C++
和[found that][1] i,而不是malloc (现在,我正在
通过
单指令多路复用/
SSE
进一步优化,所以我需要对齐内存,所以问题是:我需要memalign/_aligned_malloc,还是我的数组声明为 static float m1[SIZE][
浏览 4
提问于2012-10-03
得票数 2
回答已采纳
1
回答
Marshal.GetDelegateForFunctionPointer失败
、
、
、
、
from Kernel32.dll }}extern "C" { void __declspec(dllexport) Matrix4x4_Multiply_
SSE
浏览 4
提问于2011-10-21
得票数 1
回答已采纳
8
回答
用
SSE
加速
浮点5x5
矩阵
*向量
乘法
、
、
、
、
我需要每秒运行
矩阵
向量
乘法
240000次。
矩阵
为5x5,并且总是相同的,而向量在每次迭代时都会发生变化。数据类型为float。我正在考虑使用一些
SSE
(或类似的)指令。
浏览 6
提问于2011-07-07
得票数 13
回答已采纳
2
回答
使用
SSE
向量指令
加速
矩阵
-
矩阵
乘法
、
、
我在使用
SSE
向量指令向量化一些C代码时遇到了一些问题。result[i][k] += mat1[i][j] * mat2[j][k]; }}void matrix_mul_
sse
浏览 0
提问于2018-10-30
得票数 1
2
回答
访问C#应用程序性能中的
C++
代码
、
、
、
、
我正在考虑在C#应用程序中运行一个用
C++
编写的函数,无论是移动应用程序还是普通应用程序。在C#环境(应用程序)中运行用
C++
(数学处理)编写的代码更快,还是在用C# (理论上)编写相同的代码时相同? 谢谢!第二个问题:如何在C#应用程序中包含和访问
C++
代码,而不是从DLL外部访问它?
浏览 3
提问于2012-08-24
得票数 1
1
回答
有效的
SSE
NxN
矩阵
乘法
、
、
、
、
我试图
通过
矩阵
乘法
来实现大
矩阵
的
SSE
版本。我正在寻找一种基于SIMD实现的高效算法。我想要的方法如下:所有
矩阵
都被认为是16字节对齐浮点数数组.所以,如果有人能帮我找到一些关于如何开始实现的文章或资源,我将不胜感激。
浏览 6
提问于2014-02-01
得票数 3
回答已采纳
2
回答
利用
SSE
2
加速
矩阵
乘法
运算
、
、
、
、
我想知道如何
通过
SSE
2
加速
矩阵
乘法
int mat_mult_simd(double *a, double *b, double *c, int n) __m128d c1,
浏览 2
提问于2014-06-04
得票数 2
2
回答
SSE
矩阵
-
矩阵
乘法
、
、
在C语言中,我很难用
SSE
做
矩阵
乘法
。搜索剂量似乎有很大帮助-每个结果要么只做4x4
矩阵
,magic或一些特殊的魔术,不太容易读和难以理解.
浏览 1
提问于2016-10-28
得票数 3
回答已采纳
4
回答
如何创建仅存在于特定模板专门化的函数
、
、
当我处理Float值的
矩阵
时,我有
SSE
优化的
矩阵
乘法
函数。目前,我的方法包括一个名为"doSSE_mulMM“的函数,它
通过
矩阵
乘法
完成一个
矩阵
,包括几个检查,但它只与Matrix<Float>相关(部分原因是我在代码中检查了
SSE
能力,如果没有
SSE
,则转移到一个效率较低的
乘法
中Matrix<Float>& mat2,
浏览 2
提问于2013-08-30
得票数 1
回答已采纳
2
回答
SSE
,行主要与列主要性能问题
、
、
、
出于个人和有趣的考虑,我使用
SSE
(4.1)编写了一个geom库。 );我的类Vec4只是一个__m128 m_val,在优化
浏览 0
提问于2014-05-30
得票数 3
5
回答
高性能应用程序中的C/
C++
与Java/C#
、
、
我的问题是关于Java与编译代码的性能,例如
C++
/fortran/程序集在高性能的数值应用程序中。我知道这是一个有争议的话题,但我正在寻找具体的答案/例子。还有社区维基。双精度
矩阵
乘法
(在blas库中通常称为dgemm )能够达到几乎100 %的峰值CPU性能(以浮点运算每秒计算)。向量指令,如
SSE
我已经看到了许多使用程序集、
C++
、Fortran、Atlas、供应商BLAS的基准测试(典型的例子是维度512及以上的
矩
浏览 7
提问于2010-02-27
得票数 11
5
回答
从3D数学到
SSE
或其他SIMD的转换速度有多快?
、
、
、
、
通过
将我的向量/
矩阵
库转换为
SSE
、AltiVec或类似的SIMD代码,我可以实现多大的
加速
?
浏览 0
提问于2008-09-22
得票数 10
回答已采纳
2
回答
矩阵
向量
乘法
vs. dgemm
、
、
我在我的代码中做了大量的
矩阵
向量
乘法
。我发现我天真的实现胜过了MKL10中的cblas_dgemm。我自己的猜测可能是dgemm做了alpha* A *B + beta *C,而我只做了A *B。但朴素的实现要好得多(大约3倍的
加速
)。有没有想过为什么会这样呢?以下是
矩阵
向量
乘法
的实现:{ for (int ii = 0;for (int kk = 0; kk <
浏览 1
提问于2011-04-09
得票数 0
1
回答
是否有一个数学库可以利用Visual
C++
2012中的新特性?
、
、
、
、
在VS 2012
C++
编译器中有许多用于并行编程的新特性: 矢量化在默认情况下是应用的,因此我们跳过这一部分。库是不可移植的,所以我们也跳过了。
浏览 2
提问于2012-12-12
得票数 0
3
回答
表示和乘以稀疏布尔
矩阵
的最快方法是什么?
、
、
、
、
所以,我使用的布尔
矩阵
的维数通常是几十到几百,它们通常是相当稀疏的(在大多数行和列中只有2-4个非零),并且我的运行时主要由它们的
乘法
控制。 在这种情况下,哪种数据结构最适合
加速
乘法
?目前,我将每个
矩阵
按行存储在一个连续的位集(64位长的数组)中,并使用基本的标准算法将它们相乘,只是
通过
在字中定位下一组位的快速操作以及
通过
位掩码操作进行矢量化来
加速
稀疏性。
浏览 0
提问于2010-09-05
得票数 9
1
回答
单C#/
C++
互操作,优化
矩阵
乘法
-开销导致的最小增益?
、
、
、
、
我在C#上有一个
矩阵
结构,在不使用
SSE
本质的情况下实现
乘法
操作。由于此时我无法访问代码,所以我将尽可能多地指定详细信息,而不是复制/粘贴定义。我试图使用P/Invoke对
C++
函数进行调用,以优化
乘法
。我的问题是关于传递参数。正如在MSDN上提到的,如果所传递的类型不可闪动,则成本为10至30个CPU +编组周期。
C++
结构。然而,最坏的情况变得更糟,从150 to的C#
乘法
到400 to的
C++
乘法
,这使我认为
浏览 2
提问于2017-06-07
得票数 0
回答已采纳
2
回答
硬件
加速
了吗?
test1: 对于每一种模型:model
矩阵
,glmultmatrixf,gldrawelements,glpop
矩阵
。/glscale/glscale从来都不是硬件
加速<
浏览 1
提问于2014-11-19
得票数 1
回答已采纳
1
回答
当进行
矩阵
乘法
时,numpy是否使用内存中的空间局部性?
、
、
、
在乘以大型
矩阵
(例如A和B,A.dot(B))时,numpy是否
通过
计算B的转置并使用逐行
乘法
来使用空间局部性,或者它是否以列的方式访问B的元素,这将导致许多缓存未命中。例如,如果我在一台20核的机器上运行4个独立的执行
矩阵
乘法
(对于大
矩阵
)的程序实例,我只看到2.3倍的
加速
。
浏览 0
提问于2015-05-06
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
《自然》封面故事:矩阵游戏︱2022年10月6日刊
网易有道开源EMLL:高性能端侧机器学习计算库,大幅提高计算性能
揭秘Tensor Core黑科技:如何让AI计算速度飞跃
英伟达Tensor Core技术架构原理分析
Python与Modeling-Linear Model,Preparation
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券