腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9919)
视频
沙龙
1
回答
使用
numpy
和
GPU
对
跨
基准
轴
的
矩阵
进行
乘法
performance
、
numpy
、
matrix-multiplication
我有一个形状为(F,T,M)
的
矩阵
X。我希望沿着F
轴
乘以每个(T,M)
矩阵
,这样答案就是形状(M,M,F)。但是这个操作重复了很多次,而且非常慢: for f in range(F): output[:,:,f] = np.matmul(X[f,:,:].T,X[f,:,:]) 我能找到
的
只有如果我理解正确的话,这对我来说不是一个好
的
选择,因为我需要
的
是
矩阵
乘法
,而不是点积。 如何
使用
浏览 21
提问于2020-01-12
得票数 0
回答已采纳
1
回答
GPU
如何正确
使用
anaconda加速
numpy
、
python-3.4
、
anaconda
、
numba-pro
我试着用加速
的
方法快速计算
矩阵
。我从一个非常基本
的
例子开始:乘2
矩阵
。下面是基于这个
的
基本示例。TrueCPU: 0.00038933753967285156True当然,我理解内部
的
numpy
实现是很好
的</e
浏览 3
提问于2015-06-14
得票数 5
回答已采纳
1
回答
Python
矩阵
提供了
numpy
.dot()
python
、
performance
、
numpy
、
matrix-multiplication
在我熟悉Python (numba )中
的
CUDA期间,我实现了
矩阵
提供方法:
numpy
.random.randint(0, 5, (N, N)) # with int32
浏览 5
提问于2015-04-29
得票数 5
回答已采纳
1
回答
TensorFlow运算与
Numpy
乘法
的
时间比较
python
、
performance
、
numpy
、
matrix
、
tensorflow
我一直在努力优化我
的
计算;对于我尝试过
的
大多数操作,tensorflow都要快得多。我试图做一个相当简单
的
operation...Transform
矩阵
(将每个值乘以1/2,然后将1/2加到该值中)。对于数据科学家来说,tensorflow似乎是一个非常有用
的
工具,我认为这有助于澄清它
的
用途
和
浏览 7
提问于2016-03-02
得票数 0
回答已采纳
2
回答
Clojure中
的
机器学习
clojure
、
machine-learning
、
numeric
、
symbolic-math
我们在Python中有theano
和
numpy
来做符号和数值计算,优化了我们
的
机器学习计算(例如:
矩阵
乘法
和
GPU
使用
)。在Clojure中有哪些相关
的
工具来做机器学习(或者至少像
矩阵
乘法
这样
的
事情)?
浏览 0
提问于2015-06-16
得票数 7
2
回答
为什么是模型视图
矩阵
?
opengl
、
glsl
、
glsles
如果这是一个愚蠢
的
问题,我很抱歉,但我很长一段时间都在想,为什么有这么多
的
例子顶点着色器,包含一个模型视图
矩阵
。在我
的
程序中,我有以下情况: 视图
矩阵
也经常发生变化(例如,改变查看方向如果我要在顶点着色器中
使用
一个模型视图
矩阵
,我
浏览 3
提问于2014-04-25
得票数 2
回答已采纳
2
回答
numpy
中
的
3d
矩阵
乘法
python
、
numpy
、
matrix
、
linear-algebra
我正在
使用
numpy
执行
矩阵
乘法
,但我不知道如何利用
numpy
进行
3d
矩阵
乘法
。 假设我有一个3x3
的
矩阵
a,我把它乘以一个3x1
的
向量b,这将得到一个3x1
的
向量c。这是在
numpy
中
使用
以下命令完成
的
: # (3, 3) * (3, 1) -> (3, 1) c = np.matmul(a, b) 好
的</em
浏览 63
提问于2021-01-06
得票数 2
回答已采纳
3
回答
用于
矩阵
操作
的
加速
GPU
与CPU
的
比较
python
、
gpu
、
gpgpu
、
matrix-multiplication
我想知道
GPU
计算将帮助我加速我
的
模拟。m_size = 1000b = np.random.rand(m_size, m_size) r
浏览 3
提问于2016-08-01
得票数 7
回答已采纳
1
回答
Tensorflow急切模式下
的
绩效评价
python
、
tensorflow
在tensorflow关于
的
指南中,有一段代码如下:def measure(x, steps): start = time.time() x = tf.matmul(x, x) print("CPU: {} secs".format(measure
浏览 2
提问于2018-08-07
得票数 0
回答已采纳
2
回答
为什么CUDA
GPU
矩阵
乘法
比
numpy
慢?怎么这么快?
python
、
numpy
、
cuda
、
benchmarking
、
numba
然后,我用我认为不太理想
的
实现
对
它
进行
基准
测试:
numpy
的
点函数,将两个1024x1024
矩阵
(用randn(1024,1024)生成)相乘。如果
numpy
算法是朴素
矩阵
乘法
,则需要1024^3 ~ 1e9
乘法
。这是平均每5ms/1e9 =5微微秒
的
一个操作
的
吞吐量。我
的
CPU运行速度约为3.4 GHz,因此每个周期需要300皮秒。由
浏览 3
提问于2021-08-12
得票数 1
1
回答
带有ArrayFire
的
多个主机线程
python
、
gpgpu
、
arrayfire
对于如何在ArrayFire中
使用
多个主机线程,我有一个新
的
问题。我们目前有一个高度并行
的
CPU专用代码,
使用
Open
和
mpi4py并行化.每个CPU线程执行大型
矩阵
乘法
,通常与多个线程同时相乘。我们希望通过
使用
ArrayFire在单个
GPU
上执行
矩阵
乘法
来提高性能。 我试图弄清楚是否可以让多个CPU主机线程向
GPU
发送
矩阵
乘法
作业,并让
浏览 3
提问于2018-01-11
得票数 2
回答已采纳
2
回答
为什么在CPU上计算对象
的
转换?
3d
、
matrix
、
vertex-buffer-object
、
render
} {1, 1.21, 2.12}1 0 0 00 0 1 0构造一个旋转
矩阵
(在这里,我还不知道四元数
和
旋转是如何工作
的
,我所知道
的
是有一个旋转
矩阵
,其中填充了每个
轴
上
的
角度
的
正弦
和
余弦)。在DirectX
和
OpenGL中,我知道
矩阵
是在CPU中计算<
浏览 0
提问于2023-02-06
得票数 1
1
回答
numpy
阵列每一个元素
的
矩阵
乘法
python
、
arrays
、
numpy
、
matrix
、
matrix-multiplication
我有一个
矩阵
[ 1. 1.]]
和
两个数组(a
和
b),每个数组包含20个浮点数--如何乘以
使用
公式: y' ) y
对
吗?m = A * [a, b]
浏览 2
提问于2013-09-18
得票数 3
回答已采纳
3
回答
python中
的
numpy
.sum()与matlab中
的
sum()之间
的
输出差异
python
、
matlab
、
numpy
我正在把MATLAB代码转换成Pythonimport
numpy
as npL=1y=np.linspace210000000000)*np.ones(n)PI=math.pi在此之前,这是很好
的
工作*A) 我也用np.sum(Rho*inter*A)
和
Rho*inter*
浏览 8
提问于2020-04-23
得票数 1
回答已采纳
1
回答
为什么我
的
GPU
在
矩阵
运算中比CPU慢?
python
、
machine-learning
、
deep-learning
、
gpgpu
、
cupy
和
CPU相比做基本
矩阵
操作
的
速度有多快,我基本上遵循了这个。下面是我
的
超级简单代码import cupy as cps = time.time()e = time.time()具有讽刺意味
的
浏览 1
提问于2020-10-18
得票数 2
回答已采纳
2
回答
为什么a.dot(b)比a@b快,尽管
Numpy
推荐a@b
python
、
arrays
、
performance
、
numpy
、
matrix
根据这个
和
的
答案,与a.dot(b)相比,二维阵列
的
矩阵
乘法
最好是通过a @ b或
numpy
.matmul(a,b)来完成。如果a
和
b都是二维数组,则是
矩阵
乘法
,但首选
使用
matmul或a@b。 问题:我
的
基准
测试有什么问题吗?如果没有,为什么
Numpy
不推荐a.dot(b),因为它
浏览 2
提问于2018-08-28
得票数 17
回答已采纳
1
回答
在Matlab上计算嵌入之间
的
余弦距离
python
、
matlab
我有几行代码,其中有一个torch tensor (200.000 x 512),我想计算每个嵌入之间
的
余弦距离。(将我
的
张量转换为.mat文件+代码)
浏览 26
提问于2021-08-10
得票数 0
2
回答
可从
GPU
上
的
矩阵
乘法
中获益
的
最小
矩阵
大小
metal
、
gpu
、
metal-performance-shaders
我
对
使用
Metal Performance Shaders
的
矩阵
乘法
特别感兴趣,但关于其他框架
的
答案也很好。
矩阵
乘法
在理论上是高度并行化
的
操作。我需要将许多
矩阵
相乘,比如A‘A(其中撇号代表转置)。
矩阵
A
的
大小约为4000×300。我想知道,考虑到这些
矩阵
的
大小,是否值得将
乘法
代码移植到
GPU
上。据我所知,在
浏览 30
提问于2020-08-06
得票数 0
回答已采纳
1
回答
Python (
NumPy
):内存高效
的
数组
乘法
,具有奇特
的
索引
python
、
numpy
、
memory
、
vectorization
我希望在python中做快速
矩阵
乘法
,最好是
NumPy
,通过
使用
第三个索引数组I来实现数组A
和
另一个重复
矩阵
数组B
的
快速
矩阵
乘法
。这可以
使用
花式索引
和
矩阵
乘法
来实现:B = rand(40000000,5,1)I = randi
浏览 24
提问于2022-12-02
得票数 0
1
回答
OpenGL阴影-相机转换应该发生在
GPU
还是CPU上?
opengl
、
shader
、
vbo
、
perspectivecamera
所以目前我要做
的
是,在将我
的
元素加载到VBO之前,创建一个新
的
矩阵
,并将它们添加到其中。我这么做是为了让我可以随心所欲地处理
矩阵
。我所做
的
就是把摄像机
的
位置加到
矩阵
中
的
坐标上。注:对象
的
实际位置保存在其他地方,
矩阵
是一个转换阶段。相机
浏览 0
提问于2013-07-29
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
神经网络与深度学习
英伟达深度学习Tensor Core全面解析
收藏 Numpy详细教程
NVIDIA深度学习Tensor Core全面解析
python数值计算扩展——NumPy
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券