腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
我
在
c
中
的
矩阵
乘法
代码
总是
给出
无用
的
值
?(
使用
共享
内存
和
fork
)
c
、
unix
、
fork
、
shared-memory
这是
我
用
c
编写
的
代码
,用来做
矩阵
乘法
,实现
fork
和
共享
内存
。看起来
我
得到
的
值
大部分是垃圾
值
。也许
我
没有初始化数组
C
的
值
,它首先是结果数组。(
我
是
C
语言
的
初学者,这是
我
第一次
使用
浏览 29
提问于2021-02-25
得票数 0
回答已采纳
1
回答
C
fork
的
问题,错误
的
结果,可能是
共享
内存
c
、
fork
、
shared-memory
我
有一个任务是用
fork
做一个
矩阵
乘法
,
使用
共享
内存
,然后将时间结果与没有
fork
的
乘法
进行比较,所以这是没有
fork
的
乘法
:int matrizB[An][matrizR[a][b] += matrizA[a][
c
] * matrizB[
c
][b]; }
浏览 0
提问于2015-09-30
得票数 1
2
回答
rootbeer CUDA示例
代码
量化吞吐量增益
cuda
、
rootbeer
以下是
我
在装有Ubuntu 12.04 (精确)
的
笔记本电脑上运行
的
Nvidia CUDA
的
rootbeer示例
代码
,带有bumblebee
和
optirun。
我
几乎没有获得任何吞吐量收益。有什么问题吗?
浏览 3
提问于2012-11-08
得票数 1
回答已采纳
2
回答
可以通过pnacl加速webgl
矩阵
乘法
吗?
javascript
、
matrix
、
webgl
、
google-nativeclient
javascript
中
矩阵
乘法
运算性能差是高性能webgl
的
一个障碍。所以我正在考虑
使用
pnacl来加速它。理想情况下,
我
希望将ArrayBuffer(Float32Array)
和
矩阵
传递给pnacl,然后
使用
本机
代码
完成
乘法
并更新缓冲区
中
的
值
,最后通知页面(Javascript)。但我怀疑pnacl
和
page javascri
浏览 9
提问于2016-02-23
得票数 2
1
回答
任意精度算法
的
CUDA实现
matrix
、
cuda
、
matrix-multiplication
、
arbitrary-precision
我
必须乘两个非常大
的
(~ 2000×2000)稠密
矩阵
,它们
的
条目是具有任意精度
的
浮动(
我
使用
的
是GMP,其精度目前设置为600)。
我
想知道是否有支持任意精确算法
的
CUDA库?
我
找到
的
唯一一个库叫做CAMPARY,但是它似乎缺少了对一些已
使用
函数
的
引用。
我
正在考虑
的
另一个解决方案是实现Karatsuba算法<
浏览 3
提问于2016-04-27
得票数 4
1
回答
GPU上所需
的
计算
内存
比(OP/B)
performance
、
cuda
、
gpu
、
metrics
我
试图理解和了解GPU
的
架构,以及我们如何评估我们
的
程序
在
GPU上
的
性能。
我
知道应用程序可以是: 下面的图像显示了每个微体系结构
的
触发器速率、峰值
浏览 8
提问于2020-02-16
得票数 1
回答已采纳
1
回答
用SIMD
和
openMP加速
矩阵
乘法
c
、
multithreading
、
performance
、
parallel-processing
、
openmp
我
试图加快
矩阵
乘法
的
速度,这样它
的
性能就比简单
的
实现要好得多。
我
的
目标是把速度提高到150倍。到目前为止,
我
在
实现过程
中
尝试了以下几点:
使用</em
浏览 1
提问于2020-11-17
得票数 2
回答已采纳
1
回答
numpy
矩阵
乘法
形状
python
、
numpy
、
matrix-multiplication
在
矩阵
乘法
中
,假设A是3x2
矩阵
(3行,2列),B是2x4
矩阵
(2行,4列),那么如果
矩阵
C
= A * B,则
C
应该具有3行4列。
为什么
numpy不做这个
乘法
呢?当我尝试下面的
代码
时,
我
得到一个错误:ValueError: operands could not be broadcast together with shapes (3,2) (2,4) a = n
浏览 4
提问于2013-08-15
得票数 5
回答已采纳
1
回答
将尖头稀疏
矩阵
变量封装在推力指针
中
cuda
、
max
、
sparse-matrix
、
thrust
、
cusp-library
我
用尖来做稀疏
矩阵
乘法
。从结果
矩阵
中
,
我
需要最大
值
,而不需要将
矩阵
从设备
内存
复制到主机
内存
。
我
计划将结果
矩阵
封装在推力装置指针
中
,然后
使用
函数thrust::max_element获得最大元素。如果
C
是乘积稀疏
矩阵
,则
C
.colum
浏览 2
提问于2012-10-30
得票数 0
回答已采纳
5
回答
是否有任何公式可以知道
fork
()是如何对当前进程进行近乎完美的复制
的
?
c
、
fork
#include <stdio.h>{
fork
(); }
我
很困惑,如果
我
把n=1,它打印Hello2次。 以此类推。
浏览 0
提问于2014-02-18
得票数 1
2
回答
创建
的
进程不能并行执行
c
、
linux
、
process
、
fork
我
在
共享
内存
中
得到了一个整数
矩阵
,有n个列,所以我创建了n个进程,每个进程都生成一个colum
的
和
。问题是它们不能并行执行。这里有
代码
(这实际上不做
和
,被用来测试): i=0; pid2[i] =
fork
(); if(pid2[i]==-1)printf("
fork
() fail!,它按照
浏览 3
提问于2016-02-28
得票数 0
回答已采纳
1
回答
矩阵
乘法
:
在
CUDA
中
合并全局
内存
访问后性能下降
parallel-processing
、
cuda
、
gpu
、
matrix-multiplication
我
最近开始
使用
CUDA与GPU合作。作为一个启动程序,
我
试图高效地实现一个简单
的
矩阵
乘法
。
C
= AB 从朴素
矩阵
乘法
开始(每个线程为
C
中
的
一个元素加载A
和
B
的
所有元素),平铺实现(线程
在
共享
内存
中将A
和
B
中
的
元素块协同加载以减少全局<
浏览 2
提问于2018-08-06
得票数 1
回答已采纳
1
回答
具有CUSPARSE库
的
并发内核
cuda
、
nvidia
我
想问您一个关于Nvidia GPU
中
并发内核执行
的
问题。
我
解释
我
的
情况。
我
有一个
代码
,它为两个不同
的
矩阵
启动一个稀疏
矩阵
乘法
(每个一个)。这些
矩阵
乘法
是用cuSPARSE库执行
的
。
我
希望两个操作都可以同时执行,所以我
使用
两个流来启动它们。
使用
Nvidia可视化分析器,<em
浏览 1
提问于2015-10-02
得票数 0
回答已采纳
5
回答
java
中
的
矩阵
乘法
java
、
r
、
matrix-multiplication
我
想用Java做
矩阵
乘法
,速度需要很好。不过,
我
有几个问题:
我
离开公司
的
同事是一名
C
#程序员,他被迫编写涉及
矩阵
浏览 3
提问于2010-04-17
得票数 1
1
回答
为什么
翻译
矩阵
需要额外
的
行?
matrix
、
transformation
我
对
矩阵
有些熟悉,
我
得出
的
结论是向量
和
矩阵
乘法
实际上是2x2
和
2x1
矩阵
的
乘法
: 开始{方程*}开始{b
矩阵
}a&
c
&d\结束{b
矩阵
} \qquad \开始{b
矩阵
}x\y\结束{b
矩阵
}{方程*}
在
文章
中
,作者发现除了旋转之外,要完成平移,我们需要在翻译<
浏览 0
提问于2018-06-26
得票数 1
回答已采纳
1
回答
将结构复制到设备
内存
CUDA
c++
、
cuda
我
是数据自动化系统
的
新手,并且浏览过数据自动化系统
的
工具包文档。在这里,
我
发现了一个例子,
矩阵
乘法
使用
共享
内存
。这里,当将
矩阵
结构从主机
内存
复制到设备
内存
时,只复制数据元素。
我
无法理解
的
是其他变量是如何被复制到设备
内存
中
的
。;
浏览 3
提问于2016-11-09
得票数 2
回答已采纳
1
回答
如何
使用
mmap
和
shm_open
在
多个独立进程之间
共享
内存
c++
、
c
、
linux
、
shared-memory
、
mmap
我
想在进程之间
共享
内存
,这些进程独立运行,而不是
fork
。
我
已经阅读了mmap
和
shm_open
的
手册页,仍然对
使用
感到困惑。在我看来,
共享
内存
应该是
在
不同进程之间映射虚拟
内存
空间
的
机制,但是
为什么
mmap有fd参数呢?这是否意味着
内存
实际上是通过文件
共享
的
?而且,shm_open似乎接受一
浏览 0
提问于2019-07-19
得票数 3
回答已采纳
2
回答
顶点着色器
中
的
转换仅适用于后乘。
opengl
、
matrix
、
glsl
、
shader
我
目前正在学习OpenGL
和
GLSL,编写一个简单
的
软件来加载模型、
在
屏幕上显示它们、转换它们等等。作为第一阶段,
我
没有
使用
OpenGL编写了一个纯
C
++程序.它工作得很好,并且
使用
了行主
矩阵
表示: <em
浏览 4
提问于2016-06-01
得票数 8
回答已采纳
5
回答
如何在
C
中
与Linux一起
使用
共享
内存
c
、
linux
、
fork
、
shared-memory
我
的
一个项目有点问题。
我
一直试图找到一个
在
fork
()中
使用
共享
内存
的
文档丰富
的
示例,但没有成功。基本上,当用户启动程序时,
我
需要在
共享
内存
中
存储两个
值
:current_path (即char* )
和
file_name (也是char* )。根据命令参数,
使用
fork
()启
浏览 8
提问于2011-04-13
得票数 153
回答已采纳
3
回答
C
++程序在数百万次执行后
的
稳定性
c++
、
multithreading
、
matrix
、
stability
我
在
C
++中有一个程序,主要执行
矩阵
乘法
、加法等等。当一个问题被执行了数百万次
和
几个小时时,有没有可能出现
的
问题?有关计划
的
详情: 没有
内存
泄漏,<
浏览 5
提问于2013-09-21
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
C语言系统编程:进程的原理介绍和代码实现
GPU选购指南:训练ML模型,我必须买RTX3080吗?
深度学习框架Tensorflow学习笔记(一)
当你在 Linux 上启动一个进程时会发生什么?
数学的力量——稀疏矩阵,所有科学都是矩阵乘法
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券