腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
cuda
和
张量
内核
的
区别
是什么
?
、
、
我对与高性能计算相关
的
术语完全陌生,但我刚刚看到EC2在亚马逊网络服务上发布了由新
的
Nvidia Tesla V100驱动
的
新型实例,它有两种“核心”:
Cuda
核心(5,120)
和
张量
核心(640)。两者之间
的
区别
是什么
?
浏览 106
提问于2017-11-17
得票数 54
回答已采纳
1
回答
机器学习中
的
张量
内核
是什么
?
、
、
机器学习中
的
张量
内核
是什么
?
张量
核
和
普通核(如RBF核)有什么
区别
?当使用
张量
核时,它们
的
优缺点
是什么
?
浏览 3
提问于2018-05-29
得票数 2
2
回答
OpenAcc标准中
内核
和
并行指令
的
区别
、
、
、
我已经使用支持OpenAcc
的
PGI编译器在GPU上启动了大约3年
的
代码,但是到目前为止,我无法理解“
内核
”
和
“并行”这两个术语之间
的
区别
。我在“OpenAcc入门指南”中读到: 定义应该编译以便在加速器设备上并行执行
的
程序区域。定义程序
的
区域,该区域应该被编译成一系列
内核
,以便在加速器设备上执行。我不明白“加速器设备上
的
并行执行”
和
“编译成一系列用于在加速器设备上执行
浏览 1
提问于2019-12-17
得票数 1
回答已采纳
1
回答
`torch.Tensor`与`torch.
cuda
.Tensor`
的
差异
.], device='
cuda
')在GPU上分配
张量
。使用这种方式而不是使用torch.
cuda
.Tensor([1., 2.])有什么不同,除了我们可以将一个特定
的
CUDA
设备传递给前者吗?或者换句话说,在哪种场景中需要torch.
cuda
.Tensor()?
浏览 0
提问于2018-12-05
得票数 9
回答已采纳
2
回答
如何修复“输入
和
隐藏
张量
不在同一装置上”
的
问题
、
、
、
、
当我想将模型放到GPU上时,我会得到以下错误:for m in model.parameters():if torch.
cuda
.is_available():
浏览 3
提问于2019-09-25
得票数 8
回答已采纳
2
回答
Model.to(设备)
和
model=model.to(设备)有什么
区别
?
、
假设模型最初存储在CPU上,然后我想将其移动到GPU0,那么我可以这样做:model = model.to(device)model.to(device) 这两行之间
的
区别
是什么
?
浏览 5
提问于2020-01-02
得票数 13
1
回答
无法计算torch.
cuda
.FloatTensor
的
点积
我使用GPU计算了神经网络
和
torch.
cuda
.FloatTensor (两者都存储在GPU中)输出
的
点积,但得到了一个错误:p = torch.exp(vector.dot(ht)) 这里
的
矢量是torch FloatTensor,h
浏览 2
提问于2017-07-03
得票数 1
1
回答
如何在RTX GPU中用python
和
numba编程NVIDIA
的
张量
核?
、
、
、
、
我感兴趣
的
是在python中使用NVIDIA RTX GPU
的
张量
核,以便在一些科学计算中受益于它
的
速度。Numba是一个伟大
的
库,它允许为
cuda
编程
内核
,但是我还没有找到如何使用
张量
核。
浏览 2
提问于2020-06-20
得票数 0
回答已采纳
1
回答
RuntimeError:预期所有
张量
都在同一个设备上,但是至少发现了两个设备,
cuda
:1
和
cuda
:0!当使用变压器架构时
、
、
、
、
通过将nn.dataparallel放在object.However模型上,以前研究过
的
使用pytorch
的
训练是可能
的
,这种方法一直工作到seq2seq为止,但是变压器返回以下错误: RuntimeError:1 and
cuda
:0!目前,该设备被设置为
cuda
,nn.dataparallel只应用于最终
的
变压器模型,只有编码器和解码器除外。device = torch.device("
cuda
" if torch.
cuda
.i
浏览 59
提问于2022-10-28
得票数 0
2
回答
默认情况下如何在GPU上运行PyTorch?
、
我想使用
cuda
运行PyTorch。我为所有
张量
设置了model.
cuda
()
和
torch.
cuda
.LongTensor()。如果我使用了.
cuda
,是否必须显式地使用model.
cuda
()创建
张量
默认情况下,是否有一种使所有计算在GPU上运行
的
方法?
浏览 1
提问于2017-05-05
得票数 10
回答已采纳
2
回答
pytorch实例
张量
即使使用显式
cuda
()调用也未移动到gpu
、
、
、
我正在处理一个项目,在这个项目中,模型需要访问类
的
构造函数init中声明
的
张量
(im子类torch.nn.Module类),然后我需要通过一个简单
的
matmul()方法在forward()方法中使用这个
张量
,通过
cuda
()调用将模型发送到gpu:model.
cuda
()model(X) # or model.forward(X)我得到了 RuntimeError: torc
浏览 1
提问于2019-01-12
得票数 7
回答已采纳
3
回答
为什么printf()在
内核
中工作,但是使用std::cout却不能工作?
、
、
、
我一直在探索并行编程领域,并用
Cuda
和
SYCL编写了基本
内核
。我遇到了必须在
内核
中打印
的
情况,我注意到
内核
中
的
std::cout不工作,而printf工作。例如,考虑以下SYCL代码--这是有效
的
- buffer<float, 1> Buffer{A, {N}}; queue Queue--类似的情况会发生在
CUDA
内核
中。这
浏览 4
提问于2021-02-01
得票数 1
回答已采纳
1
回答
使用带有自定义
CUDA
扩展
的
torch.nn.DataParallel
、
、
、
但是,当按照
CUDA
编写自定义操作时,给出
的
LLTM示例执行批处理不变
的
操作,例如按元素计算Sigmoid函数
的
梯度。std::vector<at::Tensor> op_
cuda
_forwardat::Ten
浏览 1
提问于2018-07-18
得票数 37
回答已采纳
1
回答
为什么选择Eigen来做TensorFlow?
、
、
有没有关于如何选择Eigen
的
公开解释,以及它们是否有在TensorFlow C++ op
内核
中使用Eigen
的
动机?
浏览 3
提问于2017-01-07
得票数 19
回答已采纳
1
回答
基于cpu
的
fp16推理
、
、
、
我有一个pretrained pytorch模型,我想在fp16而不是fp32上推断,我已经在使用gpu时尝试过了,但是当我在cpu上尝试它时,我得到了:"sum_cpu" not implemented for 'Half' torch。有什么修复方法吗?
浏览 0
提问于2020-05-31
得票数 0
1
回答
如何理解如何在PyTorch中创建叶
张量
?
、
、
来自PyTorch b.is_leaf# b was created by the operationthat cast a cpu Tensor into a
cuda
Tensor e.is_leaf f = torch.rand
浏览 3
提问于2020-12-15
得票数 7
回答已采纳
2
回答
如何通过Vulkan使用Nvidia
的
张量
核心
、
、
如何利用Nvidia
的
张量
核(在计算机着色器中)?!用Vulkan?更具体地说,我想深入到过滤器中去噪更多一点。据我所知,滤波器通常需要精确
的
浏览 5
提问于2019-01-23
得票数 7
回答已采纳
4
回答
CUDA
核
和
CPU核有什么
区别
?
、
我用过一点
CUDA
,也用过很多CPU,我正在尝试理解这两者之间
的
区别
。我
的
I5处理器有4个
内核
,售价200美元,而我
的
NVidia 660有960个
内核
,价格大致相同。如果有人能解释一下这两个处理单元架构在能力、优缺点方面的关键
区别
,我会非常高兴。例如,
CUDA
核心是否有分支预测?
浏览 21
提问于2014-01-08
得票数 27
回答已采纳
2
回答
Tensorflow新Op
CUDA
内核
内存管理
、
我已经在Tensorflow实现了一个相当复杂
的
新操作系统,它有一个GPU
CUDA
内核
。此操作需要大量动态内存分配变量,这些变量不是
张量
,在操作完成后被解除分配,更具体地说,它涉及使用哈希表。现在我正在使用cudaMalloc()
和
cudaFree(),但是我注意到Tensorflow有自己
的
类型Eigen::GPUDevice,它能够在GPU上分配
和
释放内存。我
的
问题: 使用Eigen::GPUDevice管理GPU内存是最佳实践吗?通过使用E
浏览 1
提问于2018-02-02
得票数 6
回答已采纳
2
回答
Pytorch,输入(正常
张量
)
和
重量(库达
张量
)失配
、
、
免责声明--我知道,这个问题已经问过很多次了,但是我尝试过他们
的
解决方案,没有一个对我有用,所以在所有这些努力之后,我找不到任何其他
的
东西,最终我不得不再问一次。我正在用cnns (PYTORCH)进行图像分类,我不想在GPU (nvidia gpu,兼容
cuda
/
cuda
)上训练它,我成功地在上面安装了网络,但问题在于数据。if torch.
cuda
.is_available(): device = torch.device("
cuda
:0")
浏览 3
提问于2020-07-21
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Windows 内核和 Linux 内核的区别(二)
Windows 内核和 Linux 内核的区别(一)
macOS和Linux 的内核有什么区别
和EXCEL的区别是什么?
drop和delete的区别是什么
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券