腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
核心
ML
中
fp16
计算
与
fp32
计算
的
差异
、
、
我想问一下在iPhone (我正在使用
的
iPhone X和iOS 12 )上如何
计算
fp16
和
fp32
核心
ML
模型。我有一个
fp32
模型,并使用coremltools将其量化为
fp16
。大小确实减少到
fp32
大小
的
一半左右,但预测时间根本没有减少,这一点我不太理解。 我已经用Xcode Shader Debugger查看了GPU帧。所有的缓冲区似乎都显示数据是RGBA16Float格式
的
,所以我想知
浏览 63
提问于2019-04-22
得票数 2
1
回答
FP16
,
FP32
-怎么回事?还是只是浮点值
的
位大小(Python)?
、
、
Python
中
的
FP16
,
FP32
是怎么回事?我和我
的
潜在商业伙伴正在为时间序列
的
工作建立一个深度学习机制。他在寻找GPU时想出了"
FP16
和
FP32
“。看起来他说
的
是16位和32位
的
浮点值。(我们
的
数据点看起来如下:"5989.12345",所以我很确定16位还不够。)
FP16
是GPU用来提高性能
的
一种特殊技术,还是一个用于使用1
浏览 0
提问于2020-04-27
得票数 5
4
回答
cuda和张量内核
的
区别是什么?
、
、
我对
与
高性能
计算
相关
的
术语完全陌生,但我刚刚看到EC2在亚马逊网络服务上发布了由新
的
Nvidia Tesla V100驱动
的
新型实例,它有两种“
核心
”:Cuda
核心
(5,120)和张量
核心
(640)。两者之间
的
区别是什么?
浏览 106
提问于2017-11-17
得票数 54
回答已采纳
1
回答
Tensorflow/CUDA卷积算法
的
失配
、
tensorflow/compiler/xla/service/gpu/gpu_conv_algorithm_picker.cc:202] cudnn version: 8.1.1 这是Ubuntu20.04上
的
一个新构建输入
的
数据有点大,因此MRE可能很困难。有人知道这个警告是关于什么
的
吗?
浏览 4
提问于2021-06-05
得票数 1
回答已采纳
1
回答
当使用
FP32
而不是
FP16
时,Keras
中
的
Adam优化器可以工作,为什么?
、
我注意到,当使用
FP16
,mse作为损失函数,adam作为优化器在Keras
中
训练序列模型时,损失无法
计算
,我得到了nan值。在使用
FP32
或使用
FP16
更改优化器时没有问题(我尝试过adamax和sgd)。是我遗漏了什么,还是adam
的
实现有什么问题? 代码片段可在here中找到
浏览 10
提问于2018-12-25
得票数 1
回答已采纳
1
回答
Three.js
中
对象
的
奇怪抖动
、
、
我有一个奇怪
的
问题,这个问题已经困扰了我很长一段时间,这个问题最好通过一个短视频来解释:正如你所看到
的
,当你移动相机时,场景
中
的
物体会有抖动,但当相机不动时,也会发生类似的事情。这个视频是在TinkerOS
的
Tinkerboard上拍摄
的
,但同样
的
问题也存在于FlintOS
的
Tinkerboard上。 在普通
的
笔记本电脑上,没有任何问题,一切都很顺利。我不确定这是一个bug,还是看到硬件上
的
差异<
浏览 5
提问于2018-11-20
得票数 0
2
回答
GLSL半(浮点)属性类型
、
我一直试图得到一个16位浮点(半浮点)作为属性到我
的
GLSL顶点着色器。它不让我编译说:但是我
的
#version是410,所以它应该支持一半?我漏掉了什么明显
的
东西吗?
浏览 1
提问于2017-06-16
得票数 1
2
回答
hub.KerasLayer在tensorflow 2.0
中
如何使用自动混合精度
、
、
、
根据
的
说法,我尝试在tensorflow 2.0
中
使用keras风格
的
自动混合精度(AMP)。这是我
的
代码:当我将策略更改为float32时,几个print提供了以下信息(日志
的
其他部分
与
mixed_float16策略在其他自定义层
中
工作,例如,名为"logits“
的
密集层,因为它
的</e
浏览 2
提问于2020-01-05
得票数 2
1
回答
一个CUDA
核心
可以处理一个以上
的
浮点指令每个时钟(麦克斯韦)?
-有这样
的
文字: 1664个
核心
* 1050 MHz * 2 =3494 GFlops峰值(3494 400 MFlops) 128 <
浏览 2
提问于2015-10-02
得票数 5
回答已采纳
1
回答
Azure NCv3和NC T4_v3有什么区别?
、
尽管有一种解释"The NC 3-系列和NC T4 _v3系列
的
尺寸是为
计算
密集型
的
GPU加速应用程序优化
的
,一些例子是基于CUDA和基于OpenCL
的
应用程序和仿真、人工智能和深度学习。NC T4 v3-系列
的
重点是基于NVIDIA
的
Tesla T4 GPU和AMD EPYC2罗马处理器
的
推理工作负载。NC 3系列专注于高性能
计算
和以NVIDIA
的
NC U.为特色
的
AI工作负载。
浏览 5
提问于2022-10-14
得票数 0
2
回答
在深度学习中使用
Fp16
对最终结果有负面影响吗?
、
我看到tensorflow在训练和测试中提供了
fp16
的
使用,使用它是否安全,或者它是否会对最终结果产生不利影响?
浏览 49
提问于2017-01-21
得票数 1
回答已采纳
1
回答
openVino nncf压缩框架:推理速度
、
、
我用nncf来检查推理
的
速度。我使用本教程:,并使用存储在其中
的
json文件。我运行它们并检查量化、sparce和prunig。 --data_type
FP16
tiny image set
fp32
: 60.74
浏览 26
提问于2022-06-01
得票数 0
2
回答
张量核
的
第三维空间(如4x4x4)来自哪里?
、
、
、
据我所知,Nvidia张量核将两个4x4矩阵相乘,并将结果加到第三个矩阵
中
。将两个4x4矩阵相乘产生一个4x4矩阵,加上两个4x4矩阵产生一个4x4矩阵。仍然“每个张量
核心
提供一个4x4x4矩阵处理数组”。 每一行都需要4倍
的
乘法-累积运算。我认为最后一个x4可能来自积累之前
的
中间结果,但我认为它不太符合Nvidias页面上
的
描述。“
FP16
乘得到了一个完整
的
精度结果,这个结果是在
FP32
操作
中
与
给定点乘积
中
浏览 9
提问于2022-07-10
得票数 0
回答已采纳
1
回答
GLSL集成函数
、
、
、
、
对于如何在GLSL着色器
中
实现有效
的
积分函数(如SumX和SumY ),有什么建议吗?.+ I(x,vN)
的
积分;v=normalized y坐标 例如,第一行
的
第5个像素将是第一行上所有五个像素
的
总和。最后一个像素是所有先前像素
的
总和,包括最后一个像素本身。
浏览 0
提问于2013-10-15
得票数 6
回答已采纳
1
回答
为什么bfloat16有这么多指数位?
、
、
、
、
很明显,16位浮点格式已经开始被用于机器学习;它降低了存储和
计算
的
成本,而神经网络对数字
的
精确性却出人意料地不敏感。(将脑浮点bfloat16布局
与
IEEE binary16和一些24位格式进行了比较。) 为什么有那么多指数位?为了确保潜流、溢出和NaNs
的
行为相同,bfloat16具有
与
FP32
相同
的
指数大小。然而,bfloat16处理非正常值
的
方式
与
FP32
不同:它将它们刷新为零。
与</
浏览 14
提问于2022-06-02
得票数 4
1
回答
Nvidia Jetson Tx1对抗jetson NANO (基准测试)
、
、
根据
的
说法,我目前正在尝试将Jetson TX1
与
jetson NANO进行基准测试,它们都采用maxwell架构,NANO具有128个cuda内核,TX1具有256个cuda内核。这意味着,通常情况下,Jetson NANO
的
性能将达到TX1
的
一半。mat1[idx] = mat1[idx]*mat2[idx] ; 测试:当TX1 =130ms,Jetson NANO =150ms时,2“大小为15000*15000”
的
浮点数组相乘结果似乎很奇怪,好像我没有使用TX1
的
第
浏览 6
提问于2019-07-09
得票数 3
1
回答
在Keras,Tensorflow中加载训练数据
、
、
、
我使用一台大型机器将完整
的
数据集加载到内存
中
,以便使用以下方法进行培训:(使用我
的
生成器将整个数据加载到x和y张量
中
)我这样做是为了训练得更快,而不用发电机在训练
中
。我有足够
的
RAM来加载这个数据集,但是我得到了以下错误。我不知道为什么在加载数据时使用我
的
GPU。如何更改我
的
方法以避免过度使用GPU内存?下面是我
的<
浏览 5
提问于2020-04-01
得票数 0
1
回答
使用MATLAB
中
的
并行
计算
工具箱,并行代码比顺序代码花费更长
的
时间。为什么?
、
、
、
、
我只是新
与
并行
计算
工具箱
中
的
MATLAB。我有
核心
i3处理器,MATLAB R2011a,2GB内存,320硬盘。ticMN = magic(5);MP = magic(5);MM
ML
MK tocMM = magic(5); % MM is
浏览 3
提问于2013-04-24
得票数 1
1
回答
在Mac和Windows上打开相同
的
.NET
核心
解决方案
、
、
、
、
我注意到在Visual 2015
中
创建
的
.NET
核心
项目
与
使用dotnet new在Mac
中
创建
的
.NET
核心
项目之间
的
差异
。考虑到VS代码显然
与
VS 2015不同,是否可以同时使用Mac和Windows
计算
机在相同
的
.NET
核心
解决方案上工作,或者由于VS 2015需要.sln和.xproj而导致解决方案/项目有根本
的
不同?
浏览 4
提问于2016-07-28
得票数 4
回答已采纳
1
回答
在分类
中
,考试
的
准确性和AUC评分有什么不同?
、
、
我正在进行一个基于分类
的
项目,我根据不同
的
ML
模型
的
训练精度、测试精度、混淆矩阵和AUC评分来评估它们。我现在只能理解我通过
计算
测试集(X_test)上
的
ML
模型
的
准确性而得到
的
分数
与
AUC分数之间
的
差异
。 如果我是对
的
,这两个指标都会
计算
出一个
ML
模型能够预测以前未见过
的
数据
的
正确类别。假设
浏览 7
提问于2020-03-28
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
TensorRT如何加速人脸识别?
NVIDIA深度学习Tensor Core全面解析
NVIDIA Tensor Core深度学习核心解析:全是干货
英伟达深度学习Tensor Core全面解析
英伟达神秘「变形」GPU曝光!5nm工艺,两种形态随心变
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券