核心ML中fp16计算与fp32计算的差异_计算与MySQL中每个唯一ID的上一行的日期差异_用于计算所选列年份的切片器值与列年份中的其余值之间差异的DAX度量 - 腾讯云开发者社区

、、

我想问一下在iPhone (我正在使用的iPhone X和iOS 12 )上如何计算fp16和fp32核心ML模型。我有一个fp32模型，并使用coremltools将其量化为fp16。大小确实减少到fp32大小的一半左右，但预测时间根本没有减少，这一点我不太理解。我已经用Xcode Shader Debugger查看了GPU帧。所有的缓冲区似乎都显示数据是RGBA16Float格式的，所以我想知

浏览 63提问于2019-04-22得票数 2

1回答

FP16，FP32 -怎么回事？还是只是浮点值的位大小(Python)？

、、

Python中的FP16，FP32是怎么回事？我和我的潜在商业伙伴正在为时间序列的工作建立一个深度学习机制。他在寻找GPU时想出了"FP16和FP32“。看起来他说的是16位和32位的浮点值。(我们的数据点看起来如下："5989.12345"，所以我很确定16位还不够。) FP16是GPU用来提高性能的一种特殊技术，还是一个用于使用1

浏览 0提问于2020-04-27得票数 5

4回答

cuda和张量内核的区别是什么？

、、

我对与高性能计算相关的术语完全陌生，但我刚刚看到EC2在亚马逊网络服务上发布了由新的Nvidia Tesla V100驱动的新型实例，它有两种“核心”：Cuda核心(5,120)和张量核心(640)。两者之间的区别是什么？

浏览 106提问于2017-11-17得票数 54

回答已采纳

1回答

Tensorflow/CUDA卷积算法的失配

、

tensorflow/compiler/xla/service/gpu/gpu_conv_algorithm_picker.cc:202] cudnn version: 8.1.1 这是Ubuntu20.04上的一个新构建输入的数据有点大，因此MRE可能很困难。有人知道这个警告是关于什么的吗？

浏览 4提问于2021-06-05得票数 1

回答已采纳

1回答

当使用FP32而不是FP16时，Keras中的Adam优化器可以工作，为什么？

、

我注意到，当使用FP16，mse作为损失函数，adam作为优化器在Keras中训练序列模型时，损失无法计算，我得到了nan值。在使用FP32或使用FP16更改优化器时没有问题(我尝试过adamax和sgd)。是我遗漏了什么，还是adam的实现有什么问题？代码片段可在here中找到

浏览 10提问于2018-12-25得票数 1

回答已采纳

1回答

Three.js中对象的奇怪抖动

、、

我有一个奇怪的问题，这个问题已经困扰了我很长一段时间，这个问题最好通过一个短视频来解释：正如你所看到的，当你移动相机时，场景中的物体会有抖动，但当相机不动时，也会发生类似的事情。这个视频是在TinkerOS的Tinkerboard上拍摄的，但同样的问题也存在于FlintOS的Tinkerboard上。在普通的笔记本电脑上，没有任何问题，一切都很顺利。我不确定这是一个bug，还是看到硬件上的差异<

浏览 5提问于2018-11-20得票数 0

2回答

GLSL半(浮点)属性类型

、

我一直试图得到一个16位浮点(半浮点)作为属性到我的GLSL顶点着色器。它不让我编译说：但是我的#version是410，所以它应该支持一半？我漏掉了什么明显的东西吗？

浏览 1提问于2017-06-16得票数 1

2回答

hub.KerasLayer在tensorflow 2.0中如何使用自动混合精度

、、、

根据的说法，我尝试在tensorflow 2.0中使用keras风格的自动混合精度(AMP)。这是我的代码：当我将策略更改为float32时，几个print提供了以下信息(日志的其他部分与mixed_float16策略在其他自定义层中工作，例如，名为"logits“的密集层，因为它的</e

浏览 2提问于2020-01-05得票数 2

1回答

一个CUDA核心可以处理一个以上的浮点指令每个时钟(麦克斯韦)？

-有这样的文字： 1664个核心* 1050 MHz * 2 =3494 GFlops峰值(3494 400 MFlops) 128 <

浏览 2提问于2015-10-02得票数 5

回答已采纳

1回答

Azure NCv3和NC T4_v3有什么区别？

、

尽管有一种解释"The NC 3-系列和NC T4 _v3系列的尺寸是为计算密集型的GPU加速应用程序优化的，一些例子是基于CUDA和基于OpenCL的应用程序和仿真、人工智能和深度学习。NC T4 v3-系列的重点是基于NVIDIA的Tesla T4 GPU和AMD EPYC2罗马处理器的推理工作负载。NC 3系列专注于高性能计算和以NVIDIA的NC U.为特色的AI工作负载。

浏览 5提问于2022-10-14得票数 0

2回答

在深度学习中使用Fp16对最终结果有负面影响吗？

、

我看到tensorflow在训练和测试中提供了fp16的使用，使用它是否安全，或者它是否会对最终结果产生不利影响？

浏览 49提问于2017-01-21得票数 1

回答已采纳

1回答

openVino nncf压缩框架:推理速度

、、

我用nncf来检查推理的速度。我使用本教程：，并使用存储在其中的json文件。我运行它们并检查量化、sparce和prunig。 --data_type FP16tiny image set fp32 : 60.74

浏览 26提问于2022-06-01得票数 0

2回答

张量核的第三维空间(如4x4x4)来自哪里？

、、、

据我所知，Nvidia张量核将两个4x4矩阵相乘，并将结果加到第三个矩阵中。将两个4x4矩阵相乘产生一个4x4矩阵，加上两个4x4矩阵产生一个4x4矩阵。仍然“每个张量核心提供一个4x4x4矩阵处理数组”。每一行都需要4倍的乘法-累积运算。我认为最后一个x4可能来自积累之前的中间结果，但我认为它不太符合Nvidias页面上的描述。“FP16乘得到了一个完整的精度结果，这个结果是在FP32操作中与给定点乘积中

浏览 9提问于2022-07-10得票数 0

回答已采纳

1回答

GLSL集成函数

、、、、

对于如何在GLSL着色器中实现有效的积分函数(如SumX和SumY )，有什么建议吗？.+ I(x，vN)的积分；v=normalized y坐标例如，第一行的第5个像素将是第一行上所有五个像素的总和。最后一个像素是所有先前像素的总和，包括最后一个像素本身。

浏览 0提问于2013-10-15得票数 6

回答已采纳

1回答

为什么bfloat16有这么多指数位？

、、、、

很明显，16位浮点格式已经开始被用于机器学习；它降低了存储和计算的成本，而神经网络对数字的精确性却出人意料地不敏感。(将脑浮点bfloat16布局与IEEE binary16和一些24位格式进行了比较。) 为什么有那么多指数位？为了确保潜流、溢出和NaNs的行为相同，bfloat16具有与FP32相同的指数大小。然而，bfloat16处理非正常值的方式与FP32不同:它将它们刷新为零。与</

浏览 14提问于2022-06-02得票数 4

1回答

Nvidia Jetson Tx1对抗jetson NANO (基准测试)

、、

根据的说法，我目前正在尝试将Jetson TX1与jetson NANO进行基准测试，它们都采用maxwell架构，NANO具有128个cuda内核，TX1具有256个cuda内核。这意味着，通常情况下，Jetson NANO的性能将达到TX1的一半。mat1[idx] = mat1[idx]*mat2[idx] ; 测试:当TX1 =130ms，Jetson NANO =150ms时，2“大小为15000*15000”的浮点数组相乘结果似乎很奇怪，好像我没有使用TX1的第

浏览 6提问于2019-07-09得票数 3

1回答

在Keras，Tensorflow中加载训练数据

、、、

我使用一台大型机器将完整的数据集加载到内存中，以便使用以下方法进行培训：(使用我的生成器将整个数据加载到x和y张量中)我这样做是为了训练得更快，而不用发电机在训练中。我有足够的RAM来加载这个数据集，但是我得到了以下错误。我不知道为什么在加载数据时使用我的GPU。如何更改我的方法以避免过度使用GPU内存？下面是我的<

浏览 5提问于2020-04-01得票数 0

1回答

使用MATLAB中的并行计算工具箱，并行代码比顺序代码花费更长的时间。为什么？

、、、、

我只是新与并行计算工具箱中的MATLAB。我有核心i3处理器，MATLAB R2011a，2GB内存，320硬盘。ticMN = magic(5);MP = magic(5);MMMLMK tocMM = magic(5); % MM is

浏览 3提问于2013-04-24得票数 1

1回答

在Mac和Windows上打开相同的.NET核心解决方案

、、、、

我注意到在Visual 2015中创建的.NET核心项目与使用dotnet new在Mac中创建的.NET核心项目之间的差异。考虑到VS代码显然与VS 2015不同，是否可以同时使用Mac和Windows计算机在相同的.NET核心解决方案上工作，或者由于VS 2015需要.sln和.xproj而导致解决方案/项目有根本的不同？

浏览 4提问于2016-07-28得票数 4

回答已采纳

1回答

在分类中，考试的准确性和AUC评分有什么不同？

、、

我正在进行一个基于分类的项目，我根据不同的ML模型的训练精度、测试精度、混淆矩阵和AUC评分来评估它们。我现在只能理解我通过计算测试集(X_test)上的ML模型的准确性而得到的分数与AUC分数之间的差异。如果我是对的，这两个指标都会计算出一个ML模型能够预测以前未见过的数据的正确类别。假设

浏览 7提问于2020-03-28得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云