开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么Tensorflow GPU在创建模型和训练模型时比CPU版本要慢得多？

TensorFlow GPU在创建模型和训练模型时比CPU版本要慢得多的原因主要有以下几点：

并行计算能力：GPU（图形处理器）相比于CPU（中央处理器）具有更强大的并行计算能力。GPU拥有大量的计算核心，可以同时执行多个计算任务，而CPU的计算核心数量相对较少。在深度学习模型的训练过程中，涉及大量的矩阵运算和张量操作，这些操作可以被高效地并行计算，从而加快模型训练速度。
浮点运算性能：GPU在浮点运算方面的性能远远超过CPU。深度学习模型中的大部分计算都是浮点运算，而GPU在浮点运算方面具有更高的吞吐量和更低的延迟，能够更快地完成计算任务。
内存带宽：GPU拥有更高的内存带宽，可以更快地读取和写入数据。在深度学习模型的训练过程中，需要频繁地读取和写入大量的数据，GPU的高内存带宽可以显著提升数据传输速度，从而加快模型训练速度。
深度学习框架优化：TensorFlow是一个针对深度学习任务进行优化的开源框架，其GPU版本针对GPU硬件进行了优化，利用了GPU的并行计算能力和浮点运算性能，从而提高了模型训练的效率。相比之下，CPU版本的TensorFlow主要针对CPU硬件进行了优化，无法充分发挥GPU的计算能力。

综上所述，TensorFlow GPU在创建模型和训练模型时比CPU版本要慢得多的原因是因为GPU具有更强大的并行计算能力、更高的浮点运算性能和更高的内存带宽，并且TensorFlow GPU版本针对GPU硬件进行了优化，能够更高效地执行深度学习任务。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

评测 | 云CPU上的TensorFlow基准测试：优于云GPU的深度学习

我曾试为了省钱，试过在廉价的 CPU 而不是 GPU 上训练我的深度学习模型，出乎意料的是，这只比在 GPU 上训练略慢一些。...如果在 64 vCPU 上的模型训练速度与 GPU 版本差不多（或者就略慢那么一点），那么用 CPU 来代替 GPU 就是划算的。...为了支持最新的 TensorFlow (1.2.1)，我重建了 the Docker container，并且创建了 CPU 版本的容器，而不是只安装对应 CPU 版本的 TensorFlow。...此处有个值得注意的 CPU 版本 TensorFlow 特有的现象；如果你是从 pip 安装（按照 official instructions 和教程推荐的方法）并开始用 TensorFlow 训练你的模型...32 个 vCPU 和 64 个 vCPU 之间的性能差异不大，编译过的 TensorFlow 库在训练速度上确实有重大提升，但只有 8 和 16 个 vCPU 时才这样。

2K6 0

更快的iOS和macOS神经网络

iPhone和iPad根本没有这种计算能力。 MobileNet架构旨在在移动设备上高效运行。它使用“仅”最多400万个参数，这比VGG的130M参数和ResNet50的25M参数要少得多。...该模型在Pascal VOC数据集上进行了20个等级的培训。如您所见，分割比其他任务慢很多！...TensorFlow目前不是GPU加速的，Core ML往往比手动优化的Metal模型慢。...由于它仍处于测试阶段，因此Core ML 2的报告结果可能比最终版本慢。是的，我也不敢相信：Core ML真的要慢得多。...这些脚本从TensorFlow，Keras，Caffe等读取经过训练的模型，并转换权重，以便将它们加载到模型的Metal版本中。

1.4K2 0

教程 | 从硬件配置、软件安装到基准测试，1700美元深度学习机器构建指南

更多的存储空间能让我们部署更大的模型，并且在训练时使用足够大的批量大小（这会对梯度流很有帮助）。存储带宽：这能让 GPU 在更大的内存上运行。...如果你的没有，要确保在 CPU 和冷却单元之间加一些胶。如果你把风扇拿下来了，也要把胶更换掉。在机箱里安装电源 ?...该模型将数据训练了 20 个 epoch 之后，准确率达到了 98%。 ? 训练该模型时，GTX 1080 Ti 比 AWS P2 的 K80 要快 2.4 倍。...它分离和重组任意图像的内容和样式，为艺术图像的创建提供了一种新算法。 ? GTX 1080Ti 比 AWS P2 K80 快了 4.3 倍。...这次 CPU 比 GPU 慢了 30-50 倍，已经比在 VGG 任务中的表现好多了，但仍然比 MNIST 多层感知机实验结果慢。

1.2K5 0

一万元搭建深度学习系统：硬件、软件安装教程，以及性能测试

可以看到在训练这个模型时，GTX 1080 Ti比AWS P2 K80快2.4倍，这有点惊人，因为两个显卡的性能应该差不多，我觉得可能是AWS上有降频或者受到虚拟化的影响。...CPU的表现比GPU慢9倍。有趣的是，i5 7500比亚马逊的虚拟CPU快2.3倍。 VGG微调为Kaggle猫狗识别竞赛而微调一个VGG网络。...使用相同的batch在CPU上运行这个模型不可行，所以我们在GPU上微调了390个batch，在CPU上是10个batch。...这次1080 Ti比AWS P2 K80快5.5倍。CPU在这个环节的表现，最多慢了200倍。 Wasserstein GAN 生成对抗网络（GAN）用来训练模型产生图像。...GTX 1080 Ti比AWS P2 K80快4.3倍。CPU比GPU慢30-50倍。好啦，关于万元打造一个深度学习系统的分享，就先到这里。

1.1K4 1

一万元搭建深度学习系统：硬件、软件安装教程，以及性能测试

可以看到在训练这个模型时，GTX 1080 Ti比AWS P2 K80快2.4倍，这有点惊人，因为两个显卡的性能应该差不多，我觉得可能是AWS上有降频或者受到虚拟化的影响。...CPU的表现比GPU慢9倍。有趣的是，i5 7500比亚马逊的虚拟CPU快2.3倍。 VGG微调为Kaggle猫狗识别竞赛而微调一个VGG网络。...使用相同的batch在CPU上运行这个模型不可行，所以我们在GPU上微调了390个batch，在CPU上是10个batch。...这次1080 Ti比AWS P2 K80快5.5倍。CPU在这个环节的表现，最多慢了200倍。 Wasserstein GAN 生成对抗网络（GAN）用来训练模型产生图像。...GTX 1080 Ti比AWS P2 K80快4.3倍。CPU比GPU慢30-50倍。好啦，关于万元打造一个深度学习系统的分享，就先到这里。各位端午节快乐。

1.2K5 0

一万元搭建深度学习系统：硬件、软件安装教程，以及性能测试

CPU 虽然比不上GPU，但CPU也很重要。从预算出发，我选了一颗中端产品英特尔i5 7500。相对便宜，但不会拖慢整个系统。内存两条16GB容量的内存，总共是32GB。硬盘两块。...可以看到在训练这个模型时，GTX 1080 Ti比AWS P2 K80快2.4倍，这有点惊人，因为两个显卡的性能应该差不多，我觉得可能是AWS上有降频或者受到虚拟化的影响。...CPU的表现比GPU慢9倍。有趣的是，i5 7500比亚马逊的虚拟CPU快2.3倍。 VGG微调为Kaggle猫狗识别竞赛而微调一个VGG网络。...使用相同的batch在CPU上运行这个模型不可行，所以我们在GPU上微调了390个batch，在CPU上是10个batch。...CPU比GPU慢30-50倍。好啦，关于万元打造一个深度学习系统的分享，就先到这里。

1.1K6 0

《Scikit-Learn、Keras与TensorFlow机器学习实用指南（第二版）》第19章规模化训练和部署TensorFlow模型

你还需要安装GPU版本的TensorFlow（即，tensorflow-gpu库）；但是，趋势是将CPU版本和GPU版本合二为一，所以记得查看文档。...默认下，所有变量和运算会安置在第一块GPU上（/gpu:0），除了没有GPU核的变量和运算：这些要放到CPU上（/cpu:0）。...但是，在某些情况下，你可能只想用CPU；例如，如果程序可以在CPU和GPU上运行，可以让TensorFlow在只有CPU的机器上忽略tf.device("/gpu:*")。...fit()方法，可以自动对所有模型复制分割训练批次，所以批次大小要可以被模型复制的数量整除。就是这样。比用一个GPU，这么训练会快很多，而且代码变动很少。...什么是伪量化训练，有什么用？什么是模型并行和数据并行？为什么推荐后者？在多台服务器上训练模型时，可以使用什么分布策略？如何进行选择？

6.7K2 0

云原生分布式深度学习初探

1 为什么需要分布式深度学习两大最主要的原因：数据量在爆炸式增长。模型复杂度不断增加。大规模数据以及大型的神经网络结合在很多机器学习的任务上带来了超凡的表现。...根据实验，基于NVCaffee进行训练，训练AlexNet模型，打满一块Tesla P100 GPU需要消耗-12CPU核，训练ResNet-18，打满P100需要消耗-7CPU核。...2.4 新型加速技术的应用机器学习有三方面内容要解决：计算、通信、存储。目前存储还不是什么瓶颈，大家都在考虑计算和通信。...这一特性使得Horovod可以非常方便地与主流深度学习框架TensorFlow、PyTorch、 MXNet等进行匹配（在Tensorflow上使用最多），在大规模GPU集群上的训练性能远高于原生框架的训练性能...3.4 Horovod相对优势优势主要在性能方面，由Benchmark图可以看出相较于分布式TensorFlow，Horovod在通等硬件配置下，的确性能高得多，甚至逼近了理论理想峰值。

1.6K32 10

在几分钟内构建强大的可用于生产的深度学习视觉模型

考虑到深度学习模型需要大量资源并且经常需要大量计算的事实，因此我们需要暂停片刻，并考虑一下最终用户使用模型时的推断和服务时间。在进行原型设计时，需要对静态批次的数据进行训练和执行模型推断。...通过CPU推论服务模型使用Docker服务模型进行GPU推理奖励：使用Flask和TensorFlow服务构建服装分类器API 什么是服务？...这将在定义明确的目录层次结构中创建一个protobuf文件，并且还将包含如下所示的版本号。 ? TensorFlow Serving允许我们选择在进行推理请求时要使用的模型版本或“可服务”版本。...如果要自定义要提供的模型数量和其他高级配置，需要设置一个模型服务配置文件。配置文件很简单，并存储在中的以下代码段中进行了描述models.conf。...模型预热在生产和提供模型时，需要记住的重要一点是，TensorFlow运行时具有延迟初始化的组件，这可能导致加载后发送给模型的第一个请求的延迟较高。此延迟可能比单个推理请求的延迟高几个数量级。

1.3K3 0

最新千元边缘AI芯片比拼：谷歌Coral和英伟达Jetson谁更厉害？

Sam使用MobileNetV2作为分类器，在imagenet数据集上进行预训练，直接从Keras使用这个模型，后端则使用TensorFlow。...使用GPU的浮点权重，以及CPU和Coral Edge TPU的8bit量化tflite版本。首先，加载模型以及一张喜鹊图像。...总结为什么GPU没有8位模型？ GPU本质上被设计为细粒度并行浮点计算器。...它曾经是不同版本的MobileNet和Inception，截至上周末，谷歌推出了一个更新，允许我们编译自定义TensorFlow Lite模型。但仅限于TensorFlow Lite模型。...Raspberry Pi + Coral与其他人相比为什么连接到Raspberry Pi时Coral看起来要慢得多？因为Raspberry Pi只有USB 2.0端口。

1.4K2 0

谷歌TPU2代有望取代英伟达GPU？测评结果显示…

这种方法比英伟达的推荐的TensorFlow实现要快得多，只比MXNet实现稍微慢一点(约3%)。这样一来，也更容易在相同版本中用同一个框架的实现做对比。 ?...也正如上面所说的那样，在上述batch size下，MXNet的实现在多个GPU上并没有很好聚合。所以，我们接下来研究的重点就是这就是为什么我们将重点就是TensorFlow的实现。...不过，因为AWS上像CPU、内存、NVLink支持等硬件类型也各不同，如果要更直接的对比，就需要更多的参考数据。...TPU实现的收敛表现更好，最后到第86次训练时，准确率可以达到76.4%。 GPU的表现就被甩在了后面，第84次训练后达到了75.7%的准确率，而TPU早在第64次训练时就达到了这个水平。...总结按我们上述的衡量标准来看，在ResNet-50模型的原始表现上，4块TPU2芯片和4块V100GPU是速度相同。

6852 0

从硬件配置到框架选择，请以这种姿势入坑深度学习

（其中包含硬件、软件、环境与数据）在本文中，让我们将这些问题一并解决。你需要的硬件我们要感谢游戏行业从收益来看，视频游戏行业比电影和音乐行业加起来还要大。...GPU 行业的发展是神经网络比几十年前更加强大的重要原因之一。大部分情况下不使用 GPU 训练深度学习模型会非常慢。 ?...以下是几个要点：在生产中进行训练的情况非常少见。即使你想每天都更新模型权重，也无需在生产中进行训练。这是一个好消息！因为这样你只需要在生产中进行推断（模型中的前向传递）就行了，比训练更快也更简单。...我们推荐在生产中使用 CPU，你可以按需要添加更多 CPU（比使用多个 GPU 简单一些）。大公司在生产过程中使用 GPU 可能有意义，等你到那个规模时就知道了。...迁移学习（数据增强技术相关）使人们可以在小型数据集上使用预训练的模型。

6806 0

TensorFlow引入了动态图机制Eager Execution

此处我们要提的模型可以通过创建一个简单的两层网络对标准的 MNIST 手写数字进行分类。...使用 Eager 和 Graphs Eager execution 使开发和调试互动性更强，但是 TensorFlow graph 在分布式训练、性能优化和生产部署中也有很多优势。...，比 PyTorch 慢 2-5 倍。...在批尺寸=60k，I-BFGS 的 history=5 时，大量的计算效能都被花在了自编码器正向传播上，Eager 的版本要比 PyTorch 慢 1.4 倍。 ?...在批尺寸为 60k，I-BFGS 的 history=100 的设置下，两个回环在每一步 I-BFGS（点积和向量增加）中执行「两步递归」，Eager 版本的模型速度降低了 2.5 倍，而 PyTorch

1.9K11 0

Intel为什么强调NVIDIA Tensor Core GPU非常适合推理

在计算机视觉方面，如下表所示，当比较相同数量的处理器时，NVIDIA T4速度更快，省电7倍，价格也便宜得多。NVIDIA V100是为人工智能训练而设计的，在推理方面比cpu快两倍，节能两倍。...在像BERT这样的高级模型上，单台NVIDIA T4 GPU的速度比双插槽CPU服务器快59x，而且更省电240x。表2:BERT推理。工作负载:对BERT大数据集进行微调推理。...NCF模型是MLPerf 0.5训练基准的一部分，在NCF模型上运行推断时，NVIDIA T4带来的性能是cpu的10倍，能源效率是cpu的20倍。...表3:NCF上的推理 CPU服务器:单插槽Xeon Gold 6240@2.6GHz;内存384 gb的系统;使用Intel的TF Docker容器版本1.13.1在TensorFlow上为NCF使用Intel...统一的人工智能训练和推理平台在应用程序中使用AI模型是一个迭代过程，旨在不断提高它们的性能。数据科学家团队不断用新的数据和算法更新他们的模型，以提高准确性。然后开发人员在应用程序中更新这些模型。

3K2 0

文末福利 | 深度学习框架Keras与Pytorch对比

但是在选择Keras和Pytorch时，你应该记住它们的几个方面。 (1)定义模型的类与函数为了定义深度学习模型，Keras提供了函数式API。...如果你需要实现一些自定义的东西，那么在TF张量和Numpy数组之间来回切换可能会很麻烦，这要求开发人员对TensorFlow会话有一个较好的理解。 Pytorch的互操作实际上要简单得多。...(4)控制CPU与GPU模式的比较如果你已经安装了tensorflow-gpu，那么在Keras中使用GPU是默认启用和完成的。如果希望将某些操作转移到CPU，可以使用以下代码。...这将使代码变得混乱，如果你在CPU和GPU之间来回移动以执行不同的操作，则很容易出错。...在Keras上实现反而会有一些额外的工作量，虽然不多，但这会拖慢你的进度。使用pytorch能够快速地实现、训练和测试你的网络，并附带易于调试的额外好处!

1.7K2 0

深度学习框架机器学习的开源库TensorFlow

开发人员可以创建 TensorFlow 服务器集群，将计算图分布到这些集群上来进行训练。...在使用此方法时，开发人员需要移植、剖析和调优获得的代码。 GPU TensorFlow 支持一些特定的 NVIDIA GPU，这些 GPU 兼容满足特定性能标准的相关 CUDA 工具包版本。...TPU 依据 Google 的报道，基于 TPU 的图计算性能比在 CPU 或 GPU 上高 15-30 倍，而且非常节能。...基于 CPU、芯片集、管理程序和操作系统的特定组合，直通方法的开销可能会有所不同。通常，对于最新一代的硬件，开销要低得多。一种给定的管理程序-操作系统组合仅支持特定的 NVIDIA GPU 卡。...因此，Keras 为 TensorFlow 创建了一个优秀的模型定义插件。开发人员甚至可以同时使用 Keras 和其他 TensorFlow 库。

1.2K1 0

比谷歌快46倍！GPU助力IBM Snap ML，40亿样本训练模型仅需91.5 秒

在节点上，数据在CPU和GPU并行运行的主CPU和加速GPU之间分离 3....IBM的这个机器学习库提供非常快的训练速度，可以在现代CPU / GPU计算系统上训练流主流的机器学习模型，也可用于培训模型以发现新的有趣模式，或者在有新数据可用时重新训练现有模型，以保持速度在线速水平...文章称，采用NVLink 2.0接口的AC922服务器，比采用其Tesla GPU的PCIe接口的Xeon服务器（Xeon Gold 6150 CPU @ 2.70GHz）要更快，PCIe接口是特斯拉GPU...训练数据被发送到GPU，并在那里被处理。NVLink系统以比PCIe系统快得多的速度向GPU发送数据块，时间为55ms，而不是318ms。...因此也不能说，在相同的硬件配置上运行两个suckers之前，Snap ML比TensorFlow好得多。

1.1K10 0

和TensorFlow一样，英伟达CUDA的垄断格局将被打破？

大型模型训练 / 推理中的大部分时间都没有花在计算矩阵乘法上，而是在等待数据传输。显然，问题在于为什么架构师不将更多内存放在更靠近计算的位置，问题的答案也是可想而知的 —— 成本。...内存容量不足以容纳 100B+ 参数模型的权重。英伟达设计的芯片片上内存容量要少得多 ——A100 有 40MB，H100 有 50MB。...DRAM 的延迟比 SRAM 高一个数量级（约 100nsVS10ns），但它也便宜得多。几十年来，DRAM 一直遵循着摩尔定律。戈登摩尔创造这个词时，英特尔的主要业务就是 DRAM。...这种优化通常涉及编写自定义 CUDA 内核，但这比使用简单的 Python 脚本要难得多。...PyTorch 2.0 在英伟达 A100 上的训练性能提升了 86%，在 CPU 上的推理性能提升了 26%。这大大减少了训练模型所需的计算时间和成本。

9761 0

使用 TFLite 在移动设备上优化与部署风格转化模型

在将 TensorFlow 模型转换为 TensorFlow Lite 时，我们只需提供一小部分训练数据集即可。...和 GPU 上都能达到最佳性能，我们创建了针对每种芯片进行了优化的两组 TensorFlow Lite 模型。...GPU 通常能比 CPU 达到更好的性能，但 GPU 目前仅支持浮点模型，获得的模型 size 比经 int8 量化的模型稍大。以下是 int8 和 float16 模型的表现： ?...此外，在使用 GPU delegate 运行模型时，TF Lite 解释器初始化、GPU 代理初始化和推理必须在同一线程上运行。...TensorFlow Hub 中提供了 float16（预测网络、转换网络）和 int8 量化版本（预测网络、转换网络）两种模型版本。我们迫不及待地想要看看您的作品！不要忘了与我们分享您的创作。

1.7K2 0

PyTorch&TensorFlow跑分对决：哪个平台运行NLP模型推理更快

PyTorch和TensorFlow究竟哪个更快？下面用详细评测的数据告诉你。运行环境作者在PyTorch 1.3.0、TenserFlow2.0上分别对CPU和GPU的推理性能进行了测试。...与PyTorch相比，TensorFlow在CPU上通常要慢一些，但在GPU上要快一些：在CPU上，PyTorch的平均推理时间为0.748s，而TensorFlow的平均推理时间为0.823s。...当输入太大时，PyTorch会出现内存不足的情况。作者把这些部分从结果中删除，因此这会使结果偏向PyTorch。总的来说，PyTorch模型比TensorFlow模型更容易耗尽内存。...TorchScript是PyTorch创建可序列化模型的方法，让模型可以在不同的环境中运行，而无需Python依赖项，例如C++环境。...作者仅在基于TensorFlow的自动聚类功能的GPU上使用它，这项功能可编译一些模型的子图。结果显示：启用XLA提高了速度和内存使用率，所有模型的性能都有提高。

9071 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭