为什么tensorflow比模型文件占用更多的GPU RAM？ - 腾讯云开发者社区

在本系列的上一篇博客文章中，我们探索了将GPU用于数据科学工作流的好处，并演示了如何在Cloudera Machine Learning（CML）中设置会话以访问NVIDIA GPU来加速机器学习项目。尽管将GPU用于复杂和大型任务的省时潜力巨大，但设置这些环境和任务（例如整理NVIDIA驱动程序，管理CUDA版本以及为特定项目需求部署自定义引擎）可能既耗时又充满挑战。为了简化这些流程，并使数据科学家更快地在ML用例上工作，我们简化了在CML中本地配置和利用NVIDIA GPU的工作。在接下来的部分中，我们将为您提供三种简单的方法，使数据科学团队可以开始使用GPU来为CML中的深度学习模型提供支持。

《Scikit-Learn与TensorFlow机器学习实用指南》第12章设备和服务器上的分布式 TensorFlow

在第 11 章，我们讨论了几种可以明显加速训练的技术：更好的权重初始化，批量标准化，复杂的优化器等等。但是，即使采用了所有这些技术，在具有单个 CPU 的单台机器上训练大型神经网络可能需要几天甚至几周的时间。

您找到你想要的搜索结果了吗？

是的

没有找到

keras系列︱keras是如何指定显卡且限制显存用量（GPU/CPU使用）

有赞算法平台之模型部署演进

模型部署作为算法工程落地的最后一公里，其天然对算法团队而言具有较高的复杂性，不仅要考虑如何高效地部署、管理不同框架模型，还需要考虑分布式服务的负载均衡、故障容错、可扩展性、资源隔离、限流、核心指标监控等问题。这些都极大的依赖于工程团队的能力，不是算法团队的强项，如何解决这最后一公里，让焦点聚焦在模型开发上，是模型部署服务模块需要解决的问题。

PyTorch还是TensorFlow？这有一份新手指南

问耕编译整理量子位出品 | 公众号 QbitAI 前几天，量子位发过一篇《忽悠VC指南》。其中有一条建议是，当你假装AI专家时，最好别谈众人皆知的TensorFlow，那谈什么？ PyTorch

深度 | PyTorch和TensorFlow哪家强：九项对比读懂各自长项短板

选自GitHub 作者：Awni Hannun 机器之心编译参与：Panda 现在是各种机器学习框架群雄争霸的时代，各种各样的比较文章也层出不穷。近日，斯坦福大学计算机科学系博士生 Awni Hannun 也发表了一篇文章，谈了自己对 PyTorch 和 TensorFlow 这两大明星框架的心得体验，并在不同的方面对这两者进行了比较，机器之心对本文进行了编译介绍。这篇指南主要介绍了我找到的 PyTorch 和 TensorFlow 之间的不同之处。这篇文章的目的是帮助那些想要开始一个新项目或从一种深度

PyTorch和TensorFlow哪家强：九项对比读懂各自长项短板

近日，斯坦福大学计算机科学系博士生 Awni Hannun 也发表了一篇文章，谈了自己对 PyTorch 和 TensorFlow 这两大明星框架的心得体验，并在不同的方面对这两者进行了比较，我们对本

横扫各项NLP任务的BERT模型有了PyTorch实现！提供转换脚本

上周，谷歌最强NLP模型BERT开源了官方TensorFlow代码和预训练模型，引起大量关注。

深度学习框架机器学习的开源库TensorFlow

在机器学习的领域中，张量指的是描述神经网络的数学模型中使用的多维数组。换言之，张量通常是一个矩阵或矢量的更高维泛化。通过一种使用秩来显示维数的简单表示法，张量可以将复杂的 n 维矢量和超形状表示为 n 维数组。张量有两个属性：数据类型和形状。关于 TensorFlow TensorFlow 是一个开源的深度学习框架，于 2015 年末依据 Apache 2.0 许可进行发布。自那以后，它成为了在全球得到最广泛采用的深度学习框架之一（根据它的 GitHub 项目数量来判断）。 TensorFlow 的起源

《Scikit-Learn、Keras与TensorFlow机器学习实用指南（第二版）》第19章规模化训练和部署TensorFlow模型

有了能做出惊人预测的模型之后，要做什么呢？当然是部署生产了。这只要用模型运行一批数据就成，可能需要写一个脚本让模型每夜都跑着。但是，现实通常会更复杂。系统基础组件都可能需要这个模型用于实时数据，这种情况需要将模型包装成网络服务：这样的话，任何组件都可以通过REST API询问模型。随着时间的推移，你需要用新数据重新训练模型，更新生产版本。必须处理好模型版本，平稳地过渡到新版本，碰到问题的话需要回滚，也许要并行运行多个版本做AB测试。如果产品很成功，你的服务可能每秒会有大量查询，系统必须提升负载能力。提升负载能力的方法之一，是使用TF Serving，通过自己的硬件或通过云服务，比如Google Cloud API平台。TF Serving能高效服务化模型，优雅处理模型过渡，等等。如果使用云平台，还能获得其它功能，比如强大的监督工具。

如何分分钟构建强大又好用的深度学习环境？

多亏了更快更好的计算，我们终于能利用神经网络和深度学习真正的力量了，这都得益于更快更好的 CPU 和 GPU。无论我们喜不喜欢，传统的统计学和机器学习模型在处理高维的、非结构化数据、更复杂和大量数据的问题上存在很大的局限性。深度学习的好处在于，在构建解决方案时，我们有更好的计算力、更多数据和各种易于使用的开源框架，比如 keras、TensorFlow 以及 PyTorch。深度学习的坏处是什么呢？从头开始构建你自己的深度学习环境是很痛苦的事，尤其是当你迫不及待要开始写代码和实现自己的深度学习模型的时候。

Github项目推荐 | DoodleNet - 用Quickdraw数据集训练的CNN涂鸦分类器

DoodleNet 是一个涂鸦分类器（CNN），对来自Quickdraw数据集的所有345个类别进行了训练。

教程 | 从硬件配置、软件安装到基准测试，1700美元深度学习机器构建指南

选自Medium 作者：Slav 机器之心编译参与：Quantum Cheese、Lj Linjing、蒋思源在用了十年的 MacBook Airs 和云服务以后，我现在要搭建一个（笔记本）桌面了几年时间里我都在用越来越薄的 MacBooks 来搭载一个瘦客户端（thin client），并已经觉得习以为常了。所以当我涉入深度学习（DL）领域后，我毫不犹豫的选择了当时最新的 Amazon P2 云服务。该云服务不需要预付成本，能同时训练很多个模型，并且还能让一个机器学习模型慢慢地训练自己。但随着时

英伟达RTX 2080 Ti值得买么？深度学习测试来了！

美国人工智能公司Lambda用TensorFlow测试了RTX 2080 Ti。相比1080 Ti， 2080 Ti值得买么？

2万元「煤气灶」Titan RTX做深度学习？机器之心为读者们做了个评测

2018 年 12 月，英伟达在加拿大蒙特利尔 NeurIPS 大会上发布最新款产品 Titan RTX，作为 2017 年 Titan V 的「继承者」，Titan RTX 价格更低，显存更大，性能更强，且使用图灵架构，具备强大的光线追踪能力。因此，Titan RTX 的发布对 AI 社区而言，是不是做深度学习的一个不错选择呢？

零基础小白使用GPU云服务器（以Windows系统为例）搭建自己的深度学习环境

最近导师安排了一个论文模型复现的工作，奈何硬件条件不够，只能到处搜罗免费的GPU资源，过上了白嫖百家GPU资源的日子，这时候刚好遇见了腾讯的GPU云服务器体验活动，可谓是久旱逢甘霖。作为一名零基础小白，现将自己使用GPU云服务器（以Windows系统为例）搭建自己的深度学习环境的过程记录下来，方便大家参考。

TensorFlow必知基础知识

TensorFlow概要 Google第一代分布式机器学习框架DistBelief１，在内部大规模使用后并没有选择开源。而后第二代分布式机器学习系统TensorFlow２终于选择于2015年11月在GitHub上开源，且在2016年4月补充了分布式版本，并于2017年1月发布了1.0版本的预览，API接口趋于稳定。目前TensorFlow仍处于快速开发迭代中，有大量新功能及性能优化在持续研发。TensorFlow最早由Google Brain的研究员和工程师开发，设计初衷是加速机器学习的研究，并快速地

开发 | 用PyTorch还是TensorFlow？斯坦福大学CS博士生带来全面解答

AI 科技评论按：关于深度学习的框架之争一直没有停止过。PyTorch，TensorFlow，Caffe还是Keras ？近日，斯坦福大学计算机科学博士生Awni Hannun就发表了一篇文章，对比当前两个主流框架PyTorch和TensorFlow。 AI 科技评论编译如下：这篇指南是我目前发现的PyTorch和TensorFlow之间的主要差异。写这篇文章的目的是想帮助那些想要开始新项目或者转换深度学习框架的人进行选择。文中重点考虑训练和部署深度学习堆栈组件时框架的可编程性和灵活性。我不会权衡速度、

【代码+教程】重现“世界模型”实验，无监督方式快速训练

新智元编译来源：blog.otoro.net 作者：David Ha 编译：肖琴【新智元导读】“世界模型”（World Models）是谷歌大脑研究科学家 David Ha 和 Swiss A

AI 技术讲座精选：数学不好，也可以学习人工智能（三）

【AI100 导读】学习人工智能到底要不要学好数学，这俨然已经成了一个争议话题了？之前 AI100 刊发了本系列的前两篇文章，也发表了作者子白的《放弃幻想，搞 AI 必须过数学关》，不知你是否有自己的

017

建立智能的解决方案：将TensorFlow用于声音分类

对于人类的语音识别，目前有很多不同的项目和服务，像Pocketsphinx，谷歌的语音API，以及其他等等。这样的应用程序和服务能够以一种很不错的质量识别语音然后转换成文本，但没有一个能够对麦克风所捕

业界 | iPhone上也能运行AI模型，瞧瞧别人家的程序员是怎么用Core ML的

第一台iPhone发布于2007年，而机器学习这一概念更是在第一台iPhone发布的十年前就已经出现。但这两者碰撞出火花，则是在最近几年才出现的事情。

训练好的深度学习模型原来这样部署的！（干货满满，收藏慢慢看）

当我们辛苦收集数据、数据清洗、搭建环境、训练模型、模型评估测试后，终于可以应用到具体场景，但是，突然发现不知道怎么调用自己的模型，更不清楚怎么去部署模型！

1使用accelerate

虽然这对常规大小的模型来说非常有效，但当我们处理一个巨大的模型时，这个工作流程有一些明显的局限性：在第1步，我们在RAM中加载一个完整版本的模型，并花一些时间随机初始化权重（这将在第3步被丢弃）。在第2步，我们在RAM中加载另一个完整版本的模型，并使用预训练的权重。如果你正在加载一个具有60亿个参数的模型，这意味着你需要为每个模型的副本提供24GB的RAM，所以总共需要48GB（其中一半用于在FP16中加载模型）。

如何在Ubuntu 16.04上安装和使用TensorFlow

TensorFlow是一款由Google构建的用于训练神经网络的开源机器学习软件。TensorFlow的神经网络以有状态数据流图的形式表示。图中的每个节点表示神经网络在多维阵列上执行的操作。这些多维数组通常称为“张量”，因此称为TensorFlow。

微博深度学习平台架构和实践

作者 | 黄波，何沧平责编 | 何永灿随着人工神经网络算法的成熟、GPU计算能力的提升，深度学习在众多领域都取得了重大突破。本文介绍了微博引入深度学习和搭建深度学习平台的经验，特别是机器学习工作流、控制中心、深度学习模型训练集群、模型在线预测服务等核心部分的设计、架构经验。微博深度学习平台极大地提升了深度学习开发效率和业务迭代速度，提高了深度学习模型效果和业务效果。深度学习平台介绍人工智能和深度学习人工智能为机器赋予人的智能。随着计算机计算能力越来越强，在重复性劳动和数学计算方面很快超过了

2023 年最佳多 GPU 深度学习系统指南

本文[1]提供了有关如何构建用于深度学习的多 GPU 系统的指南，并希望为您节省一些研究时间和实验时间。

深度学习落地移动端——Q音探歌实践(二)

接上文上一节内容里，我们大致介绍了我们对移动端可用的硬件条件的探索，接下来，我们更专注于介绍一些专注于移动端设备的机器学习框架，以及在Q音探歌，我们接入深度学习服务的一般流程。 4.移动端机器学习框架介绍深度学习算法推断要在移动端落地，需要着重衡量尺寸和性能的限制，同时又要尽可能的提供给用户较好的体验（推断速度足够快）。Q音探歌倾向使用成熟的机器学习框架快速搭建深度学习服务，我们对比了一些专注于为边缘设备带来高效深度学习的框架，包括NCNN, TensorFlow Lite, Pytorch Mobi

数学烂也要学AI | 带你造一个经济试用版AI终极必杀器

大数据文摘作品，转载要求见文末原作者 | Daniel Jeffries 编译 | 刘云南，一针，Saint，Yawei Xia 今天我们将建立我们自己的深度学习终极大杀器。我们会搜集最好的精华，并且把他们组合成数字终结者。我们也会讨论如何把最新的深度学习软件架构一步步安装到Ubuntu Linux 16.04中。在这台机器上运行神经网络就像热激光束穿过黄油一样快捷流畅。你不用花超过129，000美元来购买 Nvidia’s DGX-1，这个AI超级计算机可以放在一个盒子里。我马上要给你展示它的性能

怎样在树莓派上轻松实现深度学习目标检测？

这个现实世界造成了很多挑战，比如数据有限、只有微型的计算机硬件（像手机、树莓派）所造成的无法运行复杂深度学习模型等。这篇文章演示了如何使用树莓派来进行目标检测。就像路上行驶的汽车，冰箱里的橘子，文件上的签名和太空中的特斯拉。

评测 | 云CPU上的TensorFlow基准测试：优于云GPU的深度学习

选自Minimaxir 作者：Max Woolf 机器之心编译参与：乾树、李泽南越来越多的开发者正在使用云服务来训练和运行模型，然而目前看来这种做法的成本较高。不过相比云 GPU 而言，动态分配的云 CPU 就便宜很多了。前苹果员工 Max Woolf 最近测试了云 CPU 阵列在执行 TensorFlow 任务时的效率，并得到了令人满意的结果。利用价格差使用云 CPU 代替 GPU 可以为我们节约不少使用成本。我一直在使用 Keras 和 TensorFlow 开展一些个人深度学习项目。但是，使用

TensorFlow 模型优化工具包：模型大小减半，精度几乎不变！

我们非常高兴能够将训练后的 float16 quantization 作为模型优化工具包（Model Optimization Toolkit）的一部分。这套工具包括了：

[译]GPU加持，TensorFlow Lite更快了

由于处理器性能和电池容量有限，在移动设备上使用计算密集的机器学习模型进行推断是非常耗资源的。虽然可以采用一种加速途径：转换为定点数模型，但用户已经要求作为一种选项，为加速原始浮点模型推理提供GPU支持，而不会产生额外的复杂性和潜在的量化精度损失。

击败酷睿i9之后，有人又拿苹果M1去挑战英伟达V100了

众所周知，大多数 Mac 产品都是生产力工具，你甚至可以用它们训练神经网络。去年 11 月推出的，搭载 M1 芯片的 Mac 更是将这种生产力水平提到了一个新的高度。

使用AMD CPU，3000美元打造自己的深度学习服务器

选自GitHub 作者：Wayde Gilliam 机器之心编译本文作者详细描述了自己组装深度学习服务器的过程，从 CPU、GPU、主板、电源、机箱等的选取到部件的安装，再到服务器的设置，可谓面面俱

15分钟连接Jetson Nano与K8s，轻松搭建机器学习集群

在本文中我将展示如何将Jetson Nano开发板连接到Kubernetes集群以作为一个GPU节点。我将介绍使用GPU运行容器所需的NVIDIA docker设置，以及将Jetson连接到Kubernetes集群。在成功将节点连接到集群后，我还将展示如何在Jetson Nano上使用GPU运行简单的TensorFlow 2训练会话。

TensorFlow Lite发布重大更新！支持移动GPU、推断速度提升4-6倍

虽然移动设备的处理能力和功率都有限。虽然TensorFlow Lite提供了不少的加速途径，比如将机器学习模型转换成定点模型，但总是会在模型的性能或精度上做出让步。

cs231n - Deep Learning Hardware and Software

这一节就来讲讲深度学习的一些软件和硬件相关的内容，包括 CPU 和 GPU ，以及一些主流的深度学习框架

使用 ffmpeg 对直播流媒体进行内容分类

以 UGC 为中心的直播世界中经常发生用户在某一时间大量涌入的现象，这对于用户规模较大的平台而言是一个亟待解决的问题。Video AI 包含了很多有意思的视频处理功能，包括对低分辨率图像进行超分而获得清晰图像、对视频进行去噪（包括去雨、去雾、去划痕等）、进行对象识别、元数据提取等数百种功能。

Kaggle竞赛硬件如何选择？不差钱、追求速度，那就上TPU吧

图 1：在 Kaggle Notebook 中可以免费使用 CPU、GPU 和 TPU。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐