首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

何在GPU macOS 运行深度学习文本生成图片模型​ Stable Diffusion

运行 Stable Diffusion 推荐配置 内存: 不低于 16 GB DDR4 或 DDR5 存储: 不低于 10 GB 可用空间 GPU: 不低于 6 GB 显存 N 卡 如果硬件达不到要求,...当前开发主机配置为: 2.9 GHz 8-Core Intel Core i7 16 GB 2666 MHz DDR4 250 GB SSD 由于没有 GPU,生成图片时,需要多等待一会儿。...2. macOS 运行 Stable Diffusion 安装 anaconda brew install --cask anaconda 配置 PATH echo 'export PATH=/usr...修改运行参数,跳过 GPU 检测,参考[1] export COMMANDLINE_ARGS="--lowvram --precision full --no-half --skip-torch-cuda-test...但本篇主要描述是在无 GPU 情况下,在 macOS 下运行 Stable Diffusion,因此在此仅输入 bird ,进行测试。生成图片如下图: 4.

35620

用免费TPU训练Keras模型,速度还能提高20倍!

本文将介绍如何在 Colab 使用 TPU 训练已有的 Keras 模型,其训练速度是在 GTX 1070 训练速度 20 倍。...激活 TPU 静态输入 Batch Size 在 CPU 和 GPU 运行输入管道大多没有静态形状要求,而在 XLA/TPU 环境中,则对静态形状和 batch size 有要求。...请注意,模型在一个带有 batch_size 参数函数中构建,这样方便我们再回来为 CPU 或 GPU 推理运行创建另一个模型,该模型采用可变输入 batch size。...GTX1070 和在 Colab 运行 TPU 训练速度,结果如下。...在 CPU 执行推理 一旦我们获得模型权重,就可以像往常一样加载它,并在 CPU 或 GPU 等其他设备执行预测。

1.6K40
您找到你想要的搜索结果了吗?
是的
没有找到

不再让CPU和总线拖后腿:Exafunction让GPU更快!

对于许多打算用于高分辨率图像和视频处理深度学习模型来说,简单地复制输入会大大增加系统整体延迟,特别是当非推理任务,解压缩和预处理也可以在 GPU 执行时。...在这篇博文中,研究者们将展示如何在 TensorFlow 中直接通过 GPU 内存传递模型输入和输出以进行模型推理,完全绕过 PCIe 总线和 CPU 内存。...; } 使用下面的函数可以获得 GPU 设备名称: std::string FirstGpuDeviceName(tensorflow::Session* session) {   // Gets device... found"; } 现在,用户可以创建一个 tensorflow::Session::CallableHandle 实例,这个类封装了如何在 GPU 运行带有输入和输出 TensorFlow方法...显然,人们希望 GPU 能尽可能长时间地异步运行以减少 CPU 造成阻塞。幸运是,用户可以访问内部 TensorFlow CUDA stream。

1K40

《Scikit-Learn、Keras与TensorFlow机器学习实用指南(第二版)》第19章 规模化训练和部署TensorFlow模型

现在,如果你不想花费时间和钱在GPU,就使用云GPU VM。 使用带有GPU虚拟机 所有主流云平台都提供GPU虚拟机,一些预先配置了驱动和库(包括TensorFlow)。...但是,在某些情况下,你可能只想用CPU;例如,如果程序可以在CPU和GPU运行,可以让TensorFlow在只有CPU机器忽略tf.device("/gpu:*")。...TensorFlow是如何在多台设备执行这些运算呢? 在多台设备并行执行 第12章介绍过,使用TF Functions好处之一是并行运算。...模型并行 前面我们都是在单一设备训练单一神经网络。如果想在多台设备训练一个神经网络,该怎么做呢?这需要将模型分成独立部分,在不同设备运行。但是,模型并行有点麻烦,且取决于神经网络架构。...如何在多个TF Serving实例上部署模型? 为什么使用gRPC API而不是REST API,查询TF Serving模型? 在移动和嵌入设备运行,TFLite减小模型大小有什么方法?

6.6K20

Keras作为TensorFlow简化界面:教程

(x) y_encoded = lstm(y) 收集可训练权重和状态更新 一些Keras层(有状态RNN和BatchNormalization层)具有需要作为每个训练步骤一部分运行内部更新。...(例如,考虑使用带有预先训练权重VGG16图像分类器)。...TensorFlow在幕后处理设备设备变量传输。...如果您想要在不同GPU训练同一个模型多个副本,同时在不同副本共享相同权重,则应首先在一个device scope下实例化您模型(或多个层),然后以不同方式多次调用相同模型实例GPU device..._1) # 我们只运行`preds`张量,所以只有两个 # 在GPU副本运行(加上CPU合并op) output_value = sess.run([preds], feed_dict={x:

4K100

TensorFlow架构

它假设您对TensorFlow编程概念(计算图,操作和会话)有基本了解。有关 这些主题介绍,请参阅入门。对分布式TensorFlow熟悉程度 也将有所帮助。...阅读完毕后,您应该了解TensorFlow架构,以便阅读和修改核心TensorFlow代码。 概观 TensorFlow运行时是一个跨平台库。图1显示了其一般架构。...使用会话启动图执行 分布式主人 从图中修剪一个特定子图,由Session.run()参数定义。 将子图划分为多个不同流程和设备运行子图。 将图形分发到工作服务。...工作者服务将内核分派到本地设备,并在可能情况下并行运行内核,例如使用多个CPU内核或GPU流。...我们专门针对每种源和目标设备类型进行发送和恢复操作: 本地CPU和GPU设备之间cudaMemcpyAsync()传输使用 API来重叠计算和数据传输。

1.2K70

【技术创作101训练营】TensorFlow Lite GPU 委托(Delegate)加速模型推理

; 如何编译带有 GPU 代理 TensorFlow Lite。...委托代理优点:综合移动设备算力和功耗,在CPU做高算力计算不划算,但其他设备 GPU 或 DSP 等硬件加速器或者华为NPU,联发科APU、三星VPU之类却可以获取更佳性能与功耗表现。...TensorFlow LIte GPU 代理 [图3 TensorFlow LiteDemo展示安卓 GPU 推理] 图 TensorFlow LiteDemo展示安卓 GPU 推理 没说安卓其他设备...设备gpu_backend: string (default="") 迫使GPU硬件委托去运行某个特定后端,因为TFLiteGPU后端有gl也有cl,参数值为cl、gl。...用户和开发者会有一定参考价值,最后实验编译了带有GPU委托TensorFLow Lite并benchmark了不同安卓手机上GPU性能。

5.1K220191

TensorFlow 2.9上线:oneDNN改进实现CPU性能优化,WSL2开箱即用

TensorFlow 2.9 中,默认在 Linux x86 包和具有神经网络硬件功能( AVX512_VNNI、AVX512_BF16、AMX 等) CPU 启用 oneDNN 优化,这些功能可在...DTensor 核心设计原则如下: 设备无关 API:这允许在 CPU、GPU 或 TPU 使用相同模型代码,包括跨设备类型划分模型; 多客户端执行:移除 coordinator 并让每个任务驱动其本地连接设备...带有 DTensors 分布式 ML:https://www.tensorflow.org/tutorials/distribute/dtensor_ml_tutorial 将 DTensors、Keras...支持 WSL2 WSL2 允许开发人员直接在 Windows 运行 Linux 环境,而不需要传统虚拟机或双启动设置。TensorFlow 现在支持 WSL2 开箱即用,包括 GPU 加速。...如下为新优化器类一些亮点: 一些模型训练速度越来越快; 更易于编写自定义优化器; 内置对模型权重移动平均支持(Polyak 平均)。

1.4K20

TensorFlow 2.9上线:oneDNN改进实现CPU性能优化,WSL2开箱即用

TensorFlow 2.9 中,默认在 Linux x86 包和具有神经网络硬件功能( AVX512_VNNI、AVX512_BF16、AMX 等) CPU 启用 oneDNN 优化,这些功能可在...DTensor 核心设计原则如下: 设备无关 API:这允许在 CPU、GPU 或 TPU 使用相同模型代码,包括跨设备类型划分模型; 多客户端执行:移除 coordinator 并让每个任务驱动其本地连接设备...带有 DTensors 分布式 ML:https://www.tensorflow.org/tutorials/distribute/dtensor_ml_tutorial 将 DTensors、Keras...支持 WSL2 WSL2 允许开发人员直接在 Windows 运行 Linux 环境,而不需要传统虚拟机或双启动设置。TensorFlow 现在支持 WSL2 开箱即用,包括 GPU 加速。...如下为新优化器类一些亮点: 一些模型训练速度越来越快; 更易于编写自定义优化器; 内置对模型权重移动平均支持(Polyak 平均)。

1.2K20

AI 开发者看过来,主流移动端深度学习框架大盘点

AI 研习社按:移动设备相较于 PC ,携带便携,普及率高。近年来,随着移动设备广泛普及与应用,在移动设备使用深度学习技术需求开始涌现。...Core ML 在设备严格运行,确保了用户隐私数据,在无网络连接情况下依然能够响应用户操作。...XMART LABS 还想加载在其他框架(TensorFlow 或者 Caffe2 等框架)训练好模型,现在 Bender 已经内置了一个 TensorFlow 适配器(其可加载带有变量图,并将其...优势 Bender 支持选择 Tensorflow、 Keras、Caffe 等框架来运行已训练模型,无论是在将训练好模型 freeze,还是将权重导至 files(官方表示该支持特性即将到来) 可直接从支持平台导入一个...MXNet 支持在移动设备(Android、iOS)运行基于深度学习图像识别等任务,它性能如下: 依赖少,内存要求少,对于 Android 性能变化大手机,通用性更高 MXNet 需要先使用 ndk

2.2K30

防止在训练模型时信息丢失 用于TensorFlow、Keras和PyTorch检查点教程

--data标记指定pytorch-mnist数据集应该在/inputdirectory中可以使用 –gpu标记实际是可选,除非你想马上开始运行GPU机器代码 从你检查点恢复: floyd.../modeldirectory中可以使用 –gpu标记实际是可选——除非你想马上开始运行GPU机器代码 通过FloydHubJupyter Notebook模式 floyd run \ --...' –env标记指定该项目应该运行环境(在Python3.0.6Tensorflow 1.3.0 + Keras 2.0.6) –gpu标记实际是可选——除非你想马上开始运行GPU机器代码...gpu \ --env tensorflow-1.3 \ --mode jupyter –env标记指定该项目应该运行环境(在Python3.0.6Tensorflow 1.3.0 + Keras...modeldirectory中可以使用 –gpu标记实际是可选——除非你想马上开始运行GPU机器代码 通过FloydHubJupyter Notebook模式 floyd run \ --gpu

3K51

译文 | 与TensorFlow第一次接触 第六章:并发

第一版TensorFlow第一版发布于2015年11月,它可以运行在多台服务器GPU,同时并在其上面进行训练。2016年2月,更新版中增加了分布式与并发处理。...如果我们希望一个具体操作调度到一个具体设备执行,而不是由系统自动选择设备,我们可通过tf.device来创建设备上下文,所有在该上下文中操作都会调度到该设备中。...因为log_device_placement设置为true,我们可看到操作是如何在多个设备间分布式分发: ?...如果在一个GPU执行这段代码,过程如下: ? 如果在2个GPU运行,代码如下: ? 最后,打印计算时间: ?...分布式版本TensorFlow 之前所说,Google在2016年2月开源了分布式版本TensorFlow,其基于gRPC,一个用来进程间通信,高性能开源RPC框架(TensorFlow Serving

92470

教程 | TensorFlow 官方解读:如何在多系统和网络拓扑中构建高性能模型

Tensorflow 可以使一个设备张量直接用在任何其他设备。为使张量在任何设备中可用,Tensorflow 插入了隐式副本。在张量被实际使用之前,会在设备之间调度副本运行。...最终结果是当 GPU 计算开始时,所有张量已可用。 软件管道 由于所有的阶段都可以在不同处理器下运行,在它们之间使用 data_flow_ops.StagingArea 可使其并行运行。...当一个工作器需要一个来自参数服务器变量时,它可从其中直接引用。Tensorflow运行时会将隐式副本添加到图形中,这使得在需要它计算设备上变量值可用。...带有 3 个变量参数服务器模式中,变量读取和更新单个工作器。 变量复制 在这种设计中,服务器中每个 GPU 都有自己变量副本。...服务器间梯度聚合可通过不同方法实现: 使用 Tensorflow 标准操作在单个设备(CPU 或 GPU)累加整和,然后将其拷贝回所有的 GPU

1.7K110

GPU进行TensorFlow计算加速

本文选自《TensorFlow:实战Google深度学习框架(第2版)》 TensorFlow程序可以通过tf.device函数来指定运行每一个操作设备,这个设备可以是本地CPU或者GPU,也可以是某一台远程服务器...TensorFlow提供了一个快捷方式来查看运行每一个运算设备。在生成会话时,可以通过设置log_device_placement参数来打印运行每一个运算设备。...比如加法操作add是通过CPU来运行,因为它设备名称中包含了/cpu:0。 在配置好GPU环境TensorFlow中 ,如果操作没有明确地指定运行设备,那么TensorFlow会优先选择GPU。...TensorFlow可以自动完成这些操作而不需要用户特别处理,但为了提高程序运行速度,用户也需要尽量将相关运算放在同一个设备。...以下样例介绍了如何在运行时设置这个环境变量。 # 只使用第二块GPUGPU编号从0开始)。

1.9K00

TensorFlow.js在浏览器中进行实时语义分割 | MixLab算法系列

Cityscapes数据集语义分割 在该项目中,使用了中等级别的模型,该模型可以提供合理精度并可以实时高效运行。...在浏览器中运行ML意味着,从用户角度来看,无需安装任何库或驱动程序。只需打开一个网页,该程序即可运行。 此外,它还可以与GPU一起加速运行。...TensorFlow.js会自动支持WebGL,并在有GPU时在后台加速代码。用户还可以从移动设备端打开网页,在这种情况下,模型可以利用诸如陀螺仪或加速度计等传感器数据。...权重文件 TensorFlow.js层格式是一个目录,其中包含一个model.json文件和一组二进制形式分片权重文件。...运行该项目的所有源代码和指令都可以在GitHub找到。

85220

机器学习者必知 5 种深度学习框架

灵活TensorFlow API可以通过其GPU支持架构在多个设备之间部署模型。...Keras是其后端库包装,该后端库可以是TensorFlow或Theano - 这意味着如果你们在使用以TensorFlow为后端库Keras,你实际是在运行TensorFlow代码。...Theano (蒙特利尔大学) Theano是另一个用于快速数值计算Python库,可以在CPU或GPU运行。它是蒙特利尔大学蒙特利尔学习算法小组开发一个开源项目。...PyTorch有3个抽象层次: • 张量:命令性ndarray,但在GPU运行 • 变量:计算图中节点;存储数据和梯度 • 模块:神经网络层;可以存储状态或可学习权重 在这里我将着重谈一谈张量抽象层次...基于动态图方法为复杂体系结构(动态神经网络)提供了更易于操作调试功能和更强处理能力。基于静态图方法可以更方便地部署到移动设备,更容易部署到更具不同体系结构,以及具有提前编译能力。

85830

使用TensorFlowTensorFlow Lite和TensorRT模型(图像,视频,网络摄像头)进行YOLOv4对象检测

dis_k=993936e47cdc2b6012ebffde6741fd78&dis_t=1594871267 该视频将逐步介绍设置代码,安装依赖项,将YOLO Darknet样式权重转换为已保存TensorFlow...模型以及运行模型步骤。...利用YOLOv4作为TensorFlow Lite模型优势,它小巧轻巧尺寸使其非常适合移动和边缘设备树莓派)。想要利用GPU全部功能?...在这里获取代码: https://github.com/theAIGuysCode/tensorflow-yolov4-tflite 在此视频中,介绍了: 1.克隆或下载代码 2.安装CPU或GPU必需依赖项...3.下载并将YOLOv4权重转换为已保存TensorFlow 4.使用TensorFlow对图像,视频和网络摄像头执行YOLOv4对象检测 5.将TensorFlow模型转换为TensorFlow

2.1K30

《Scikit-Learn与TensorFlow机器学习实用指南》 第12章 设备和服务器分布式 TensorFlow

在本章中,我们将看到如何使用 TensorFlow 在多个设备(CPU 和 GPU分配计算并将它们并行运行(参见图 12-1)。...在本节中,我们将介绍如何设置您环境,以便 TensorFlow 可以在一台机器使用多个 GPU 卡。 然后,我们将看看如何在可用设备上进行分布操作,并且并行执行它们。...提示: 如果您不拥有任何 GPU 卡,则可以使用具有 GPU 功能主机服务器, Amazon AWS。...简单放置 无论何时运行图形,如果 TensorFlow 需要求值尚未放置在设备节点,则它会使用简单放置器将其放置在未放置所有其他节点。...操作和内核 对于在设备运行 TensorFlow 操作,它需要具有该设备实现;这被称为内核。 许多操作对于 CPU 和 GPU 都有内核,但并非全部都是。

1.1K10

keras 多gpu并行运行案例

一、多张gpu的卡使用keras 有多张gpu卡时,推荐使用tensorflow 作为后端。使用多张gpu运行model,可以分为两种情况,一是数据并行,二是设备并行。...二、数据并行 数据并行将目标模型在多个设备各复制一份,并使用每个设备复制品处理整个数据集不同部分数据。...cpu_merge: 一个布尔值,用于标识是否强制合并 CPU 范围内模型权重。 cpu_relocation: 一个布尔值,用来确定是否在 CPU 范围内创建模型权重。...# 我们推荐在 CPU 设备范围内做此操作, # 这样模型权重就会存储在 CPU 内存中。 # 否则它们会存储在 GPU ,而完全被共享。...keras分布式是利用TensorFlow实现,要想完成分布式训练,你需要将Keras注册在连接一个集群TensorFlow会话: server = tf.train.Server.create_local_server

2.1K20

DeepMind发布神经网络、强化学习库,网友:推动JAX发展

JAX由谷歌提出,是TensorFlow简化库。结合了针对线性代数编译器XLA,和自动区分本地 Python 和 Numpy 代码库Autograd,在高性能机器学习研究中使用。...4、过渡到Haiku是比较容易 通过精心设计,从TensorFlow和Sonnet,过渡到JAX和Haiku是比较容易。...除了新函数(hk.transform),Haiku目的是Sonnet 2API。 5、Haiku简化了JAX 它提供了一个处理随机数简单模型。...首先,按照下方链接中说明,安装带有相关加速器支持JAX。 https://github.com/google/jax#installation 然后,只需要一句简单pip命令就可以完成安装。...q_t:目标状态下操作值。 Haiku和RLax都已在GitHub开源,有兴趣读者可从“传送门”链接访问。

60441
领券