开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

对于具有CPU支持的模型训练，CUDA GPU的替代方案是什么？

对于具有CPU支持的模型训练，CUDA GPU的替代方案是OpenCL。

OpenCL（Open Computing Language）是一种开放的跨平台并行计算框架，可以利用多种硬件设备（包括GPU、CPU、FPGA等）的计算能力。与CUDA相比，OpenCL具有更广泛的硬件支持，可以在不同的硬件平台上实现并行计算。

OpenCL的优势包括：

跨平台支持：OpenCL可以在不同的操作系统和硬件平台上运行，包括Windows、Linux、macOS等。
多设备支持：OpenCL可以利用多种硬件设备的计算能力，包括GPU、CPU、FPGA等，提供更大的灵活性和可扩展性。
并行计算能力：OpenCL采用基于任务的并行模型，可以将计算任务分配给多个计算单元同时执行，提高计算效率。
开放标准：OpenCL是一个开放的行业标准，由Khronos Group维护和推广，各大硬件厂商和软件开发者都可以参与其中，推动其发展和优化。

OpenCL在模型训练中的应用场景包括深度学习、机器学习、科学计算等需要大规模并行计算的领域。通过利用OpenCL，可以充分发挥CPU的计算能力，提高模型训练的效率和速度。

腾讯云提供了适用于OpenCL的云服务器实例，例如GPU计算型GN6实例，可满足用户对于并行计算的需求。具体产品介绍和相关信息可以参考腾讯云官方文档：GPU计算型GN6实例。

相关搜索:对于SSIS开发，Visual Studio的替代方案是什么？对于Sequelize版本6.13.4，requestTimeout的替代方案是什么？对于ActivityResultContracts，应用内更新的替代方案是什么？如何将经过gpu训练的模型加载到cpu中？对于幼虫中的多行插入，insertGetId的替代方案是什么对于多输入模型，tf.data.Dataset.from_tensor_slices的替代方案是什么？模型训练:具有不同超参数的已保存模型的命名方案对于实时图形编程,C++的最佳替代方案是什么？如何将经过GPU训练的模型加载到CPU (系统)内存中？要使表具有响应性，最好的替代方案是什么对于包含空值的物理文件，DSPF的最佳替代方案是什么？当使用从GPU移植的训练有素的模型时，默认MaxPoolingOp仅在设备类型CPU错误时支持NHWC。我们是否可以用CPU代替GPU来训练用于目标检测的客户YOLO模型在CPU和GPU上的两个单独的juypter笔记本中训练Keras模型如何在Tensorflow 2.0中保存在GPU上训练并加载到CPU上的模型什么是优秀的,非分布式的颠覆替代方案,具有出色的分支和合并支持？对于不需要安装原生应用的iOS上的web应用，推送通知的合理替代方案是什么？我们可以在使用GPU的机器上使用torch训练一个模型，然后在只使用CPU的机器上使用这个模型吗？k8s/istio -当特使不支持HTTP缓存时，服务之间的HTTP缓存的替代方案是什么？Flink是否支持键控水印？如果没有，有没有计划在未来的版本中实现它？我的替代方案是什么？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

图像预处理库CV-CUDA开源了，打破预处理瓶颈，提升推理吞吐量20多倍

机器之心原创作者：思当 CPU 图像预处理成为视觉任务的瓶颈，最新开源的CV-CUDA，将为图像预处理算子提速百倍。在如今信息化时代中，图像或者说视觉内容早已成为日常生活中承载信息最主要的载体，深度学习模型凭借着对视觉内容强大的理解能力，能对其进行各种处理与优化。然而在以往的视觉模型开发与应用中，我们更关注模型本身的优化，提升其速度与效果。相反，对于图像的预处理与后处理阶段，很少认真思考如何去优化它们。所以，当模型计算效率越来越高，反观图像的预处理与后处理，没想到它们竟成了整个图像任务的瓶颈。

01

AI 训练加速原理解析与工程实践分享 | Q推荐

今天的分享，主要包括三个部分：首先介绍我们为什么需要做 AI 训练加速，也就是整体背景和出发点是什么；第二部分我们会系统性的分析实际训练过程中的可能会遇到的性能瓶颈问题，然后针对这些问题，介绍目前主要的加速方案；第三部分介绍百度百舸平台的 AI 训练加速套件 AIAK-Training 在一些模型训练加速上的实践效果。为什么需要 AI 训练加速？在 AI 系统中，一个模型从生产到应用，一般包括离线训练和推理部署两大阶段。离线训练阶段，就是产生模型的过程，用户需要根据自己的任务场景，准备好训练

01

讲解Attempting to deserialize object on a CUDA device but torch.cuda.is_available(

当您在使用 PyTorch 进行深度学习应用时，有时会遇到下面这个错误信息：“Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False”。本文将为您解释这个错误的原因以及如何解决它。

01

解决问题torch.load invalid load key, ‘\x00‘

在使用深度学习库PyTorch中加载模型时，有时可能会遇到错误消息 "torch.load invalid load key, ‘\x00‘"。这个错误表明加载的模型文件包含无效的加载键。

01

深度学习|如何确定 CUDA+PyTorch 版本

对于深度学习初学者来说，配置深度学习的环境可能是一大难题，因此本文主要讲解CUDA; cuDNN; Pytorch 三者是什么，以及他们之间的依赖关系。

05

业界丨格灵深瞳 CEO 赵勇亲自撰文：Nvidia 成功背后的远见与坚持

编者按：本文作者赵勇，格灵深瞳 CEO，AI 科技评论授权发布。 2016年人工智能最吸引眼球的事件莫过于谷歌旗下的DeepMind依靠人工智能算法的阿尔法狗在围棋比赛中大胜人类顶尖选手。但要算商业价值的落地，2016年人工智能的赢家则非Nvidia（英伟达）莫属。这家全球领先的显卡公司最新的季度财报（截至2016年10月30号）显示该公司的营收比去年同期增长54%，尤其是在数据中心业务方面有了两倍多的增长。该公司的股票在过去的一年中也增长了4倍多，稳坐了标普500的榜首。 Nvidia在人工智能芯

07

刚刚，英伟达发布新规：其他硬件禁止使用CUDA！

在安装CUDA 11.6及更高版本时，最终用户许可协议（EULA）中明确表示：禁止在其他硬件平台上通过翻译层运行基于CUDA的软件！

01

7倍AI算力芯片，TensorRT重大更新，英伟达GTC新品全介绍

今年的 GTC 大会议题覆盖了 AI 框架、开发工具、数据科学、云计算、实时渲染、光线追踪、以及 5G 通信等等方面。垂直方向则包含了自动驾驶、智能机器、医疗与金融、设计、工程制造等领域。

03

PyTorch提速四倍！提高DALI利用率，创建基于CPU的Pipeline

在过去的几年里，深度学习硬件方面取得了巨大的进步，Nvidia的最新产品Tesla V100和Geforce RTX系列包含专用的张量核，用于加速神经网络中常用的操作。

01

【玩转 GPU】GPU开发实践：聚焦AI技术场景应用与加速

本文将探讨GPU开发实践，重点关注使用GPU的AI技术场景应用与开发实践。首先介绍了GPU云服务器在AIGC和工业元宇宙中的重要作用，然后深入讨论了GPU在AI绘画、语音合成等场景的应用以及如何有效地利用GPU进行加速。最后，总结了GPU并行执行能力的优势，如提高算力利用率和算法效率，卷积方式处理效率更高，现场分层分级匹配算法计算和交互，超配线程掩盖实验差距，以及tensor core增加算力峰值等。

00

【玩转 GPU】本地部署大模型--chatGLM（尝鲜篇）

本文主要介绍ChatGLM-6B 的本地部署，提供更保姆级别的教程，让完全不懂技术的同学，也能在本地部署大模型～

CUDA驱动深度学习发展 - 技术全解与实战

CUDA（Compute Unified Device Architecture）是由NVIDIA开发的一个并行计算平台和应用编程接口（API）模型。它允许开发者使用NVIDIA的GPU进行高效的并行计算，从而加速计算密集型任务。在这一节中，我们将详细探讨CUDA的定义和其演进过程，重点关注其关键的技术更新和里程碑。

02

用 NVIDIA DALI 加速PyTorch：训练速度提升 4 倍

本文展示了一些提高 DALI 资源使用率以及创建一个完全基于 CPU 的管道的技术。这些技术长期稳定内存使用率，将 CPU & GPU 管道的 batch 大小提高 50%。用特斯拉 V100 加速器显示 PyTorch+DALI 可以达到接近 4000 个图像/秒的处理速度，比原生 PyTorch 快了大约 4 倍。

02

Pytorch 高效使用GPU的操作

深度学习涉及很多向量或多矩阵运算，如矩阵相乘、矩阵相加、矩阵-向量乘法等。深层模型的算法，如BP，Auto-Encoder，CNN等，都可以写成矩阵运算的形式，无须写成循环运算。然而，在单核CPU上执行时，矩阵运算会被展开成循环的形式，本质上还是串行执行。GPU（Graphic Process Units，图形处理器）的众核体系结构包含几千个流处理器，可将矩阵运算并行化执行，大幅缩短计算时间。随着NVIDIA、AMD等公司不断推进其GPU的大规模并行架构，面向通用计算的GPU已成为加速可并行应用程序的重要手段。得益于GPU众核（many-core）体系结构，程序在GPU系统上的运行速度相较于单核CPU往往提升几十倍乃至上千倍。

03

CUDA驱动深度学习发展 - 技术全解与实战

CUDA（Compute Unified Device Architecture）是由NVIDIA开发的一个并行计算平台和应用编程接口（API）模型。它允许开发者使用NVIDIA的GPU进行高效的并行计算，从而加速计算密集型任务。在这一节中，我们将详细探讨CUDA的定义和其演进过程，重点关注其关键的技术更新和里程碑。

02

开源方案复现ChatGPT流程！1.62GB显存即可体验，单机训练提速7.73倍

机器之心发布机器之心编辑部火爆全网的 ChatGPT，仿佛开启了第四次工业革命，让微软、谷歌等全球科技巨头打得昏天黑地，引得各路玩家纷纷入局，抢占赛道。然而由于 OpenAI 没有开源 ChatGPT，如何有效复现 ChatGPT 已成为摆在大家面前的头号难题，急需可靠的开源共建方案。 Colossal-AI 快速跟进，首个开源低成本复现 ChatGPT 完整流程。作为当下最火热的开源 AI 大模型解决方案，Colossal-AI 已收获开源社区 GitHub Star 近万颗，此次开源亮点包括：开

03

使用PyTorch Profiler进行模型性能分析，改善并加速PyTorch训练

如果所有机器学习工程师都想要一样东西，那就是更快的模型训练——也许在良好的测试指标之后

01

开源方案复现ChatGPT流程！1.62GB显存即可体验，单机训练提速7.73倍

来源：潞晨科技本文约4000字，建议阅读8分钟Colossal-AI 快速跟进，首个开源低成本复现 ChatGPT 完整流程。火爆全网的 ChatGPT，仿佛开启了第四次工业革命，让微软、谷歌等全球科技巨头打得昏天黑地，引得各路玩家纷纷入局，抢占赛道。然而由于 OpenAI 没有开源 ChatGPT，如何有效复现 ChatGPT 已成为摆在大家面前的头号难题，急需可靠的开源共建方案。 Colossal-AI 快速跟进，首个开源低成本复现 ChatGPT 完整流程。作为当下最火热的开源 AI 大模型解决

08

GitHub 又一黑科技项目诞生，成功复现 ChatGPT 完整流程！

近日，火爆全网的 ChatGPT，仿佛开启了第四次工业革命，将微软、谷歌等全球科技巨头打得昏天黑地，引得各路玩家纷纷入局，抢占赛道。

05

视频直播/远程会议中的AI关键技术探索应用

我是英伟达深度学习解决方案架构师吴金钟，今天给大家介绍的是英伟达在直播场景中的解决方案。

04

【玩转GPU】GPU云服务器的功能与用途详解

本文将全面介绍GPU云服务器的特点、优势及应用场景,并针对不同的使用需求,给出配置方案和详细的代码示例指导,包括:深度学习、高性能计算、3D渲染、区块链矿机、游戏直播等多种场景,旨在帮助用户深入理解GPU云服务器的功能,并快速上手应用。

01

每个程序员都应该知道的 40 个算法（四）

大规模算法旨在解决庞大的复杂问题。大规模算法的特征是由于其数据规模和处理要求的缘故，需要多个执行引擎。本章首先讨论了什么类型的算法最适合并行运行。然后，讨论了与并行化算法相关的问题。接下来，介绍了计算统一设备架构（CUDA）架构，并讨论了如何使用单个图形处理单元（GPU）或一组 GPU 来加速算法。还讨论了需要对算法进行哪些更改才能有效利用 GPU 的性能。最后，本章讨论了集群计算，并讨论了 Apache Spark 如何创建弹性分布式数据集（RDDs）以创建标准算法的极快并行实现。

00

Transformers 4.37 中文文档（九）

如果在单个 GPU 上训练模型太慢或者模型的权重无法适应单个 GPU 的内存，则过渡到多 GPU 设置可能是一个可行的选择。在进行此过渡之前，彻底探索在单个 GPU 上进行高效训练的方法和工具中涵盖的所有策略，因为它们普遍适用于任意数量的 GPU 上的模型训练。一旦您采用了这些策略并发现它们在单个 GPU 上不足以满足您的情况时，请考虑转移到多个 GPU。

01

视频抽帧的全流程GPU异构加速实践

视频已成为内容和广告的主要媒介形式，但目前的视频内容理解或审核等AI能力，主流依然是先抽帧，再基于图像帧做特征提取和预测。抽帧由于步骤多、计算重，在视频AI推理场景很容易成为性能瓶颈。因此，有必要使用硬件加速等手段，来对视频抽帧做极致的性能优化。

高性能PyTorch是如何炼成的？过来人吐血整理的10条避坑指南

如何用最少的精力，完成最高效的 PyTorch 训练？一位有着 PyTorch 两年使用经历的 Medium 博主最近分享了他在这方面的 10 个真诚建议。

06

高性能PyTorch是如何炼成的？过来人吐血整理的10条避坑指南

如何用最少的精力，完成最高效的 PyTorch 训练？一位有着 PyTorch 两年使用经历的 Medium 博主最近分享了他在这方面的 10 个真诚建议。

03

深度学习GPU环境配置及建模（Python）

如果是深度学习的重度用户，首选的操作系统是Linux，虽然操作门槛高一些（如命令行操作），但Linux的开发环境很友好，可以减少很多依赖包不兼容的问题，可以大大提高效率。Linux的发行版很多，比较常用的的可以安装个包含图形界面及命令行的Ubuntu。

01

为什么大厂做AI训练都选择英伟达而不是英特尔AMD

大厂选择英伟达的GPU进行AI训练，而非英特尔或AMD的产品，主要是基于以下几个原因： 1. CUDA生态系统的成熟：英伟达的CUDA编程平台是最早且最为成熟的GPU并行计算框架之一，提供了丰富的库和工具，如cuDNN、TensorRT等，这些专门为深度学习优化的库极大地简化了开发流程。开发者社区对CUDA的广泛支持意味着更多现成的AI模型、框架和工具可以直接在英伟达GPU上运行，降低了开发成本和时间。 2. 性能优势：英伟达在GPU架构设计上持续创新，特别是在AI训练所需的浮点运算、张量运算等方面，其GPU（如A100、H100及后续的新GPU）提供了高性能和高吞吐量，适合大规模并行计算任务。英伟达的Tensor Cores专门针对深度学习中的矩阵乘法和张量运算做了优化，大幅提升了训练效率。 3. 市场先发优势：英伟达较早认识到GPU在AI领域的潜力，并迅速占据了市场主导地位。这种先发优势让英伟达在AI训练硬件领域积累了大量用户案例和成功故事，形成了一定程度的行业标准效应。 4. 软件和硬件的紧密结合：英伟达不仅提供硬件，还有一整套从底层驱动到高层应用软件的解决方案，确保了硬件性能的充分发挥。此外，英伟达持续更新的软件栈和工具链，使得开发者可以轻松地调优和监控AI训练过程。 5. 行业合作与支持：英伟达与众多AI领域的研究机构、企业和云服务商建立了紧密的合作关系，为用户提供从硬件到云服务的全方位支持。这种生态系统为用户提供了便利，也加强了英伟达在市场的地位。尽管英特尔和AMD近年来在AI领域加大了投资，推出了专门针对AI训练的加速器（如英特尔的Gaudi系列和AMD的MI300），并努力构建自己的软件生态系统，但英伟达在AI训练市场的领先地位短期内仍难以撼动，主要是因为其深厚的技术积累、成熟的生态系统以及广泛的认可度。然而，随着竞争者的不断追赶和技术的发展，未来的市场格局仍有可能发生变化。

01

ChatGPT低成本复现流程开源！任意单张消费级显卡可体验，显存需求低至1.62GB

明敏发自凹非寺量子位 | 公众号 QbitAI 首个开源的ChatGPT低成本复现流程来了！预训练、奖励模型训练、强化学习训练，一次性打通。最小demo训练流程仅需1.62GB显存，随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。相比原生PyTorch，单机训练速度最高可提升7.73倍，单卡推理速度提升1.42倍，仅需一行代码即可调用。对于微调任务，可最多提升单卡的微调模型容量3.7倍，同时保持高速运行，同样仅需一行代码。要知道，ChatGPT火是真的火，复现也是真的难。毕

03

Titan XP值不值？一文教你如何挑选深度学习GPU

选自Medium 作者：Slav Ivanov 参与：李泽南、路雪、刘晓坤本文作者 slav Ivanov 在今年早些时候曾介绍过如何用 1700 美元预算搭建深度学习机器（参见：教程 | 从硬件配置、软件安装到基准测试，1700 美元深度学习机器构建指南）。最近，英伟达在消费级 GPU 领域又推出了 GTX 1070 Ti，如果现在想要组装一台深度学习机器，我们用哪块 GPU 最好呢？本文将详细解答这一问题。即将进入 2018 年，随着硬件的更新换代，越来越多的机器学习从业者又开始面临选择 GPU 的

07

超原版速度110倍，针对PyTorch的CPU到GPU张量迁移工具开源

神经网络的训练中往往需要进行很多环节的加速，这就是为什么我们逐渐使用 GPU 替代 CPU、使用各种各样的算法来加速机器学习过程。但是，在很多情况下，GPU 并不能完成 CPU 进行的很多操作。比如训练词嵌入时，计算是在 CPU 上进行的，然后需要将训练好的词嵌入转移到 GPU 上进行训练。

02

深度学习GPU工作站配置参考

CPU要求：在深度学习任务中，CPU并不负责主要任务，单显卡计算时只有一个核心达到100%负荷，所以CPU的核心数量和显卡数量一致即可，太多没有必要，但是处理PCIE的带宽要到40。

01

【指南】买家指南：挑选适合你的深度学习GPU

最近，有相当多的人想知道如何选择机器学习的GPU。以现状来说，深度学习的成功依赖于拥有合适的硬件。当我在构建我的个人深度学习盒时，我查看了市场上所有的GPU。在本文中，我将分享关于选择合适的图形处理器

09

微信也在用的Transformer加速推理工具 | 腾讯第100个对外开源项目

虽然在提高模型模型精度上，Transformer发挥了不容小觑的作用，但与此同时，却引入了更大的计算量。

02

【深度分析】深度学习选GPU，RTX 20系列值不值得？

深度学习常被戏谑为“炼丹术”，那么，GPU于深度学习研究人员而言就是不可或缺的“炼丹炉”。

01

Kubernetes容器平台下的 GPU 集群算力管控

随着最近一两年生成式大模型的迭代出新，尤其是以 ChartGPT 为代表的大语言模型，几乎一夜间让所有人都看到了人工智能改变世界的潜力。而作为持续发力 GPU 通用计算（CUDA）的 AI 专业显卡提供商，Nvidia 公司成为了当之无愧的技术赢家，从其屡创新高的市值中就可见一瞥。

01

一块RTX3050搞定DLRM训练！仅需1%Embedding参数，硬件成本降低至十分之一 | 开源

深度推荐模型（DLRMs）已经成为深度学习在互联网公司应用的最重要技术场景，如视频推荐、购物搜索、广告推送等流量变现业务，极大改善了用户体验和业务商业价值。

02

仅需1% Embedding参数，硬件成本降低十倍，开源方案单GPU训练超大推荐模型

深度推荐模型（DLRMs）已经成为深度学习在互联网公司应用的最重要技术场景，如视频推荐、购物搜索、广告推送等流量变现业务，极大改善了用户体验和业务商业价值。但海量的用户和业务数据，频繁地迭代更新需求，以及高昂的训练成本，都对 DLRM 训练提出了严峻挑战。

02

这个开源神器，让你更懂你的 GPU！

深度推荐模型（DLRMs）已经成为深度学习在互联网公司应用的最重要技术场景，如各平台的视频推荐、购物搜索、广告推送等流量变现业务，极大改善了用户体验和业务商业价值。但海量的用户和业务数据，频繁地迭代更新需求，以及高昂的训练成本，都对 DLRM 训练提出了严峻挑战。

02

出于性能考虑，请别使用pip安装Tensorflow！

停止使用pip安装Tensorflow！请改用conda。您还不知道conda是什么？它是一个跨平台运行的开源软件包和环境管理系统，适用于Mac，Windows和Linux。如果您还没有使用conda，我建议您开始使它，因为它可以让您更加愉快地管理您的数据科学工具。

04

GPU推理服务性能优化之路｜得物技术

随着CV算法在业务场景中使用越来越多，给我们带来了新的挑战，需要提升Python推理服务的性能以降低生产环境成本。为此我们深入去研究Python GPU推理服务的工作原理，推理模型优化的方法。最终通过两项关键的技术: 1.Python的GPU与CPU进程分离，2.使用TensorRT对模型进行加速，使得线上大部分模型服务QPS提升5-10倍左右，大量节约了线上GPU推理服务的成本。

05

GPU推理服务性能优化之路｜得物技术

随着CV算法在业务场景中使用越来越多，给我们带来了新的挑战，需要提升Python推理服务的性能以降低生产环境成本。为此我们深入去研究Python GPU推理服务的工作原理，推理模型优化的方法。最终通过两项关键的技术: 1.Python的GPU与CPU进程分离，2.使用TensorRT对模型进行加速，使得线上大部分模型服务QPS提升5-10倍左右，大量节约了线上GPU推理服务的成本。

02

性能优化谁不会？flask+gunicorn+ pytorch+...

现有一个古诗自动生成的训练接口，该接口通过Pytorch来生训练模型（即生成古诗）为了加速使用到了GPU，但是训练完成之后GPU未能释放。故此需要进行优化，即在古诗生成完成之后释放GPU。该项目是一个通过Flask搭建的web服务，在服务器上为了实现并发采用的是gunicorn来启动应用。通过pythorch来进行古诗训练。项目部署在一个CentOS的服务器上。

03

PyTorch多GPU并行训练方法及问题整理

以下都在Ubuntu上面进行的调试, 使用的Ubuntu版本包括14, 18LST

03

双引擎 GPU 容器虚拟化，用户态和内核态的技术解析和实践分享

来源 | 经授权转载自百度智能云技术站公众号如何让硬件算力发挥最大效率，是所有资源运营商和用户非常关注的问题。百度作为一家领先的 AI 公司，拥有可能是业界最全的 AI 应用场景。在这篇文章中，将和大家分享和讨论 GPU 容器虚拟化在复杂AI场景中的解决方案和厂内的最佳实践。下面这张图片的左右两部分，在不同场合下已经多次展示过，放到这里主要想强调算力需求 —— 硬件算力的指数型增长，与真实应用场景中利用率偏低资源浪费之间的矛盾。左边的部分是 OpenAI 统计的数据，从 2012 年以来，模

02

[源码解析] PyTorch 如何使用GPU

在 PyTorch DataParallel 训练过程中，其会在多个GPU之上复制模型副本，然后才开始训练。笔者在分析过程中，发现如果不把一些GPU相关基础知识整理出来，很难理解DataParallel的这个复制模型的过程，遂有此文。

04

NeurIPS顶会接收，PyTorch官方论文首次曝光完整设计思路

论文地址：https://papers.nips.cc/paper/9015-pytorch-an-imperative-style-high-performance-deep-learning-library.pdf

02

加速 PyTorch 模型训练的 9 个技巧

让我们面对现实吧，你的模型可能还停留在石器时代。我敢打赌你仍然使用32位精度或GASP甚至只在一个GPU上训练。

02

用 Pytorch 训练快速神经网络的 9 个技巧

这份终极指南从简单到复杂，一步步教你清除模型中所有的GP模型，直到你可以完成的大多数PITA修改，以充分利用你的网络。

04

基于容器的AI系统开发——百度PaddlePaddle解析

作者 | 王鹤麟、于洋、王益责编 | 何永灿基于深度学习的AI系统是由深度学习框架、AI应用以及服务部署组成的一个闭环。在PaddlePaddle的开发与使用过程中，我们发现框架和AI应用的开发及服务部署，都可以基于Docker完成，让流程简化。开发痛点编译工具难配置编译AI系统需要安装很多工具（PaddlePaddle需要40个工具，TensorFlow需要51个），编译环境很难配置。作为一个开源项目，PaddlePaddle的编译环境必须非常容易配置，这样才会有更多的开发者加入进来。编译工具

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭