开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

gpu模型训练平台

GPU模型训练平台

概念

GPU模型训练平台是一种基于图形处理器（GPU）的硬件设备，用于加速深度学习模型的训练过程。GPU具有大量的计算单元，可以同时处理大量的数据，从而大大提高训练速度。

分类

GPU模型训练平台可以分为以下几类：

独立GPU：专门用于训练模型的GPU设备。
集成GPU：内置在CPU中的GPU，可以同时进行计算和训练任务。
GPU云服务：基于云计算技术，提供GPU资源的服务。

优势

高性能：GPU具有大量的计算单元，可以同时处理大量的数据，从而大大提高训练速度。
低成本：与其他训练平台相比，GPU模型训练平台成本较低。
高灵活性：可以根据需要选择不同规格的GPU设备，以适应不同规模的训练任务。

应用场景

深度学习模型训练：GPU模型训练平台可以加速深度学习模型的训练过程，提高模型的准确性和效率。
计算机视觉：GPU模型训练平台可以用于计算机视觉任务，如图像识别、物体检测等。
自然语言处理：GPU模型训练平台可以用于自然语言处理任务，如语音识别、机器翻译等。

推荐的腾讯云相关产品和产品介绍链接地址

腾讯云CVM：https://cloud.tencent.com/product/cvm
腾讯云GPU云服务器：https://cloud.tencent.com/product/gpu
腾讯云深度学习框架：https://cloud.tencent.com/product/dlc

结论

GPU模型训练平台是一种基于图形处理器的硬件设备，可以用于加速深度学习模型的训练过程。腾讯云提供了多种GPU相关的产品和服务，以满足不同用户的需求。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

腾讯深度学习平台亮相机器学习顶级会议ICML2014

引言：深度学习是近年机器学习领域的重大突破，有着广泛的应用前景。随着Google公开Google Brain计划，业界对深度学习的热情高涨。百度成立深度学习研究院，腾讯也启动了深度学习的研究。腾讯在深度学习领域持续投入，获得了实际落地的产出。本文是腾讯深度学习系列文章的第一篇。我们准备了四篇文章，阐述深度学习的原理和在腾讯的实践。 2014年6月22日，腾讯深度学习平台（Tencent Deep Learning Platform）于国际机器学习领域顶级会议ICML2014上首次公开亮相，揭秘了腾讯深度学习

09

深度神经网络DNN的多GPU数据并行框架及其在语音识别的应用

深度神经网络（Deep Neural Networks, 简称DNN）是近年来机器学习领域中的研究热点，产生了广泛的应用。DNN具有深层结构、数千万参数需要学习，导致训练非常耗时。GPU有强大的计算能力，适合于加速深度神经网络训练。DNN的单机多GPU数据并行框架是腾讯深度学习平台的一部分，腾讯深度学习平台技术团队实现了数据并行技术加速DNN训练，提供公用算法简化实验过程。对微信语音识别应用，在模型收敛速度和模型性能上都取得了有效提升——相比单GPU 4.6倍加速比，数十亿样本的训练数天收敛，测试集字错率

07

基于Spark的异构分布式深度学习平台

文/张伟德，曲宁，刘少山导读：本文介绍百度基于Spark的异构分布式深度学习系统，把Spark与深度学习平台PADDLE结合起来解决PADDLE与业务逻辑间的数据通路问题，在此基础上使用GPU与FPGA异构计算提升每台机器的数据处理能力，使用YARN对异构资源做分配，支持Multi-Tenancy，让资源的使用更有效。深层神经网络技术最近几年取得了巨大的突破，特别在语音和图像识别应用上有质的飞跃，已经被验证能够使用到许多业务上。如何大规模分布式地执行深度学习程序，使其更好地支持不同的业务线成为当务之急。

08

腾讯高性能计算服务星辰.机智，海量算力，智造未来

一、背景 AI时代已经来临，AI将越来越深刻的影响和改变我们的生活。还记得目光深邃，功能多样的机械姬吗？也许这一天也不会太远。智造AI，需要数据、算力、算法，怎么样高效率的将这三者结合在一起，生产满足需求的AI，是每一个产品团队，尤其是团队中算法工程师面临的问题。 TEG星辰和机智团队希望搭建一个稳定高效可依赖的AI算力基础设施环境，帮助产品团队加速产品的研发迭代，目前看已初步取得了一些成果，星辰算力为全公司提供统一的CPU/GPU算力服务。机智加速机器学习平台基于星辰算力，在计算加速能力上具备行

04

单机训练速度提升高达640倍，快手开发GPU广告模型训练平台

如何有效处理大规模用户数据进行广告推荐？对于互联网企业的发展和进步至关重要。这也是为何快手成立西雅图实验室并实现新一代GPU广告模型训练平台的原因之一。快手新创建的“Persia”GPU广告模型训练平台比起传统CPU训练平台，单机训练速度提升可达几百倍，在约一小时内即可训练百T级别数据量，并能通过设计算法得到相对于传统训练平台精度更高的模型，对企业收入、计算资源的节约和新模型开发效率产生直观的提升。

04

Mariana: 深度学习在腾讯的平台化和应用实践

引言：深度学习是近年机器学习领域的重大突破，有着广泛的应用前景。随着Google公开Google Brain计划，业界对深度学习的热情高涨。腾讯在深度学习领域持续投入，获得了实际落地的产出。我们准备了四篇文章，阐述深度学习的原理和在腾讯的实践，介绍腾讯深度学习平台Mariana，本文为第一篇。深度学习（Deep Learning）是近年来机器学习领域的热点，在语音识别、图像识别等领域均取得了突破性进展。腾讯提供广泛的互联网服务，在2014年第一季度，即拥有3.96亿月活跃用户的微信，8.48亿月活跃用户的

08

拆掉英伟达护城河，细节曝光！世界最快超算用3072块AMD GPU训完超万亿参数LLM

位于美国橡树岭国家实验室（Oak Ridge National Laboratory）的全世界最大的超算Frontier，集合了37888个MI250X GPU和9472个Epyc 7A53 CPU。

01

美团深度学习系统的工程实践

深度学习作为AI时代的核心技术，已经被应用于众多场景。在系统设计层面，由于它具有计算密集的特性，所以与传统的机器学习算法在工程实践过程中存在诸多的不同。本文将介绍美团平台在应用深度学习技术的过程中，相关系统设计的一些经验。

03

英伟达 H100 vs. 苹果M2，大模型训练，哪款性价比更高？

关键词：M2芯片；Ultra；M1芯片；UltraFusion；ULTRAMAN；RTX4090、A800;A100；H100；LLAMA、LM、AIGC、CHATGLM、LLVM、LLM、LLMs、GLM、NLP、ChatGPT、AGI、HPC、GPU、CPU、CPU+GPU、英伟达、Nvidia、英特尔、AMD、高性能计算、高性能服务器、蓝海大脑、多元异构算力、高性能计算、大模型训练、大型语言模型、通用人工智能、GPU服务器、GPU集群、大模型训练GPU集群、大语言模型

03

业界 | 哪家GPU云提供商最合适？也许这份评测能给你答案

选自RARE Technologies 作者：Shiva Manne 机器之心编译参与：Panda 做深度学习开发和实验既可以选择自己搭建硬件平台（参阅《深度 | 从硬件配置到软件安装，一台深度学习机器的配备指南》），也可以向 GPU 提供商购买使用服务。本文介绍了 RARE Technologies 的 Shiva Manne 对几个主要 GPU 平台的评测结果，希望能为想要选择最适合自己的平台的企业或开发者提供帮助。我们最近发表了使用 word2vec 的大规模机器学习基准评测文章，参阅：https

09

深度卷积神经网络 CNNs 的多 GPU 并行框架及其在图像识别的应用

将深度卷积神经网络（Convolutional Neural Networks, 简称CNNs）用于图像识别在研究领域吸引着越来越多目光。由于卷积神经网络结构非常适合模型并行的训练，因此以模型并行+数据并行的方式来加速Deep CNNs训练，可预期取得较大收获。Deep CNNs的单机多GPU模型并行和数据并行框架是腾讯深度学习平台的一部分，腾讯深度学习平台技术团队实现了模型并行和数据并行技术加速Deep CNNs训练，证实模型拆分对减少单GPU上显存占用有效，并且在加速比指标上得到显著收益，同时可

05

Llama2推理RTX3090胜过4090，延迟吞吐量占优，但被A800远远甩开

大型语言模型 (LLM) 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵，需要大量的计算资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而，不同硬件和软件堆栈的运行时性能可能存在很大差异，这使得选择最佳配置变得困难。

01

飞桨推出异构参数服务器架构，异构硬件高效组合，训练速度提升65%以上

眼看着就要到「双 11」就要到了，对于广大网购爱好者来说那绝对是不可错过的狂欢时刻！当今网购之所以如此火爆，不仅仅是营销策划的作用，智能化的搜索推荐技术也可以说是功不可没。它能把你日思夜想或者潜意识中动过购买念头的商品通通推送到你的面前，甚至会让人有一种冥冥自有天意、不买对不起上苍的感觉。而这背后往往都会有深度学习领域中个性化推荐模型发挥着威力。为了能够更准确的预知用户的内心需求，快速训练出效果良好的推荐模型并尽快部署上线，成为了各大网购业务相关企业的共同追求。

02

免费GPU哪家强？谷歌Kaggle vs. Colab

作者 | Jeff Hale 译者 | Monanfei 责编 | 夕颜出品 | AI科技大本营（id：rgznai100）

05

GPT-3的威力，算法平台的阴谋

当时它向世界展示的能力是，“不仅会写短文，而且写出来的作文挺逼真的，几乎可以骗过人类，可以说几乎通过了图灵测试。”

01

得物AI平台-KubeAI推理训练引擎设计和实践

KubeAI是得物AI平台，是我们在容器化过程中，逐步收集和挖掘公司各业务域在AI模型研究和生产迭代过程中的需求，逐步建设而成的一个云原生AI平台。KubeAI以模型为主线提供了从模型开发，到模型训练，再到推理(模型)服务管理，以及模型版本持续迭代的整个生命周期内的解决方案。

02

飞桨推出异构参数服务器架构，异构硬件高效组合，训练速度提升65%以上

眼看着就要到「双 11」就要到了，对于广大网购爱好者来说那绝对是不可错过的狂欢时刻！当今网购之所以如此火爆，不仅仅是营销策划的作用，智能化的搜索推荐技术也可以说是功不可没。它能把你日思夜想或者潜意识中动过购买念头的商品通通推送到你的面前，甚至会让人有一种冥冥自有天意、不买对不起上苍的感觉。而这背后往往都会有深度学习领域中个性化推荐模型发挥着威力。为了能够更准确的预知用户的内心需求，快速训练出效果良好的推荐模型并尽快部署上线，成为了各大网购业务相关企业的共同追求。

03

Mariana DNN 多 GPU 数据并行框架

本文是腾讯深度学习系列文章的第二篇，聚焦于腾讯深度学习平台Mariana中深度神经网络DNN的多GPU数据并行框架。深度神经网络（Deep Neural Networks, 简称DNN）是近年来机器学习领域中的研究热点[1][2]，产生了广泛的应用。DNN具有深层结构、数千万参数需要学习，导致训练非常耗时。GPU有强大的计算能力，适合于加速深度神经网络训练。DNN的单机多GPU数据并行框架是Mariana的一部分，Mariana技术团队实现了数据并行技术加速DNN训练，提供公用算法简化实验过程。对微信

05

47分钟，BERT训练又破全新纪录！英伟达512个GPU训练83亿参数GPT-2 8B

NVIDIA DGX SuperPOD在短短47分钟内训练BERT-Large，并训练GPT-2 8B，这是有史以来最大的具有8.3Bn参数的Transformer网络。

02

斗鱼基于 kubernetes 的深度学习实践

我们首先说一下深度学习在斗鱼的应用场景。斗鱼在深度学习这一块，有两个部门在做这个事，基本上就是分为两大场景，一个是大数据场景，一个是视觉场景。

02

AI 热潮造成的芯片短缺有一个意料之外的救世主：区块链

现在，一些行业内的企业家已经找到了它能够解决的问题，那就是训练 AI 模型所面临的计算能力短缺。

01

世界纪录！4分钟训练完ImageNet！可扩展超大规模GPU收敛算法详解

【新智元导读】腾讯机智机器学习平台和香港浸会大学计算机科学系褚晓文教授团队合作，在ImageNet数据集上，4分钟训练好AlexNet，6.6分钟训练好ResNet-50，创造了AI训练世界新纪录。本文带来详细解读。

05

4分钟训练ImageNet！腾讯机智创造AI训练世界纪录

4分钟训练ImageNet！腾讯机智创造AI训练世界纪录 by 腾讯机智团队注：腾讯机智机器学习平台由TEG架构平台部和运营管理部团队携手，并和中国香港浸会大学计算机科学系褚晓文教授团队深度合作联袂打造。为了让大家可以更好的理解「如何4分钟训练ImageNet」，腾讯技术工程公众号特别邀请腾讯机智团队的工程师通过语音录播分享的方式在「腾讯技术课」里同步录制了语音+PPT解说版。背景 2018年6月25日，OpenAI在其Dota2 5v5中取得一定成绩后介绍，其在训练中batch

00

动态 | 4分钟训练ImageNet！腾讯机智创造AI训练世界纪录

注：腾讯机智机器学习平台由TEG架构平台部和运营管理部团队携手，并和香港浸会大学计算机科学系褚晓文教授团队深度合作联袂打造。本文转载自腾讯技术工程公众号

01

业界 | 4分钟训练ImageNet！腾讯机智创造AI训练世界纪录

2018年6月25日，OpenAI在其Dota2 5v5中取得一定成绩后介绍，其在训练中batch size取100W，而1v1的训练batch size更是达到800W；训练时间则是以周计。腾讯内部对游戏AI一直非常重视，也面临大batch size收敛精度和低训练速度慢的问题；目前batch size超过10K则收敛不到基准精度，训练时间以天计，这对于快速迭代模型来说是远远不够的。

03

7 天花 5 万美元，我们成功复制了 Stable Diffusion，成本大降 88%！训练代码已开源

作者 | Mihir Patel, Cory Stephenson, Landan Seguin 译者 | 核子可乐策划 | 刘燕 4 月 26 日，AI 创企 Mosaic ML 表示：我们已经成功用不到 5 万美元复制了 Stable Diffusion，并将训练代码向大家开放！这样的成本水平只相当于我们之前试水项目的三分之一，更是 Stable Diffusion 2 base 本体的八分之一。换言之，每个人都能以前所未有的极低门槛训练出属于自己的 Stable Diffusion。 M

02

Facebook如何运用机器学习进行亿级用户数据处理

编译 | 刘畅、尚岩奇、林椿眄审校 | reason_W 2017年末，Facebook应用机器学习组发布最新论文，对整个Facebook的机器学习软硬件架构进行了介绍。纵览全文，我们也可以从中对Facebook各产品的机器学习策略一窥究竟。论文中涉及到机器学习在全球规模(上亿级数据处理)上的全新挑战，并给出了Facebook的应对策略和解决思路，对相关行业和研究极其有意义。摘要机器学习在Facebook的众多产品和服务中都有着举足轻重的地位。本文将详细介绍Facebook在机器学习方面的软硬件

05

Facebook 的应用机器学习平台

机器学习是Facebook许多重要产品和服务的核心技术。这篇论文来自Facebook的17位科学家和工程师，向世界介绍了Facebook应用机器学习的软件及硬件架构。本着“赋予人们建立社区的力量，使世界更紧密地联系在一起”的使命，到2017年12月，Facebook已经将全球超过二十亿人连接在一起。同时，在过去几年里，机器学习在实际问题上的应用正在发生一场革命，这场革命的基石便是机器学习算法创新、大量的模型训练数据和高性能计算机体系结构进展的良性循环。在Facebook，机器学习提供了驱动几乎全部用户服务

05

腾讯云：为国产化智算云筑基

智算中心要达成的任务或者目标是，完成特定的一个或多个大模型训练或者推理的任务。而完成这个任务所需要的内容包括算法、数据和算力。因此，要求智算中心必须具备对算法进行开发、优化、调度的模型管理能力，算力和数据所对应的高性能计算和高性能存储能力，以及算力和数据交互所需要的高性能网络能力。

01

用GPU加速Keras模型——Colab免费GPU使用攻略

本文将介绍对Keras模型训练过程进行加速的方法。重点介绍Google 的Colab平台的免费GPU资源使用攻略。

03

BAT小米深度学习平台，你会选择哪一家

简介近日重温了《深度学习在腾讯的平台化和应用实践（全）》，感兴趣可以在这里阅读 https://zhuanlan.zhihu.com/p/21852266 ，里面介绍了腾讯在深度学习平台基础架构上细致的工作，本人在2016 C++及系统软件大会上也分享了小米cloud machine learning平台的细节，在此给大家总结和对比一下。腾讯Mariana平台在前面提到的文章中，已经详细介绍了腾讯深度学习平台，也就是Mariana项目的实现细节了，这是一个真正意义上的平台。在参考文献上也体现出来，腾讯

07

从机器学习到推荐系统，技术平台全面统一：火山引擎已经发动

机器之心原创作者：泽南从自动驾驶到推荐系统，机器学习的开发现在都可以用统一的平台完成了。不同机器学习任务，用统一的平台实现，速度成倍提升，GPU 调度 0 碎片，这是火山引擎最新开放的技术。 7 月 20 日，火山引擎 FORCE 原动力大会在北京举行。在活动中，品牌发布刚一年的火山引擎公布了一系列最新能力。在 AI 方面，火山引擎推出了机器学习与智能推荐平台多云部署解决方案。据火山引擎机器学习系统负责人项亮介绍，字节跳动内部抖音、西瓜视频、飞书等不同业务的 AI 训练任务，都基于统一的训练平台提交

01

TPU、GPU、CPU深度学习平台哪家强？有人做了一个基准测试研究

作者：Yu (Emma) Wang、Gu-Yeon Wei、David Brooks

03

数据集暴增压力下，微信「扫一扫」识物训练如何优雅破局？

引言微信“扫一扫”识物上线一段时间，由前期主要以商品图（鞋子/箱包/美妆/服装/家电/玩具/图书/食品/珠宝/家具/其他）作为媒介来挖掘微信内容生态中有价值的信息，扩张到各种垂类领域的识别，包括植物/动物/汽车/果蔬/酒标/菜品/地标识别等，识别核心依托于深度学习的卷积神经网络模型。随着每天千万级的增长数据和越来越多的模型参数量，深度学习训练一次时间大概需要一周左右。如何能够快速训练优化模型并上线，成为我们亟待解决的问题。一、引言如今，依托强大的GPU算力，深度学习得到迅猛发展。在图像处理、语音识

01

腾讯开源TurboTransformers，推理加速性能超越TensorRT等主流优化引擎

在自然语言处理领域，以 BERT 为代表的 Transformer 神经网络模型是近年来最重要的模型创新，为诸如阅读理解、文章摘要、语义分类、同义改写等 NLP 任务带了显著的效果提升。但 Transformer 在提高模型精度的同时，也引入了更多的计算量，这导致 Transformer 的线上 NLP 服务在部署方面面临着巨大挑战。

腾讯开源 TurboTransformers，推理加速性能超越 TensorRT 等主流优化引擎！

在自然语言处理领域，以 BERT 为代表的 Transformer 神经网络模型是近年来最重要的模型创新，为诸如阅读理解、文章摘要、语义分类、同义改写等 NLP 任务带了显著的效果提升。但 Transformer 在提高模型精度的同时，也引入了更多的计算量，这导致 Transformer 的线上 NLP 服务在部署方面面临着巨大挑战。

03

深度学习小白的福音：使用Deep Learning Studio不涉及任何编码，训练并配置深度学习模型

Deep Learning Studio是自2017年1月以来第一个强健的深度学习平台，有云计算和桌面计算两个版本，该平台拥有可视化界面。该平台提供了数据提取，模型开发，训练，配置和管理等全面解决方案。Deep Learning Studio由Deep Cognition开发，这是一家人工智能软件公司，它简化了开发和配置人工智能的过程。AI工程师，数据科学家和全球的研究人员免费使用AI软件平台Deep Learning Studio。通过使用Deep Learning Studio，从开发人员到工程师或研究人员，任何人都可以通过与TensorFlow，MXNet和Keras的强大集成获得快速开发和配置深度学习解决方案的能力。

02

腾讯云什么产品可以满足大型语言模型的开发需求？

腾讯云提供了多种产品和服务，可以满足大型语言模型的开发需求，以下是一些常用的产品和服务：

02

Mariana CNN 并行框架与图像识别

本文是腾讯深度学习系列文章的第三篇，聚焦于腾讯深度学习平台Mariana中深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框架。将深度卷积神经网络（Convolutional Neural Networks, 简称CNNs）用于图像识别在研究领域吸引着越来越多目光。由于卷积神经网络结构非常适合模型并行的训练，因此以模型并行+数据并行的方式来加速Deep CNNs训练，可预期取得较大收获。Deep CNNs的单机多GPU模型并行和数据并行框架是Mariana的一部分，Mariana技术团队

07

评测 | 谷歌 TPU 二代来了，英伟达 Tesla V100 尚能战否？

AI 研习社按：谷歌去年年中推出的 TPUv1 一度让英伟达感受到威胁将近，而现在的谷歌 TPU 二代 TPUv2 则着着实实得将这份威胁变成了现实，去年的评测中英伟达 Tesla V100 尚能不惧谷歌 TPUv1 的挑战，但是现在谷歌 TPU 二代来了，英伟达 Tesla V100 尚能战否？

01

丢人！Caffe2推出才几天，就被谷歌TensorFlow吊打了

两周前，Facebook大张旗鼓地开源了Caffe2深度学习框架，它在英伟达DGX-1平台上的高性能表现极为亮眼。 Google立刻动手反制，没几天就给出新版的TensorFlow测试数据，在性能上开始压制Caffe2。由此看来，要在人工智能上赶超Google，Facebook仅仅靠模仿还是不够的，而Google也绝不甘心坐以待毙。不管怎么说，留给Facebook的时间不多了。我们先来对比一下双方的测试结果：除了VGG16模型测试中的8核数据，其余结果上TensorFlow均处于优势。

06

鹅厂发布的这个算力集群，最快4天训练万亿参数大模型

大模型要成功，算力是关键。这是腾讯云面向大模型训练场景，发布的全新一代的HCC高性能计算集群性能参数： “算力性能和上一代相比提升3倍，服务器接入带宽从1.6T提升到3.2T。” 采用最新一代腾讯云星星海自研服务器，并搭载NVIDIA H800 Tensor Core GPU的这代HCC高性能集群，单GPU卡支持输出最高1979 TFlops的算力。具体强在哪里？去年10月，腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下，将训练时间由50天缩短到11天。如果基于新一代集群，训

05

登顶全球最权威AI性能基准评测，百度飞桨给分布式训练创造了标杆

从问答、翻译、作画再到写论文，最近一段时间，实现各种神奇能力的 AI 总有个「大模型」的称号。

03

芯片是如何为ChatGPT提供算力的？怪不得地球都容不下它了

👆点击“博文视点Broadview”，获取更多书讯近日，ChatGPT因大规模封号及关闭Plus付费会员的申请引发大家热议。有网友说这是因为计算资源不够了，已经不单是靠钱能解决得了的问题，地球上已经没有足够的算力来满足ChatGPT的运行需求了。 AI的发展真的会被算力所限制吗？它和芯片又有怎样的关系？ 01 芯片：算力决定智力 AI的“三驾马车”是数据、算法和算力。我们将数据送入AI算法，由算法学习数据中的规律，这意味着要进行无数次运算。运算的背后是芯片提供的算力支持。如果我们回顾AI算法的

01

麻省理工 HAN Lab 提出 ProxylessNAS 自动为目标任务和硬件定制高效 CNN 结构

摘要：NAS 受限于其过高的计算资源 (GPU 时间, GPU 内存) 需求，仍然无法在大规模任务 (例如 ImageNet) 上直接进行神经网络结构学习。目前一个普遍的做法是在一个小型的 Proxy 任务上进行网络结构的学习，然后再迁移到目标任务上。这样的 Proxy 包括: (i) 训练极少量轮数; (ii) 在较小的网络下学习一个结构单元 (block)，然后通过重复堆叠同样的 block 构建一个大的网络; (iii) 在小数据集 (例如 CIFAR) 上进行搜索。然而，这些在 Proxy 上优化的网络结构在目标任务上并不是最优的。在本文中，我们提出了 ProxylessNAS，第一个在没有任何 Proxy 的情况下直接在 ImageNet 量级的大规模数据集上搜索大设计空间的的 NAS 算法，并首次专门为硬件定制 CNN 架构。我们将模型压缩 (减枝，量化) 的思想与 NAS 进行结合，把 NAS 的计算成本 (GPU 时间, GPU 内存) 降低到与常规训练相同规模，同时保留了丰富的搜索空间，并将神经网络结构的硬件性能 (延时，能耗) 也直接纳入到优化目标中。我们在 CIFAR-10 和 ImageNet 的实验验证了」直接搜索」和「为硬件定制」的有效性。在 CIFAR-10 上，我们的模型仅用 5.7M 参数就达到了 2.08% 的测试误差。对比之前的最优模型 AmoebaNet-B，ProxylessNAS 仅用了六分之一的参数量就达到了更好的结果。在 ImageNet 上，ProxylessNAS 比 MobilenetV2 高了 3.1% 的 Top-1 正确率，并且在 GPU 上比 MobilenetV2 快了 20%。在同等的 top-1 准确率下 (74.5% 以上), ProxylessNAS 的手机实测速度是当今业界标准 MobileNetV2 的 1.8 倍。在用 ProxylessNAS 来为不同硬件定制神经网络结构的同时，我们发现各个平台上搜索到的神经网络在结构上有很大不同。这些发现为之后设计高效 CNN 结构提供新的思路。

05

没有大招的火山引擎，拿下70%大模型玩家

鱼羊发自凹非寺量子位 | 公众号 QbitAI 有没有在开发大模型？在学习。什么时候发布大模型？没计划。当被问起自研大模型，字节跳动副总裁杨震原口风甚严。但席卷全球的这场大模型竞逐战，没有人会主动放弃阵地。最新线索，在上海露出端倪。火山引擎对外的最新技术、产品发布动作中，我们发现：炼大模型的基础设施，不仅已经在字节内部运转，还到了能够对外输出“技术秘籍”的阶段。直观的数字，更能说明情况：抖音2022年最火特效「AI绘画」，就是在火山引擎机器学习平台上训练而成。在训练场景下，基于Stable

01

今天学习如何用TLT和TensorRT做路标识别的训练和推理，你学废了么？

今天（9月20日）早上9点30分开始，参加第二届Sky Hackathon大赛的学生团队、导师和旁听的开发者，近200人参加了NVIDIA举办的赛前在线培训课程。

02

基于Pytorch多机分布式训练的实现

由Uber公司的开发的Horovod架构，是一个集成了多个深度学习的统一平台，提供分布式训练效率的同事，让深度学习分布式训练变得更方便。

05

2017 中国 AI 服务器市占率超 57%，看浪潮如何编织 AI 生态大网

随着深度学习带来 AI 的第三次浪潮，对 AI 的相关讨论层出不穷，算法是大家关注的重点。

04

100倍加速！深度学习训练神器Determined AI宣布开源！更快，更简单，更强大

作为一名深度学习科研人员，小编我可是深受模型训练的困扰：一个模型要跑几天几夜，结果最后发现有一步错了 ...从头再来

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭