机器之心-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器之心

专栏成员

9145

文章

6880469

阅读量

281

订阅数

首个在ImageNet上精度超过80%的二值神经网络BNext问世，-1与+1的五年辛路历程

深度学习神经网络批量计算

两年前，当 MeliusNet 问世时，机器之心曾发表过一篇技术文章《第一次胜过 MobileNet 的二值神经网络，-1 与 + 1 的三年艰苦跋涉》，回顾了 BNN 的发展历程。彼时，依靠早期 BNN 工作 XNOR-Net 起家的 XNOR.AI 被苹果公司收购，大家曾畅想过这种低功耗、高效能的二值神经网络技术会不会即将开启广阔的应用前景。

2022-12-16

5960

仅需1% Embedding参数，硬件成本降低十倍，开源方案单GPU训练超大推荐模型

批量计算深度学习 pytorch 缓存

深度推荐模型（DLRMs）已经成为深度学习在互联网公司应用的最重要技术场景，如视频推荐、购物搜索、广告推送等流量变现业务，极大改善了用户体验和业务商业价值。但海量的用户和业务数据，频繁地迭代更新需求，以及高昂的训练成本，都对 DLRM 训练提出了严峻挑战。

2022-12-15

6400

一番实验后，有关Batch Size的玄学被打破了

腾讯云测试服务批量计算神经网络

作者：Sebastian Raschka 机器之心编译编辑：泽南有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥更好性能，因此设置成 16、32、64、128 … 时，往往要比设置为其他倍数时表现更优。后者是否是一种玄

2022-07-12

4230

大模型训练之难，难于上青天？预训练易用、效率超群的「李白」模型库来了！

分布式 https 网络安全批量计算

机器之心发布机器之心编辑部 LiBai（李白）模型库覆盖了 Hugging Face、Megatron-LM、DeepSpeed、FairSeq 这些所有主流 Transformer 库的优点，让大模型训练飞入寻常百姓家。大模型多了去了，告诉我怎么加速？自 2018 年 BERT 诞生，到 GPT-3、ViT 等拥有数以亿计的参数规模的模型不断涌现，AI 模型参数量的爆发式增长已不足为奇，让炼丹师无暇顾及甚至感到麻木。与此同时，大模型对计算和内存资源提出了巨大的挑战。训练成本急剧上升，比如用一块非

2022-07-07

1.1K0

CVPR 2022 | 这个自蒸馏新框架新SOTA，降低了训练成本，无需修改网络

批量计算深度学习

机器之心专栏机器之心编辑部 OPPO 研究院联合上海交通大学提出的新的自蒸馏框架DLB，无需额外的网络架构修改，对标签噪声具有鲁棒性，并可大幅节约训练的空间复杂度，在三个基准数据集的实验中达到了 SOTA 性能。深度学习促进人工智能（AI）领域不断发展，实现了许多技术突破。与此同时，如何在有限硬件资源下挖掘模型潜能、提升部署模型的准确率成为了学界和业界的研究热点。其中，知识蒸馏作为一种模型压缩和增强的方法，将泛化能力更强的「大网络模型」蕴含的知识「蒸馏」到「小网络模型」上，来提高小模型精度，广泛地应

2022-04-08

1.1K0

用图像混合学习更细粒度的特征表示，CMU邢波团队新论文入选AAAI 2022

https 监督学习网络安全批量计算腾讯云测试服务

文章核心思想非常直观易懂：希望去探究在自监督学习常用的双子结构网络中，通过在输入空间做图像融合来学习更加细粒度的特征表示。核心内容讨论了如何来设计数据采样和构建对应的损失函数，从而去匹配图像融合之后新的输入空间。

2022-02-18

4300

新入坑的SageMaker Studio Lab和Colab、Kaggle相比，性能如何？

批量计算开源 https 网络安全

一周前，亚马逊启动了 SageMaker Studio 的免费简化版 SageMaker Studio Lab，提供了一个时限为12小时的 CPU 实例和一个时限为 4 小时的 GPU 实例。SageMaker Studio Lab 成为继 Google Colab、Kaggle 和 Paperspace 之后的又一个免费深度学习计算空间。

2021-12-16

2.4K0

NeurIPS2021 | 华南理工提出SS-Conv：兼顾加速与SE(3)等变性，3D空间姿态估计突出

图像处理卷积神经网络批量计算数据库 sql

近年来，SE(3) 等变网络在 3D 语义分析任务中发挥着重要的作用，尤以 3D 姿态可控卷积神经网络为代表。3D 姿态可控卷积神经网络利用姿态可控卷积（ST-Conv）逐层学习姿态等变的特征，从而保留 3D 输入的姿态信息。直观地说，对于一个 ST-Conv，关于 3D 输入的任意 SE(3) 变换(r,t)，都将诱导输出特征的同步姿态变换，其中r ∈SO(3)表示旋转，

2021-12-08

3580

速度高达百万帧/秒，颜水成团队开源RL环境并行模拟器，大幅节省CPU资源

c++api 批量计算 python

在强化学习（RL）智能体模拟训练中，环境高速并行执行引擎至关重要。最近，新加坡 Sea AI Lab 颜水成团队提出一个全新的环境模拟并行部件 EnvPool，该部件在不同的硬件评测上都达到了优异的性能。

2021-11-18

6790

如何让Transformer在GPU上跑得更快？快手：需要GPU底层优化

NLP 服务批量计算 apache 深度学习

从 Google 在 2017 年发表著名的「Attention is all you need」文章开始，Transformer 架构就开始攻占 AI 的多个领域：不仅成为自然语言处理（NLP）和语音等很多 AI 应用的默认核心架构，同时也成功跨界到计算机视觉方向，在超分辨率、图像识别和物体检测中取得 state-of-the-art 的性能。

2021-02-23

1.6K0

让PyTorch训练速度更快，你需要掌握这17种方法

pytorch https 网络安全深度学习批量计算

近日，Reddit 上一个帖子热度爆表。主题内容是关于怎样加速 PyTorch 训练。原文作者是来自苏黎世联邦理工学院的计算机科学硕士生 LORENZ KUHN，文章向我们介绍了在使用 PyTorch 训练深度模型时最省力、最有效的 17 种方法。

2021-01-20

5420

三辩三驳：这篇论文告诉你传统优化分析与现代DL有哪些不匹配

深度学习批量计算

从事机器学习方面相关研究的人都了解，网络模型的最终性能少不了优化。其中损失函数扮演了非常重要的角色，而随机梯度下降算法（SGD）由于其良好的收敛性，常常被用来进行梯度更新。为了加快收敛速度，缩短训练时间，同时为了提高求解精度，采用随机梯度下降算法应该注意学习率（Learning Rate, LR）等参数的调整。那么 LR 的大小对现代深度学习与传统优化分析的是怎样的呢？下面通过一篇论文进行解答。

2020-11-13

7090

CPU推理性能提高数十倍，旷视天元计算图、MatMul优化深度解读

缓存 kernel 深度学习批量计算

在深度学习大规模落地边缘端场景的今天，如何最大程度降本增效，是企业与开发者共同关注的话题。其中，模型的训练与推理是两个关键环节。

2020-08-10

4730

工程之道：旷视天元框架亚线性显存优化技术解析

批量计算深度学习机器学习人工智能神经网络

深度神经网络训练是一件复杂的事情，它体现为模型的时间复杂度和空间复杂度，分别对应着计算和内存；而训练时内存占用问题是漂浮在深度学习社区上空的一块乌云，如何拨云见日，最大降低神经网络训练的内存占用，是一个绕不开的课题。

2020-05-19

6290

Kaggle竞赛硬件如何选择？不差钱、追求速度，那就上TPU吧

机器学习神经网络人工智能批量计算

图 1：在 Kaggle Notebook 中可以免费使用 CPU、GPU 和 TPU。

2020-03-11

1.9K0

应聘机器学习工程师？这是你需要知道的12个基础面试问题

神经网络机器学习人工智能深度学习批量计算

这些问题是我在面试 AI 工程师岗位时常问到的问题。事实上，并非所有面试都需要用到所有这些问题，因为这取决于面试者的经验以及之前做过的项目。经过很多面试（尤其是与学生的面试）之后，我收集了 12 个深度学习领域的面试问题。我将在本文中将其分享给你。

2020-02-12

3880

哈希革新Transformer：这篇ICLR高分论文让一块GPU处理64K长度序列

编程算法批量计算

大型的 Transformer 往往可以在许多任务上实现 sota，但训练这些模型的成本很高，尤其是在序列较长的时候。在 ICLR 的入选论文中，我们发现了一篇由谷歌和伯克利研究者发表的优质论文。文章介绍了两种提高 Transformer 效率的技术，最终的 Reformer 模型和 Transformer 模型在性能上表现相似，并且在长序列中拥有更高的存储效率和更快的速度。论文最终获得了「8，8，6」的高分。

2019-12-30

5540

何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督

批量计算监督学习无监督学习

论文链接：https://arxiv.org/pdf/1911.05722.pdf

2019-11-15

6900

OpenAI智能体上演捉迷藏攻防大战，自创套路与反套路

游戏批量计算 https 网络安全

为了进行这个捉迷藏游戏，OpenAI 首先构建了一个包含墙、盒子和斜坡的 3D 环境。在这个环境中，智能体以团队为单位进行捉迷藏游戏。

2019-09-24

7590

有钱任性：英伟达训练80亿参数量GPT-2，1475块V100 53分钟训练BERT

NLP 服务 tensorflow kernel 批量计算

2）将 BERT 的推理时间缩短到了 2.2 毫秒（10 毫秒已经是业界公认的高水平）；

2019-08-20

1.8K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态