首页
学习
活动
专区
工具
TVP
发布

新智元

专栏作者
8286
文章
5748976
阅读量
203
订阅数
GitHub收藏破万!谷歌联手哈佛发布首个炼丹指南:教你科学化「调参」
---- 新智元报道   编辑:LRS 【新智元导读】调参不能只靠直觉,也是一门大学问! 虽然算法工程师往往调侃自己是「调参侠」,但调参这件事可能真没想象中那么简单。 比如,你是不是经常会有疑惑到底该选择哪个优化器?一个batch放多少数据?超参数如何设置?难道真要网格搜索全实验一遍吗? 最近,来自谷歌和哈佛大学的研究人员以非官方的名义发布了一本《深度学习调参套路》,把调参这件玄之又玄的事试图用科学的方法来解释,目前已收获超过1万个stars 文档链接:https://github.com/goog
新智元
2023-02-24
3670
Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3
虽然大型语言模型在NLP领域展现出的强大性能十分惊人,但其带来的负面代价也很严重,比如训练过于昂贵,难以更新等。,而且很难处理长尾知识。
新智元
2023-01-09
1K0
如何实现2000万QPS?Meta揭秘背后的AI平台MultiRay:日均处理8000亿次请求!
无论是自然语言处理、计算机视觉或是其他领域的研究,当下的深度学习研究范式通常采用非常大的模型架构,对海量的数据进行训练,然后将其用于一个特定的任务上,从而取得更佳的结果。
新智元
2023-01-08
3210
训练ViT和MAE减少一半计算量!Sea和北大联合提出高效优化器Adan,深度模型都能用
自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。凭借着ViT结构,许多视觉任务的SoTA都得到了进一步提升,包括图像分类、分割、检测、识别等。
新智元
2023-01-07
5040
你的batch size是2次方吗?奇葩选手:我用2的8.5次方
---- 新智元报道   编辑:LRS 【新智元导读】你的batch size是多少?最近有大佬做实验表示没必要非得2次方,训练速度影响微乎其微,但评论区却吵翻天了! 你有没有疑惑过,为啥batch size都是2的幂数? 有人觉得是「习惯」,也有人说这算是一种约定俗成的标准,因为从「计算」的角度来看,batch size为2的幂数有助于提高训练效率。 但计算机科学就是一门实践的学科,理论再完美也需要实验结果来验证。 最近一位AI研究者Sebastian动手试了一下所有的batch size,结果发
新智元
2022-07-18
4550
OpenAI秘籍披露:一篇文章教会你训练大型神经网络
---- 新智元报道   编辑:LRS 【新智元导读】想知道那些超大规模神经网络都是怎么训出来的?OpenAI一篇文章总结:除了显卡要多,算法也很重要! 如今AI的很多进步都要归功于大型神经网络,尤其是大公司和研究机构提供的预训练模型更是推动了下游任务的进步。 但想自己动手训练一个大型神经网络并不简单,首先要面对的就是海量的数据、多机协调和大量GPU的调度工作。 一提到「并行」,冥冥之中就会感觉多了很多隐藏的bug。 最近OpenAI发布了一篇文章,详细介绍了一些训练大型神经网络的相关技术及底层原理
新智元
2022-06-20
5920
超算榜单TOP500创始人之一Jack Dongarra荣获图灵奖!高性能计算领域首次得奖
---- 新智元报道   编辑:David 好困 拉燕  【新智元导读】2021年图灵奖揭晓!高性能计算先驱、超算Top500创始人之一Jack Dongarra获奖,独享100万美元奖金。 20世纪70年代末,一位阿拉贡国家实验室的年轻研究员参与编写了名为「Linpack」的计算机代码,这段代码也让那些被后世称为超级计算机的系统可以运行复杂的数学计算。 20世纪90年代初,还是这位研究员,和他的同事们利用「Linpack」,又创造出了一种用于衡量超级计算机能力的全新测试,也就是测试超算每秒能进行多少
新智元
2022-04-01
3870
别再用平均池化层了!Meta AI把注意力塞到池化层,性能立刻提升0.3
Visual Transformer(ViT)作为计算机视觉领域的新兴霸主,已经在各个研究任务中逐渐替换掉了卷积神经网络CNN。
新智元
2022-02-24
7400
LeCun联手华人博士后arxiv发文,却遭reddit网友质疑:第一张图就错了!
神经网络模型训练最大的弊端在于需要大量的训练数据,而非监督学习和自监督学习则能很好地解决标注的问题。
新智元
2021-05-28
3550
2分31秒,腾讯云创造128卡训练ImageNet新记录
基于腾讯公有云25Gbps的VPC网络环境,使用128块V100,借助Light大规模分布式多机多卡训练框架,在2分31秒内训练 ImageNet 28个epoch,TOP5精度达到93%,创造128卡训练imagenet 业界新记录。
新智元
2020-08-28
1.7K0
数据和结构越大越精准!谷歌推出BigTransfer,计算机视觉领域最先进的迁移学习
ImageNet预训练的ResNet50s是目前提取图像表示的行业标准。BigTransfer(BiT)论文中分享的模型,即使每个类别只有几个例子,也能获得不错的效果,而且在许多任务中都取得了优于ResNet50s表现。
新智元
2020-06-01
3760
Quoc Le推新论文:打破常规,巧用对抗性样本改进图像识别性能
近日,谷歌大脑的创始成员和 AutoML 的缔造者之一Quoc Le再推新研究论文,在题为“对抗性样本改善图像识别”一文中提出一种增强的对抗训练将对抗性样本AdvProp。
新智元
2019-12-03
8310
Reddit热议:为什么PyTorch比TensorFlow更快?
近日,Reddit 上有一个热帖:为什么 PyTorch 和 TensorFlow 一样快 (有时甚至比 TensorFlow 更快)?
新智元
2019-08-29
2.5K0
Facebook最新论文:跨语言模型预训练,三大任务刷新最高性能
最近的研究已经证明,生成式预训练对于英语自然语言理解很有效。但该领域的研究基本上都是单语的,主要集中在英语。
新智元
2019-05-08
8100
74.7秒训练完ImageNet!刷新记录,2048 GPU暴力出奇迹
在过去两年中,深度学习的速度加速了 30 倍。但是人们还是对 “快速执行机器学习算法” 有着强烈的需求。
新智元
2019-05-08
9880
BERT训练猛提速!谷歌新研究将BERT预训练时间从3天缩短到76分钟
BERT 在 33 亿文本的语料上训练语言模型,再分别在不同的下游任务上微调,在11个不同的 NLP 任务均得到了目前为止最好的结果。
新智元
2019-05-08
3K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档