专栏首页量子位谷歌大脑新算法,不折腾TPU就能加快AI训练速度

谷歌大脑新算法,不折腾TPU就能加快AI训练速度

鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI

训练神经网络,硬件要过硬?现在谷歌提出强有力反驳。

GPU和像谷歌TPU这样的硬件加速器大大加快了神经网络的训练速度,推助AI迅速成长,在各个领域发挥超能力。

然而,硬件发展再迅速,也总有力有不逮的时候。

比如,由于芯片的架构方式,像数据预处理这样的训练pipeline早期阶段并不会受益于硬件加速器的提升。

谷歌大脑的科学家们可不希望看到算法掣肘硬件,于是他们研究出了一种名为“数据回放(Data Echoing)”的新技术。

加速神经网络训练速度,这回不靠折腾半导体。

Data Echoing的黑科技

新的加速方法的核心在于减少训练pipeline早期阶段消耗的时间。

按照经典的训练pipeline,AI系统先读取并解码输入数据,然后对数据进行混洗,应用转换扩充数据,然后再将样本收集到批处理中,迭代更新参数以减少误差。

Data Echoing是在pipeline中插入了一个阶段,在参数更新之前重复前一阶段的输出数据,理论回收空闲算力。

如果重复数据的开销可以忽略不计,并且echoing任意侧的阶段都是并行执行的,那么数据回放完成一个上游步骤和e个下游步骤的平均时间就是:

假设上游步骤花费的时间大于等于下游步骤花费的时间,你会发现附加的下游步骤是“免费”的,因为它们利用了空闲的下游容量。

data echoing缩短训练时间的关键在于上游步骤和下游步骤之间的权衡。

一方面,重复数据的价值可能会比新数据的价值低,那么data echoing就需要更多的下游SGD(随机梯度下降)更新来达到预期性能。

另一方面,data echoing中每个下游步骤仅需要1/e个上游步骤。

如果下游步骤因回放因子而增加的数量比e小,那么上游步骤的总数就会减少,总的训练时间也就减少了。

需要注意的是,有两个因素会影响在不同插入点处data echoing的表现:

在批处理前回放(echoing)

在批处理之前回放意味着数据是在样本级别而不是批处理级别重复和混洗的,这增加了临近批次不同的可能性,代价是批次内可能会有重复的样本。

在数据扩增前回放

在数据增强之前进行回放,重复数据就可能以不同的方式转换,这样一来重复数据就会更像新数据。

效果如何

研究团队对这一方法进行了实验,他们选择了两个语言模型任务,两个图像识别任务和一个对象检测任务,AI模型都是用开源数据集训练的。

实验中,“新”训练样本(训练样本从磁盘中被读取出来,就算做一个新的样本)的数目达到指定目标的时间就算作训练的时长。同时,研究人员也会调查data echoing是否减少了所需的样本数量。

除了用ImageNet训练的ResNet-50,data echoing的效率都比基线方法效率高。并且更早地在pipeline中插入echoing,训练所需的新样本会更少。

而随着批量大小的增加,data echoing相对于基线方法的改进会更加明显。

摩尔定律的黄昏

随着摩尔定律走向终结,要依靠芯片制造工艺的突破来实现人工智能算力的提升越来越困难,虽然有硬件加速器加持,但CPU这样的通用处理器依然成为了神经网络训练速度进一步提升的拦路虎。

另辟蹊径,以算法性能来突破重围,正在成为New sexy。

论文地址:https://arxiv.org/abs/1907.05550

本文分享自微信公众号 - 量子位(QbitAI),作者:关注前沿科技

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

    网上各种数据集鱼龙混杂,质量也参差不齐,简直让人挑花了眼。想要获取大型数据集,还要挨个跑到各数据集的网站,两个字:麻烦。

    量子位
  • 8种寻找机器学习数据集的方法 | 附数据集资源

    近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法。

    量子位
  • 搞AI的产品经理该怎么写PRD?谷歌的导师教你

    最近,谷歌机器学习X 和TensorFlow X团队的产品领导者Clemens Mewald在Medium上发表了一篇文章,详细介绍在开发涉及到机器学习的产品时...

    量子位
  • 数据流编程教程:R语言与DataFrame

    DataFrame DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。 一. DataFrame数据流编程 ? 二....

    小莹莹
  • “魔方大数据——新零售+数据智能论坛”在上海圆满落幕

    7月17日,由沪苏浙皖四地大数据联盟共同主办的“2018长三角数据智能合作(上海)峰会”在国家会展中心上海洲际酒店成功举办。大会汇集了超过100名数字经济工作相...

    数据猿
  • 3月6日数据动态早报 | 利用大数据防范金融风险

    数据动态早报,让您了解数据新变化,新创造和新价值。 ? ---- 一、通信行业数据动态 1 3月3日,在中国信息通信研究院和新华网联合主办的“网络强国和实体...

    陆勤_数据人网
  • 大数据24小时 | 甲骨文5000万美元收购大数据公司Crosswise 欧盟即将出台首部“数据保护法案”

    Oracle以5000万美元收购大数据公司Crosswise ? 近日, Oracle(甲骨文公司)宣布已完成对大数据公司Crosswise的收购,成交价在50...

    数据猿
  • 大数据投融资周报(4月16日—4月22日:共5起)

    <数据猿导读> 在本周(4月16日——4月22日),大数据领域共发生5起投融资事件。其中,承德市政府在京签订了14个大数据产业项目,总投资达205亿元;Orac...

    数据猿
  • 大数据24小时 | 滴滴45亿美元融资入账,Uber后脚打入旅游市场,出行“死对头”竞争太惨烈!

    <数据猿导读> 滴滴45亿美元股权融资入账,将用于大数据研发;Uber中国开辟旅游市场,用大数据为旅行者私人订制;传统媒体瞄上大数据,人民日报与腾讯“搭伙”共建...

    数据猿
  • 手把手教你调试代码并使用Echarts进行数据可视化

    大家好,在昨天的文章中我们详细讲解了如何使用requests+bs4爬取美国疫情实时数据,但是在文章发布之后大约三个小时就有读者后台留言说怎么代码不能用了,在第...

    刘早起

扫码关注云+社区

领取腾讯云代金券