前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >业界 | 谷歌、百度等联合发布机器学习新基准MLPerf,旨在促进AI发展和公众参与

业界 | 谷歌、百度等联合发布机器学习新基准MLPerf,旨在促进AI发展和公众参与

作者头像
机器之心
发布2018-06-08 14:32:13
7490
发布2018-06-08 14:32:13
举报
文章被收录于专栏:机器之心机器之心

选自hpcwire

作者:John Russell

机器之心编译

参与:刘晓坤、路

昨日,来自学界和业界的多个组织(包括谷歌、百度、英特尔、AMD、哈佛和斯坦福)共同发布了新型基准 MLPerf,「用于衡量机器学习软硬件的速度」。

长期以来,市场上的 AI 性能对比一直比较粗略,鱼龙混杂且通用性不足,难以作为参考,但 AI 基准之战即将开始。今天,来自学界和业界的多个组织(包括谷歌、百度、英特尔、AMD、哈佛和斯坦福)共同发布了新型基准 MLPerf,「用于衡量机器学习软硬件的速度」。

上周,RiseML 发布博客,对比了谷歌的 TPUv2 和 Nvidia V100。今天,英特尔发布博客,展示了使用 RNN 执行机器翻译时选择软硬件的相关数据。

很长时间以来,围绕对有意义的 AI 基准出现大量讨论,支持者认为此类工具的缺乏限制了 AI 的应用。MLPerf 发布公告引用了 AI 领域先驱吴恩达的话:「AI 正在改变多个行业,但是要想完全发挥其潜力,我们仍然需要更快的硬件和软件。」我们希望更好、更标准化的基准能够帮助 AI 技术开发者创造出此类产品,允许采用者做出明智的 AI 技术选择。

MLPerf 称其主要目标是:

  • 通过公平、有用的度量来加速 ML 的进展;
  • 推动互相竞争的系统之间的公平对比,同时鼓励创新,以提升 ML 领域的当前最优水平;
  • 使基准测试可负担,所有人都可以参与其中;
  • 服务商业和研究社区;
  • 强制要求复现性,以确保结果的可靠性。

AI 性能对比(h/w 和 s/w)目前主要由既得利益者发布,如英特尔近日的博客《Amazing Inference Performance with Intel Xeon Scalable Processors》。这并不是在针对英特尔。此类对比通常包含有用的见解,但是它们通常用于展示一方比另一方的优势。标准化基准可以缓解这一状况。

MLPerf 在模拟之前的一些尝试,比如 SPEC(标准性能评估组织)。「SPEC 基准加速了通用计算方面的进步。SPEC 于 1988 年由多个计算公司联合成立。接下来的 15 年中 CPU 性能提升 1.6X/年。MLPerf 将之前基准的最佳实践结合起来:SPEC 使用的一套程序;SORT 的一个部门来做性能对比,另一个部门负责创新;DeepBench 覆盖产品中的软件部署;DAWNBench 的 time-to-accuracy 度量。」MLPerf 称。

Intersect360 Research 的 CEO Addison Snell 称:「现在那么多公司在发展 AI,提供基准测试的尝试具备极高的重要性,尤其是对于大量互相竞争的技术。但是,AI 领域非常多样化,我怀疑是否会出现主导的单一基准。想想五年前所有围绕大数据和分析学的热情;尽管每个人都尝试定义它,行业并没有提供一个统一、常用的基准。我认为 AI 领域也会是这种情况。」

Hyperion Research 的高级研究副总裁 Steve Conway 称 MLPerf 是「很好、很有用的」一步,「因为多年来对于买方和卖方来说确实缺乏一个基准来展现不同 AI 产品和解决方案之间的区别。这个基准似乎是为了解决如今 AI 早期主要的受限问题(bounded problem)而创建的。之后随着 AI 开始出现未受限问题(unbounded problem,它们将是经济上最重要的问题),我们将需要额外的基准。受限问题相对简单,例如声音和图像识别或玩游戏等。未受限问题例如诊断癌症,其对应的受限问题可能是读取 MRI 图像;未受限问题能够在非常复杂的问题上推荐决策。」

MLPref 已经在 GitHub 上开源,但仍然处于非常早期的阶段,正如 MLPref 所强调的:「这次发布的更像是一个内部测试版,它仍可以从多个方面改进。该基准仍然在开发和精炼中,可以查看下方的 Suggestions 部分了解如何贡献该开源项目。我们期待在五月末能基于用户输入进行大幅更新。」

目前在 MLPerf 套装中的 7 个基准,每一个都有参考实现:

  • 图像分类—ResNet-50 v1(ImageNet)
  • 目标检测—Mask R-CNN(COCO)
  • 语音识别—DeepSpeech2(Librispeech)
  • 翻译—Transformer(WMT English—German)
  • 推荐—Neural Collaborative Filtering(MovieLens 20 Million (ml-20m))
  • 情感分析—Seq-CNN(IMDB 数据集)
  • 强化学习—Mini-go(预测 pro 游戏中的移动)

每个参考实现提供了:至少在一个框架中实现模型的代码;可用于在一个容器内运行基准的 Dockerfile;下载合适数据集的脚本;运行模型训练和计时的脚本;数据集、模型和机器设置的相关文档。

这些基准已经在以下的机器配置上进行了测试:

  • 16 块 CPU、一块 Nvidia P100;
  • Ubuntu 16.04,包含 docker 和 Nvidia 支持;
  • 600GB 硬盘(虽然很多基准不需要这么多硬盘空间)。

业界选择结合几个 AI 基准还是让基准数量激增是很有趣的现象。在这样一个年轻的市场,大部分人选择提供基准测试工具和服务。例如,斯坦福(MLPerf 成员)近日发布了它的第一个 DAWNBench v1 Deep Learning 结果。

斯坦福报告称:「2018 年 4 月 20 日,我们发布了第一个衡量端到端性能的深度学习基准和竞赛,这些性能包括:在常见深度学习任务中达到当前最优准确率级别所需的时间/成本,以及在当前最优准确率级别上执行推断的延迟/成本。聚焦于端到端性能提供了标准化计算框架、硬件、优化算法、超参数设置和其它重要因素的区别的客观手段。」像 MLPerf 这样的项目可以在当前对比 AI 性能的时候,清除那些模糊不清的因素。

原文链接:https://www.hpcwire.com/2018/05/02/mlperf-will-new-machine-learning-benchmark-help-propel-ai-forward/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档