【权威算法榜】斯坦福DAWNBench基准排序端到端深度学习模型

用户7623498

发布于 2020-08-04 14:50:25

5980

发布于 2020-08-04 14:50:25

背景

AI模型突飞猛进，到底模型好不好用，为了搞清楚这个问题，斯坦福大学发起了DAWNBench项目，针对测试端到端深度学习模型，在达到预期精度的前提下，对所用的训练时间和成本进行排序。目前是国际上较为权威的测试工具之一。

具体来说就是DAWNBench提供了一组常用的深度学习任务的测试样本，参加测试的团队提交模型，测试组件会量化不同优化策略、模型架构、软件框架、云和硬件之间的培训时间、培训成本、推理延迟和推理成本。

测试项目

目前主要包括了三个测试项目：图像分类（ImageNet）、图像分类（CIFAR10）、问答（SQuAD）。

未来准备拓展的新的测试内容，如神经机器翻译、对象检测等新项目；WMT英德文翻译等数据集；推理成本、样本复杂性等测试指标。

排名情况

最后我们简单看一下截止2020年3月29日21：46分的排名情况。阿里巴巴团队和华为云团队成绩都很不错哦。

图像分类（ImageNet数据集）

训练时间指标：精度达到93%以上的模型训练时间Top5。

训练成本指标：精度达到93%以上的模型训练成本Top5。

推理延迟指标：单张图片分类精度达到93%以上的模型延迟Top5。

推理成本指标：万张图片精度达到93%以上的模型平均成本Top5。

图像分类测试（CIFAR10）

问答测试（SQuAD）

原文地址及引用声明：

地址：https://dawn.cs.stanford.edu/benchmark/index.html

声明：DAWNBench: An End-to-End Deep Learning Benchmark and Competition

Cody A. Coleman, Deepak Narayanan, Daniel Kang, Tian Zhao, Jian Zhang, Luigi Nardi, Peter Bailis, Kunle Olukotun, Chris Ré, and Matei Zaharia

NIPS ML Systems Workshop, 2017

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-03-30，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自决策智能与机器学习微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度