前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GTX1080ti、Jetson NANO和树莓派跑深度学习性能差别有多大?

GTX1080ti、Jetson NANO和树莓派跑深度学习性能差别有多大?

作者头像
GPUS Lady
发布2019-07-04 15:47:21
12.2K0
发布2019-07-04 15:47:21
举报
文章被收录于专栏:GPUS开发者GPUS开发者

这个问题经常被问起

最近有人在Github上发了一个评测报告,我们先来看看吧。

这个报告记录了DeepDetect开源深度学习服务在各种计算平台和流行神经网络架构上的性能。

点击阅读原文可以了解更详细的测试情况

参考平台

NVidia GTX 1080 Ti

NVidia Jetson TX1

NVIDIA Jetson NANO

Raspberry Pi 3

请注意,1080Ti和TX1使用CuDNN NVidia加速库,而TK1使用没有CuDNN的GPU加速,而Raspberry仅使用CPU。

参考网络

  • GoogleNet
  • VGG16 and VGG19
  • Resnet 50, 101 and 152
  • Densenet 121 and 201
  • Squeezenet v1.0 and v1.1
  • Mobilenet (原始Caffe版本和另一个自定义加速版本)
  • Shufflenet

先看一下测试结果:

GTX1080ti

在使用GTX1080Ti的桌面级别GPU上,大多数型号的性能都能超过25 fps。该卡有11 GB GDDR5X VRAM和3584 CUDA核,最大主频1582 MHz。这相当于11.3 tflops /s。相对嵌入式系统,桌面GPU卡有强大的实时处理性能,但其功耗在嵌入式系统应用中是不可行的。在280瓦的负载下,桌面设置适合于分析应用程序。

Jetson TX1

排名第二的是英伟达Jetson TX1。TX1在运行时的最大功耗为15w,是嵌入式系统应用程序的一个很好的候选。在1 TFLOPS理论输出时,TX1能够将squeezenet_1.0、squeezenet_v1.1、mobilenet_depthwise、googlenet和shufflenet推到超过25帧每秒。在极端情况下,对于squeezenet_v1.1, Tx1最多可以计算85帧fps,批处理大小等于或大于16。对于自动驾驶汽车等时间紧迫的项目,TX1可能是可行的解决方案。

Jetson Nano

Nano在运行时的功耗为5w,是嵌入式系统应用和IA on edge的低成本解决方案。它的输出为500 GFLOPS。批量为1时,ShuffleNet和SqueezeNet分别达到12和25 fps。Jetson Nano在运行 Squeezenet-SSD-faces, SqueezeNet-SS-voc 和ResNet18-ocr时,batch-size等于2,可以推动多达10帧每秒。当推到64批大小时,Nano可以为SqueezeNet和ResNet18-ocr计算高达48帧的帧频。对于大型项目或预算有限的项目,Jetson Nano似乎是一个有趣的解决方案。

Raspberry Pi3 model B

在只有4瓦的负载下,Pi应该是遥感的首选解决方案。缺点在于它处理图像的能力,最多只有1帧。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 参考网络
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档