前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯优图ncnn新版本适配国产CPU,最高速度提升70倍

腾讯优图ncnn新版本适配国产CPU,最高速度提升70倍

原创
作者头像
优图实验室
发布2021-07-23 16:38:02
1.4K0
发布2021-07-23 16:38:02
举报
图片
图片

随着自主信息技术创新应用的持续推进,国产PC、国产OS和软硬件设备日趋成熟。为了更好的助力国产CPU在AI软件生态从“可用”到“好用”, 作为腾讯优图实验室推出的首个高性能神经网络前向计算开源框架,ncnn近期在国产CPU龙芯和D1上进行了较为全面的适配和性能优化,ncnn携手龙芯和全志科技,共同打通了AI应用和国产CPU硬件间的壁垒。

龙芯

是中国科学院计算所自主研发的通用CPU,采用自主LoongISA指令系统,兼容MIPS指令

D1

是全志科技首款基于RISC-V指令集的芯片,集成了阿里平头哥64位C906核心,支持RVV

本次ncnn更新的20210720版本,完成了risc-v与mips架构cpu的适配,并利用risc-v vector与mips msa矢量加速扩展指令集,优化了绝大多数常用算子的性能。在ncnn附带的benchmark测试中,ncnn在龙芯CPU上速度提升最高18.64倍,在D1上速度提升最高70倍,满足了AI端侧推理部署的基本需求。

图片
图片

ncnn在龙芯CPU上测试数据,速度最高提升18.64倍

图片
图片

ncnn在全志科技D1上测试数据,速度最高提升70倍

图片
图片

龙芯2k派开发板上使用ncnn部署yolov5检测算法效果

图片
图片

全志D1开发板上使用ncnn部署nanodet检测算法效果

ncnn 20210720版本的其他更新

  • 支持 x86 avx-only cpu 优化加速
  • 数学函数 log/exp/tanh arm 优化
  • 提升 ncnn 量化工具的多线程效率
  • 修复某些手机gpu推理的内存泄漏和其他bugfix等等
  • 支持龙芯自主指令集架构loongarch

 测试平台-1

龙芯2K1000,2线程,mips架构,开启msa

图片
图片

ncnn在龙芯CPU上适配测试数据

图片
图片

 测试平台-2

全志D1,1线程,risc-v架构,开启v扩展

图片
图片

ncnn在全志科技D1适配测试数据

图片
图片

最后,欢迎大家访问ncnn项目主页,阅读Readme加入ncnn技术交流QQ群,与一线工程师和众多技术大佬沟通交流。

详情见下:

ncnn 20210720版本下载地址或点击阅读原文

(linux/windows/macos/android/ios/webassembly,cpu+gpu)

https://github.com/Tencent/ncnn/releases/tag/20210720

ncnn开源项目访问地址

https://github.com/Tencent/ncnn

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档