winograd - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大会 | 斯坦福ICLR2018录用论文：高效稀疏Winograd卷积神经网络

AI 科技评论按：ICLR 2018 于 5 月初在加拿大温哥华举办。论文「Efficient Sparse-Winograd Convolutional Neural Networks」被 ICLR 2018 录用，第一作者、斯坦福大学的博士生刘星昱为 AI 科技评论撰写了独家解读稿件，未经许可不得转载。

03

学界 | 商汤联合提出基于FPGA的快速Winograd算法：实现FPGA之上最优的CNN表现与能耗

选自IEEEXplore 作者：Liqiang Lu、Yun Liang、Qingcheng Xiao 机器之心编译参与：路雪、黄小天此前，商汤科技联合北京大学等提出一种基于 FPGA 的快速 Winograd 算法，可以大幅降低算法复杂度，改善 FPGA 上的 CNN 性能。论文中的实验使用当前最优的多种 CNN 架构，从而实现了 FPGA 加速之下的最优性能和能耗。 1. 引言深度卷积神经网络（CNN）在多个计算机视觉任务上取得了优秀的性能，包括图像分类、目标检测和语义分割 [1, 2]。CNN

您找到你想要的搜索结果了吗？

是的

没有找到

NVDLA中Winograd卷积的设计

卷积神经网络中的三维卷积（后文简称为卷积）计算过程可以表示如下，将这种直接通过原始定义计算卷积的方式称为直接卷积（Direct Convolution）。

01

卷积神经网络中的Winograd快速卷积算法

随便翻一翻流行的推理框架（加速器），如NCNN、NNPACK等，可以看到，对于卷积层，大家不约而同地采用了Winograd快速卷积算法，该算法出自CVPR 2016的一篇 paper：Fast Algorithms for Convolutional Neural Networks。

04

Winograd快速卷积解析

文章中蓝色背景内容为链接，部分站外链接无法从文章中直接跳转，若要访问请点击原文链接。

02

考那么多试，拿那么高分，大模型们真的懂语言了吗？

十年前，IBM 的 Watson 获得了答题节目《Jeopardy!》的冠军，当时 IBM 宣称：「Watson 能够理解自然语言的所有歧义和复杂性。」然而，正如我们所看到的，Watson 随后在试图「用人工智能彻底改变医学」的过程中失败了，智能体所具备的语言能力与实际理解人类语言并不能完全划等号。

02

详解卷积中的Winograd加速算法

做过ACM/OI的朋友大家应该对FFT并不陌生，我们知道对于两个序列的乘法通过FFT可以从原始O(n^2)复杂度变成O(nlogn)，所以我们就会想着FFT这个算法是否可以应用到我们计算卷积中来呢？当然是可以的，但是FFT的计算有个问题哦，会引入复数。而移动端是不好处理复数的，对于小卷积核可能减少的计算量和复数运算带来的降速效果是不好说谁会主导的。所以在这种情况下，针对卷积的WinoGrad算法出现了，它不仅可以类似FFT一样降低计算量，它还不会引入复数，使得卷积的运算加速成为了可能。因此，本文尝试从工程实现的角度来看一下WinoGrad，希望对从事算法加速的小伙伴有一些帮助。

04

进阶图灵测试暴露人工智能短板：机器理解人类还有多远？

【新智元导读】在被称为“进阶版的图灵测试” 的 Winograd Schema 挑战赛上，来自中国科技大学的参赛者获冠军，但是却没能拿到2万5千美元的大奖。为什么？原来，该挑战赛规定，要想获得25，000美元的奖金，正确率至少要达到90%，但是，表现最好的两位选手的正确率也仅有48%。这也说明，让机器理解常识，目前还不是一件容易的事。首先来看这样一段人类与苹果虚拟助手Siri的对话： User: Siri, call me anambulance. Siri: Okay, from n

07

腾讯深度学习编译器BlazerML项目技术分享

Apache TVM 是一个用于 CPU、GPU 和机器学习加速器的开源机器学习编译器框架。TVM 支持 TensorFlow、Pytorch、MXNet、ONNX 等几乎所有的主流框架，目标是优化机器学习模型让其高效运行在不同的硬件平台上。TVM 提供了深度学习模型编译、优化和部署的端到端解决方案，支持从模型定义到部署的全流程自动化。近日，TVM 社区举办了 TVMCon2023 会议。会议上，腾讯 BlazerML 深度学习编译器团队发表了题为《TVM at Tencent》的演讲，主要介绍了 Bla

03

工程之道，深度学习推理性能业界最佳优化实践

MegEngine「训练推理一体化」的独特范式，通过静态图优化保证模型精度与训练时一致，无缝导入推理侧，再借助工业验证的高效卷积优化技术，打造深度学习推理侧极致加速方案，实现当前业界最快运行速度。

01

详解Winograd变换矩阵生成原理

文本首发知乎：https://zhuanlan.zhihu.com/p/87516875

02

手撕 | 深度神经网络卷积层计算加速与优化

最后一页没画，但是基本上就是Filter Matrix乘以Feature Matrix的转置，得到输出矩阵Cout x (H x W)，就可以解释为输出的三维Blob（Cout x H x W）。

02

详解Winograd变换矩阵生成原理

其实网上已经有不少从数学原理的角度去解说Winograd[1,2,3,4,5,6,10]这个算法的文章了，为什么我还要写这篇文章。

03

人工智能如何帮助我们理解社交媒体

翻译互联网数据官（iCDO）志愿者齐云涧如果你是X战警漫画系列的粉丝，你熟悉Cerebro，一个虚构的设备，可以进入人类的脑波，并有能力通过个人的想法和经验来识别突变体。如果Cerebro是真的

05

深度长文|百度Paddle Lite性能进化之路！

Paddle Lite作为一款主打端侧高性能轻量化部署的推理引擎，具有高扩展性、训练推理无缝衔接，通用性、高性能和轻量化等优点。

01

【MIT TR 深度】人工智能困境：机器何时才能理解语言

【新智元导读】随着人工智能系统变得越来越高端复杂，我们也愈发难以想象不通过语言，而使用其他方法与计算机沟通。不仅如此，能够简单地与人类交流会让人觉得计算机无比神奇。毕竟，语言是人类理解世界、与世界互动最重要的方法之一，是时候让机器也懂人话了。但是，虽然人工智能领域的科学家进行了各种尝试，但是机器真正理解人话依然是一个难点。本文作者认为，近年来深度学习的发展为解决这一问题带来了希望，但是究竟能不能实现机器与人类在语言上基于理解的沟通，还有待观察。在韩国首尔的一场格外紧张的围棋比赛的中，史上最佳棋手之一李世石

Im2Col+GEMM的改进方法MEC，一种更加高效的卷积计算策略

前面介绍了Im2Col+GEMM来实现卷积以在某些条件下获得更好的访存和计算效率，详见：详解Im2Col+Pack+Sgemm策略更好的优化卷积运算。然后，最近偶然发现了Im2Col+GEMM的一个改进版本即MEC: Memory-efficient Convolution for Deep Neural Network ,这是发表在ICML 2017的文章，它主要优化了Im2Col+GEMM计算策略中的内存消耗，并且也能提升一点速度，是一个不错的卷积加速算法。所以我在这里结合论文然后复现了一下代码实现来为分享一下。

04

ncnn发布20220420版本，让Vulkan神经网络推理得更快

ncnn是腾讯开源的手机端极致优化的高性能神经网络前向计算框架。 https://github.com/Tencent/ncnn Vulkan是一个低开销、跨平台的3D图形与计算的API标准。 https://www.vulkan.org/ 相较于基于cuda/cudnn的GPU加速方案，Vulkan具有更好的兼容性和可移植性，分发时二进制体积小等特点。 01 cuda 仅支持 Windows/Linux 仅支持 nvidia GPU 运行库体积庞大，1GB+，且依赖特定的驱动版本 02 vulk

03

腾讯优图开源人脸识别底层技术：一款深度学习推理框架TNN

TNN是一款移动端推理框架，具有高性能、轻量级的特点，拥有跨平台、高性能、模型压缩、代码裁剪等众多优势。目前TNN已经在手机QQ、微视、P图等应用中落地。

02

基于OpenCompass的大模型评测实践

随着人工智能技术的快速发展，大规模预训练自然语言模型成为了研究热点和关注焦点。OpenAI于2018年提出了第一代GPT模型，开辟了自然语言模型生成式预训练的路线。沿着这条路线，随后又陆续发布了GPT-2和GPT-3模型。与此同时，谷歌也探索了不同的大规模预训练模型方案，例如如T5, Flan等。OpenAI在2022年11月发布ChatGPT，展示了强大的问答能力，逻辑推理能力和内容创作能力，将模型提升到了实用水平，改变人们对大模型能力的认知。在2023年4月，OpenAI发布了新升级的GPT-4模型，通过引入多模态能力，进一步拓展了大语言模型的能力边界，朝着通用人工智能更进一步。ChatGPT和GPT-4推出之后，微软凭借强大的产品化能力迅速将其集成进搜索引擎和Office办公套件中，形成了New Bing和 Office Copilot等产品。谷歌也迅速上线了基于自家大语言模型PaLM和PaLM-2的Bard，与OpenAI和微软展开正面竞争。国内的多家企业和研究机构也在开展大模型的技术研发，百度，阿里，华为，商汤，讯飞等都发布了各自的国产语言大模型，清华，复旦等高校也相继发布了GLM, MOSS等模型。

01

CPU推理性能提高数十倍，旷视天元计算图、MatMul优化深度解读

在深度学习大规模落地边缘端场景的今天，如何最大程度降本增效，是企业与开发者共同关注的话题。其中，模型的训练与推理是两个关键环节。

01

工程之道 | CPU推理性能提高数十倍，MegEngine计算图、MatMul优化解析

在深度学习大规模落地边缘端场景的今天，如何最大程度降本增效，是企业与开发者共同关注的话题。其中，模型的训练与推理是两个关键环节。

04

谷歌下场优化扩散模型，三星手机运行Stable Diffusion，12秒内出图

机器之心报道编辑：陈萍、小舟 Speed Is All You Need：谷歌提出针对 Stable Diffusion 一些优化建议，生成图片速度快速提升。 Stable Diffusion 在图像生成领域的知名度不亚于对话大模型中的 ChatGPT。其能够在几十秒内为任何给定的输入文本创建逼真图像。由于 Stable Diffusion 的参数量超过 10 亿，并且由于设备上的计算和内存资源有限，因而这种模型主要运行在云端。在没有精心设计和实施的情况下，在设备上运行这些模型可能会导致延迟增加，这是

03

人工智能（AI）自然语言理解的问题

在韩国首尔举行的围棋赛的中途，世界级顶尖围棋选手李世石和谷歌人工智能阿尔法狗的较量中，人工智能阿尔法狗走出了超越人类令人不安的神秘的一步棋。

09

深度学习模型压缩与加速综述

目前在深度学习领域分类两个派别，一派为学院派，研究强大、复杂的模型网络和实验方法，为了追求更高的性能；另一派为工程派，旨在将算法更稳定、高效的落地在硬件平台上，效率是其追求的目标。复杂的模型固然具有更好的性能，但是高额的存储空间、计算资源消耗是使其难以有效的应用在各硬件平台上的重要原因。所以，卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战，深度学习模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。本文主要介绍深度学习模型压缩和加速算法的三个方向，分别为加速网络结构设计、模型裁剪与稀疏化、量化加速。

04

资源 | 小米开源移动端深度学习框架MACE：可转换TensorFlow模型

文档地址：https://mace.readthedocs.io/en/latest/

03

图灵测试还重要吗？

1.我们正在步入人工智能时代。随着人工智能程序越来越擅长像人类般行事，我们也越来越多地面临这样一个问题：人类的智能是否真有什么特别之处？还是说我们只是另一种类型的机器？有一天，我们所知道和所做的每件事，是否有可能被一个安装在足够复杂的机器人上的复杂计算机程序所复制？

01

重磅清单 | 当前AI领域尚未攻克的29个难题及进展评估（附百篇文献）

大数据文摘作品，转载要求见文末编译 | Jennifer Zhu，张礼俊，bill，杨捷，Aileen 全文摘要： □ 追踪人工智能中的核心未解决问题可以使我们坦诚地了解尚待实现的任务，并走向“强人工智能”（general artificial intelligence）。 □ 本文讲述了目前识别到的29个开放问题。 □ 我们对每个主要问题都提出了示例测试的建议，用以评估研究进展。（后台回复关键词“答案”，获取近百篇参考资料下载链接）引言本文列出了人工智能中的开放性问题，根据人工智能路线

03

深度学习模型压缩与加速综述

http://www.tensorinfinity.com/paper_167.html

07

详解Winograd变换矩阵生成原理

其实网上已经有不少从数学原理的角度去解说Winograd[1,2,3,4,5,6,10]这个算法的文章了，为什么我还要写这篇文章。

01

12秒内AI在手机上完成作画！谷歌提出扩散模型推理加速新方法

明敏发自凹非寺量子位 | 公众号 QbitAI 只需12秒，只凭手机自己的算力，就能拿Stable Diffusion生成一张图像。而且是完成了20次迭代的那种。要知道，现在的扩散模型基本都超过了10亿参数，想要快速生成一张图片，要么基于云计算，要么就是要本地硬件够强大了。而随着大模型应用逐渐普及开来，在个人电脑、手机上跑大模型很可能是未来的新趋势。由此，谷歌的研究员们带来了这篇新成果，名字就叫Speed is all you need：通过GPU优化加速大规模扩散模型在设备上的推理速度。

02

NLP 60年沉思录：Finding a Voice

【新智元导读】《经济学人》1月5日发表万字长文，回顾了机器语言技术长达60多年的发展历程，全文分为五个部分：人机对话、语音识别、机器翻译、语义理解和未来展望。文章重点描述了机器语言技术的现状，特别是深度学习带来的进步，比如神经机器翻译系统。作者说道，基于神经翻译系统训练使用的数据集不像基于短语的系统使用的那样大，这给了较小的公司与Google这样的巨头竞争的机会。展望未来，作者说，言语是最典型的人类特征之一，所以很难想象机器可以像人类一样真正地交谈，却不具备超级智能。二者应该是同时出现的。语言：发出声音

04

AMD深度学习库MIOpen更新，支持CNN加速

吴唯编译自 GitHub 量子位出品 | 公众号 QbitAI 农企的深度学习加速库MIOpen 1.0更新了，它现在已经能支持对CNN的加速。 ROCm全称Radeon Open Compute platform，是AMD在去年12月推出的开源GPU运算平台，MIOpen则是AMD为此开发的软件库，其作用是将程序设计语言和ROCm平台连接，以充分利用GCN架构。此次更新包括：同时为正向和反向传播优化的深度卷积解算器优化的卷积算法，包括Winograd和快速傅立叶转换为深度学习准备的、优化的GE

卷积神经网络性能优化

来源：AI蜗牛车、极市平台本文约9200字，建议阅读10+分钟本文为你简要介绍几种常见的CNN优化方法，并分享相关经验。作者丨黎明灰烬来源｜https://zhuanlan.zhihu.com/p/80361782 引言卷积（Convolution）是神经网络的核心计算之一，它在计算机视觉方面的突破性进展引领了深度学习的热潮。卷积的变种丰富，计算复杂，神经网络运行时大部分时间都耗费在计算卷积，网络模型的发展在不断增加网络的深度，因此优化卷积计算就显得尤为重要。随着技术的发展，研究人员提出了多种优化算法

02

华为昇腾AI芯片获得大幅优化：7倍性能于苹果M1处理器

尽管由于限制，华为拥有设计先进芯片的能力但没法制造出来，但是软硬件优化还是让华为的平台展示出了优秀的性能，日前OpenCV就实现了对华为AI平台昇腾的优化，速度提升很恐怖，差不多是苹果M1处理器的7倍。

02

轻量级深度学习端侧推理引擎 MNN，阿里开源！

数说君导读：MNN，Mobile Neural Network，用于在智能手机、IoT设备等端侧加载深度神经网络模型，进行推理预测。支持 Tensorflow、Caffe、ONNX 等主流模型格式，支持 CNN、RNN、GAN 等常用网络。这是阿里开源的首个移动AI项目，已经用于阿里手机淘宝、手机天猫、优酷等20多个应用之中。覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景。在IoT等移动设备场景下，也有若干应用。

04

T5，一个探索迁移学习边界的模型

T5 是一个文本到文本迁移 Transformer 模型，通过将所有任务统一视为一个输入文本并输出文本，其中任务类型作为描述符嵌入到输入中。该模型使单个模型可以执行各种各样的有监督任务，例如翻译、分类、Q＆A、摘要和回归（例如，输出介于 1 到 5 之间两个句子之间的相似性得分。实际上，这是一个 21 类分类问题，如下所述）。该模型首先在大型语料库上进行无监督的预训练（像 BERT 中一样的隐蔽目标），然后进行有监督训练，其中包含代表所有这些任务的输入文本和相关带标签的数据，也就是文本（其中输入流中的特定标记“将英语翻译为法语”或“ stsb句子1：…句子2”，“问题” /“上下文”等对任务类型进行编码，如上图所示，模型经过训练输出与标记数据匹配的文本。）通过这种为监督学习指定输入和输出的方法，该模型在所有不同的任务之间共享其损失函数、解码器等。

00

【10大深度学习框架实验对比】Caffe2最优，TensorFlow排第6

【新智元导读】微软数据科学家Ilia Karmanov做了一个项目，使用高级API测试8种常用深度学习框架的性能（因为Keras有TF，CNTK和Theano，所以实际是10种）。Karmanov希望

07

面向低功耗AI芯片上的神经网络设计

【GiantPandaCV导语】这篇文章为大家介绍了一下面向低功耗AI芯片上的神经网络设计，随着这几年神经网络和硬件（CPU,GPU,FPGA,ASIC）的迅猛发展，深度学习在包括互联网，自动驾驶，金融，安防等很多行业都得到了广泛的应用。然而当我们真正在实际部署深度学习应用的时候，许多场景例如无人驾驶对设备在功耗，成本，散热性等方面都有额外的限制，导致了无法大规模应用深度学习解决方案。感兴趣的同学可以了解一下有关如何面向AI芯片来设计神经网络。

06

贾扬清推荐：阿里开源轻量级深度学习框架 MNN，侧重推理加速和优化

MNN 是一个轻量级的深度学习端侧推理引擎，核心解决深度神经网络模型在端侧推理运行问题，涵盖深度神经网络模型的优化、转换和推理。目前，MNN 已经在手淘、手猫、优酷、聚划算、UC、飞猪、千牛等 20 多个 App 中使用，覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景，每天稳定运行上亿次。此外，菜鸟自提柜等 IoT 设备中也有应用。在 2018 年双十一购物节中，MNN 在天猫晚会笑脸红包、扫一扫明星猜拳大战等场景中使用。

03

RoBERTa在SuperGLUE得分逼近人类，甩baseline十多个点

7月30日，文摘菌曾报道过，被谷歌XLNet全面刷爆的BERT，被Facebook升级后，变身"Robustly optimized BERT approach"——强力优化BERT方法，重新称霸GLUE、SQuAD和RACE三个排行榜。

01

卷积神经网络性能优化方法

看到这个标题，很多朋友肯定按捺不住要说「不是吧，又来写这种陈词滥调被人写了几万遍的主题？」，还要附带狗头。我也很无奈啊，想码字奈何没硬货，只能东摘西抄了。不过呢，本文还是和其他相同主题有不同的内容，相信能给大家一点收获~

03

AI模型的基准测试

在评估一个模型的时候，仅通过ROUGE、BLEU SCORE评价模型还是太单薄了，并不能全面的反馈模型的能力。在相完整评估一个模型的能力的时候，最重要的是提供一套有效的评估模型。现在常见的模型的基准测试有 GLUE、SuperGLUE、HELM、MMLU等等。

03

自然语言处理全家福：纵览当前NLP中的任务、数据、模型与论文

组合范畴语法（CCG; Steedman, 2000）是一种高度词汇化的形式主义。Clark 和 Curran 2007 年提出的标准解析模型使用了超过 400 个词汇语类（或超级标记（supertag）），典型的解析器通常只包含大约 50 个词性标注。

03

速度惊人！手机跑Stable Diffusion，12秒出图，谷歌加速扩散模型破记录

---- 新智元报道编辑：桃子拉燕【新智元导读】手机12秒一键生图？谷歌最新研究做到了。手机生图只要12秒？这不是吹的，谷歌就给实现了。最新研究中，谷歌研究人员对4个GPU分层优化，在三星手机上成功运行Stable Diffusion 1.4。实现了11.5秒生成图像，重要的是，内存使用量也大幅减少。正所谓，Speed Is All You Need！论文地址：https://arxiv.org/abs/2304.11267 谷歌最新提出的方法是通用的，可以对所有扩散模型的

01

资讯 | 2017 IJCAI 计算机与思想奖迎来女性获奖者 Devi Parikh

机器之心报道参与：微胖国际人工智能联合会议（International Joint Conference onArtificial Intelligence，IJCAI）是聚集人工智能领域研究者和从业者的盛会，也是人工智能领域中最好的综合性学术会议之一。该大会的主办方是位于美国加利福尼亚州的非营利性组织 IJCAI, Inc.。 IJCAI 大会计算机和思想奖（Computers and Thought Award）是 IJCAI 最重要的奖项之一（另一个是 Research Excellence Aw

07

从Caffe2到TensorFlow，十种框架构建相同神经网络效率对比

近日，Ilia Karmanov 在 Medium 发表了一篇题为《Neural Net in 10 Frameworks (Lessons Learned)》的文章，其内容源自一个 GitHub 项目，其中作者通过构建同一个神经网络，对比了当前最流行的 10 种深度学习框架，其中 Caffe2 和 MXNet 在准确度和训练时长上处于领先位置。该项目甚至还得到了 FAIR 研究者、各大框架创始人（比如贾扬清）的支持。机器之心对该文进行了编译。项目GitHub链接：https://github.com/i

08

自动驾驶方程式赛车，微软发布机器学习开源框架 | AI一周学术

呜啦啦啦啦啦啦啦大家好，本周的AI Scholar Weekly栏目又和大家见面啦！

03

自然语言处理全家福：纵览当前NLP中的任务、数据、模型与论文

组合范畴语法（CCG; Steedman, 2000）是一种高度词汇化的形式主义。Clark 和 Curran 2007 年提出的标准解析模型使用了超过 400 个词汇语类（或超级标记（supertag）），典型的解析器通常只包含大约 50 个词性标注。

00

ARM NEON卷积神经网络加速简介-技术创作101训练营

参考相关网站： http://cs231n.github.io/convolutional-networks/

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭