首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

深度学习编译器之Layerout Transform优化

继续深度学习编译器的优化工作解读,本篇文章要介绍的是OneFlow系统中如何基于MLIR实现Layerout Transform。在2D卷积神经网络中,除了NCHW数据格式之外一般还存在NHWC的数据格式,对于卷积操作来说使用NHWC格式进行计算可能会获得更好的性能。但深度学习网络的训练一般来说是采用NCHW进行的,我们一般只有在推理时才做NCHW到NHWC的Layerout Transform。这里存在两个问题:首先对于一个算子比如Conv2D,它以NCHW方式训练时保存的权重格式是[out_channels, in_channels, *kernel_size],但是要以NHWC格式进行推理时我们需要对权重的格式进行转换;然后对于没有权重的算子来说,我们也需要尽量的让算子支持NHWC的运算,来减少因为卷积算子前后插入的Transpose操作带来的额外开销。举个例子,假设有如下的一个小网络 x->conv->relu->conv->relu->out,如果我们要以NHWC格式执行那么我们除了对2个卷积的权重进行改动之外,我们还需要在conv前后插入transpose来修改输入到conv算子的数据格式,也就是x->transpose(0, 2, 3, 1)->conv->transpose(0, 3, 1, 2) -> relu -> transpose(0, 2, 3, 1)->conv->transpose(0, 3, 1, 2) -> relu->out。然后细心的读者可以发现,实际上这里存在很多冗余的Transpose,因为ReLU是支持以NHWC格式进行运算的,那么这个网络可以化简为x->transpose(0, 2, 3, 1)->conv->relu->conv->relu->transpose(0, 3, 1, 2)->out。这样可以减少一半的Transpose Op开销。

04

深度学习编译器之公共子表达式消除和死代码消除实现

【省流】上次介绍了深度学习编译器之Layerout Transform优化 ,在这篇文章中提到还会介绍常量折叠优化Pass的实现,但在介绍常量折叠Pass之前我想再介绍一个类似的优化方法也就是公共子表达式消除实现(CSE)。仍然是以OneFlow中基于MLIR进行实现的CSE Pass为例子来讲解。在解析代码实现的过程中,我发现基于MLIR来做公共子表达式消除的时候还顺带做了死代码消除的功能。另外,在考虑公共子表达式消除的时候需要保证两个重复的操作处于同一个基本块中以及两个重复操作之间没有其它具有副作用的操作才可以消除。在OneFlow的实现中只是对OneFlow的UserOp的特殊属性即OpName和SymbolID进行了擦除,用一个魔法属性来代替,这是因为这两个属性不应该去影响公共子表达式的消除。这个优化还是比较有用的,在OneFlow的Stable Diffusion优化中发挥了不小的作用。

05

ClangSharp依赖的动态库编译

Clangen使用 ClangSharp解析头文件来完成一些中间代码的生成(如Rpc的注册代码, 桩代码, C++类导出到Lua的代码等). 而ClangSharp本身依赖了llvm, 以及自己的一个libClangSharp的库, windows和linux下需要编译一下llvm和这个库, 一般来说系统没变的情况下, 直接使用已经编译好的libclang.so/dll即可, 但有些时候遇到需要升级llvm到高版本的情况, 比如说我们之前碰到的情况 , llvm9在linux下运行速度异常(Windows下10S的流程, 在linux下处理同样的任务要快3分钟, 最后发现可能之前编译使用的是debug版本), 我们需要编译LLVM, 并且编译依赖llvm的libClangSharp, 官方文件比较简单, 而且配置项有一些问题, 可能导致不能正常编译, 所以这里记录下过程方便后续有相关需求的时候可以参照处理.

02

再度优化GCC、LLVM、Clang、libc++、libc++abi等套件的构建脚本

一直以来,我都维护了完整的 GCC 工具链构建工具 和 LLVM,Clang,libc++,libc++abi工具链构建工具 。 一方面是为了测试和体验新版本编译器的功能和利用一些更现代化的工具检查代码中的风险,另一方面也是为了给我得很多开源仓库做多版本适配。 其中所有的编译期依赖项(不包括 tar,awk等可执行程序的工具)都是自己构建的,这样也能管理好某些新版本组件需要的新版本依赖项,并且做到跨发行版兼容。同时很多发行版自带的 LLVM+Clang 套件都缺斤少两,有的缺少 clang-analyzer ,有的缺少 clang-format ,也有的缺少 libc++ 和 libc++abi 或者缺少sanitizer组件。我也是根据自己的需要编译并输出了大多数开发工具,甚至还有一些开发库以便二次开发(比如用libclang写工具来复用libcang的AST功能)。

04

换个角度理解python元编程

元编程这个概念本身不新,只是没有发现原来很早就在用这个东西,所以python等下再聊,先理一理怎么理解编程这个事情。 我仔细思考,其实是在做一件设计想法,纪录想法,实现想法的过程。 怎么样设计想法?应该需要一些图形,文字通过一定格式纪录下来,反复修改,最好是有一个规范或者工具让其他人也能明白和理解,方便交流。这个问题在编程这里也就是进入到编程语言的选择上面来,也可以自己制定一个规范,不管你用lex+yacc语法制导还是设计LLVM的AST,反正结果是要一种编程语言来设计你的想法。 选定了设计想法的规范也就是编程语言,现在就是怎么样来纪录想法,显而易见不可能是流水账式的纪录,你得把想法重点理清楚,想法的关键字是什么,有些什么用途,有没有关联的事务,这里就是纪录想法的格式,对应到编程就是你用什么设计模式,你是用传统的类继承,还是鸭子类型的接口或者猴子补丁的方式来纪录想法。 有了纪录的想法图纸,对应到编程就是静态的代码字面量,就能真正的实现想法,根据想法图纸生成真实的对象。 这个过程和元编程有什么关系?如果你明白上面的过程,我就可以这样描述:lex+yacc可以创建编程语言,编程语言可以创建元编程,元编程可以创建类,类可以创建对象实例。 那到底什么是元编程呢,C++里面他的实现叫做模板和宏,python里面他可以用装饰器实现,也可以用type元类型实现,他是在编程语言和类之间的一层设计技术,yacc生成的对象是编程语言,编程语言生成的对象是元编程对象,元编程对象生成的对象是类,类生成的对象是实例。 C的宏和模板出现得很早很早,本质也很简单,就像是一份留白的合同,你填上名字就能用。 python对象有2个重要的容器,一个是继承元组,一个是属性字典,所有的属性包括方法都是放在属性字典里面,这个2个容器在init之前就已经生成好,如果你要在init之前做一些处理,比如捕获子类的属性名把字符串类型的属性名前面都加上str,把方法名首字符都大写,强制子类使用一些编程规约,还或者加载一些缓存的数据,实现方法重载等等。当然子类可以在init做自己的处理,如果你是一个框架的设计者,自动化一些背后的处理确实看起来很高级。所以元编程的本质就是一种增加乐趣的玩具,应为编码很枯燥的。

01
领券