GiantPandaCV-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

GiantPandaCV

专栏成员

722

文章

989561

阅读量

100

订阅数

如何使用“LoRa”的方式加载ONNX模型：StableDiffusion相关模型的C++推理

模型 LoRa c++data std

1.基于 onnxruntime，将 StableDiffusionInpaintPipeline、StableDiffusionControlNetImg2ImgPipeline(stablediffusion + controlnet + LoRa) C++工程化；

2024-07-01

3430

HugeCTR源码简单走读

c++深度学习数据结构 mapreduce

这段时间除了开发算子之外，还在做一些推荐系统相关的工作，这期间主要看的是HugeCTR的代码，其性能优异，系统不复杂，代码结构较扁平，整体还是比较清晰。在这段时间看源码的过程中也算是对HugeCTR有一点了解，这篇博客主要梳理下HugeCTR代码的结构，以及他在MLPERF中做的一些优化。

2022-05-27

1.6K0

【从零开始学深度学习编译器】十八，MLIR中的Interfaces

这篇文章用来了解一下MLIR中的Interfaces（接口）。MLIR是一个通用可扩展的框架，由不同层次的具有特定属性，Operation以及Type的Dialects构成。正是由于Dialects的分层设计, 使得MLIR可以表达多种语意和抽象级别的Operation。但这个分级设计也存在一个缺点，那就是在不同的Dialect层次进行Operation转换或者做变换（Pass）的时候我们需要明确每个Dialect下的每个Operation的具体语意，否则就可能会转换或变换失败。其实基于MLIR开发过的读者应该碰到过组合一些MLIR Pass对一个MLIR文件进行Lower的时候，有可能出现Op转换失败的情况。为了缓解这种情况，MLIR提出了Interfaces。实际上在【从零开始学深度学习编译器】十三，如何在MLIR里面写Pass？这里我们已经利用过Interfaces来实现内联以及形状推导Pass了。这一节就更深入的了解一下MLIR中的Interfaces，最后还结合了OneFlow IR中的UserOpCompatibleInterface例子来进一步加深了解。

2022-02-11

1.9K0

【从零开始学深度学习编译器】十七，MLIR ODS要点总结下篇

c++编程算法 https 网络安全 github

这一节在【从零开始学深度学习编译器】十六，MLIR ODS要点总结上篇的基础上补充完整了ODS的要点。约束和属性的定义都是MLIR中相当重要的元素，至于类型的定义个人认为了解即可，等到我们需要自定义类型的时候再仔细研究。最后MLIR的语法比较晦涩，初学者可以借助mlir-tblgen来辅助debug。

2021-12-13

1.6K0

【从零开始学深度学习编译器】十六，MLIR ODS要点总结上篇

在【从零开始学深度学习编译器】十二，MLIR Toy Tutorials学习笔记一中提到MLIR是通过Dialect来统一各种不同级别的IR，即负责定义各种Operation（算子）。然后对Dialect和Operation的定义又是通过TabelGen规范构造的，通过TableGen驱动MLIR的Operation定义也被称作ODS（ Operation Definition Specification) 。我们目前只是简单认识了Toy Tutorials的Dialect和Operation是如何通过ODS定义的，但对ODS本身的语法以及一些限制都没有太多了解，这就导致在看一些相关工程的Operation定义时时常陷入迷惑，不知道某个字段是什么含义，或者说自定义Op的时候的应当如何声明操作数和Attr（举个例子，要将卷积的groups参数设置为可选的属性，应该怎么做）。

2021-12-02

1.8K0

【从零开始学深度学习编译器】十五，MLIR Toy Tutorials学习笔记之Lowering到LLVM IR

c++c#打包编程算法

在上一节中，我们将Toy Dialect的部分Operation Lowering到Affine Dialect，MemRef Dialect和Standard Dialect，而toy.print操作保持不变，所以又被叫作部分Lowering。通过这个Lowering可以将Toy Dialect的Operation更底层的实现逻辑表达出来，以寻求更多的优化机会，得到更好的MLIR表达式。这一节，我们将在上一节得到的混合型MLIR表达式完全Lowering到LLVM Dialect上，然后生成LLVM IR，并且我们可以使用MLIR的JIT编译引擎来运行最终的MLIR表达式并输出计算结果。

2021-11-19

1.1K0

【从零开始学深度学习编译器】十四，MLIR Toy Tutorials学习笔记之部分Lowering

这篇笔记是阅读Toy Tutorials的第五章之后总结的，这一节主要讲的是将Toy Dialect Lowering的部分Operation Lowering到Affine Dialect，MemRef Dialect和Standard Dialect，而toy.print操作保持不变，所以又被叫作部分Lowering。通过这个Lowering可以将Toy Dialect的Operation更底层的实现逻辑表达出来，以寻求更多的优化机会，得到更好的MLIR表达式。

2021-11-12

8090

【从零开始学深度学习编译器】十三，如何在MLIR里面写Pass？

【GiantPandaCV导语】这篇文章是学习了比较久然后按照自己的理解步骤重新总结了下来，主要是MLIR Toy Tutorials第3，4篇文章的内容。这里主要讲解了如何在MLIR中自定义Pass，这里主要以消除连续的Transpose操作和Reshape操作，内联优化Pass，形状推导Pass 4个例子来介绍了在MLIR中定义Pass的各种技巧，实际上也并不难理解。但要入门MLIR掌握这些Pass实现的技巧是有必要的。「我在从零开始学习深度学习编译器的过程中维护了一个project：https://github.com/BBuf/tvm_mlir_learn ，主要是记录学习笔记以及一些实验性代码，目前已经获得了150+ star，对深度学习编译器感兴趣的小伙伴可以看一下，能点个star就更受宠若惊了。」

2021-11-03

1.7K0

【从零开始学深度学习编译器】十二，MLIR Toy Tutorials学习笔记一

MLIR提供了一种Toy语言来说明MLIR的定义和执行的流程。Toy语言是一种基于张量的语言，我们可以使用它来定义函数，执行一些数学计算以及输出结果。下面要介绍的例子中限制Tensor的维度是<=2的，并且Toy语言中唯一的数据类型是64位浮点类型，对应C语言中的"double"。另外Values是不可以重写的，即每个操作都会返回一个新分配的值，并自动管理释放。直接看下面这个例子：

2021-11-02

1K0

在OneFlow实现数据类型自动提升

https 网络安全 c++c#pytorch

可以观察到同样是multiply运算，有些结果的数据类型被提升到更高的一级，有些并没有被提升，还维持着int8类型。这其实是一种类型提升系统，系统内会自定义一些类型提升的规则，根据输入的数据类型来推导最终结果的数据类型。

2021-10-20

2910

【从零开始学深度学习编译器】九，TVM的CodeGen流程

数据结构 node.js 打包 ide c++

【GiantPandaCV导语】这里主要是走读了一下TVM的Codegen流程，从Relay的前端一直梳理到了Graph节点的内存分配，Relay IR到TIR节点的转换，TIR图节点的Schedule优化以及Lower function发生在哪里。这篇文章只是关注了调用链，一些具体的操作比如Schedule的优化，IR到TIR节点的转化以及Lower Function没有具体解释，后面会结合更多实例去尝试理解。

2021-07-23

1.8K0

【从零开始学深度学习编译器】六，TVM的编译流程详解

深度学习 ide 打包 python c++

上一篇文章对TVM Relay和Pass进行了介绍，但还没有介绍整体的编译流程。这一篇文章将继续介绍一下TVM的编译流程，即TVM是如何将深度学习框架的模型转换成Relay IR之后进一步编译和优化为硬件可以执行的IR，再将这个底层IR和运行时库以及模型参数打包为一个tvm.Module返回。关于为什么要将底层IR和运行时库以及模型参数打包，根据官方文档可以知道这样是为了可以更方便的保存底层IR和运行时库，做到一次编译，可持久化推理。

2021-07-01

1.9K0

【从零开始学深度学习编译器】七，万字长文入门TVM Pass

编程算法 python c++css

这篇文章基于TVM 0.8.0.dev版本。在【从零开始学深度学习编译器】五，TVM Relay以及Pass简介这篇推文中已经简单介绍了Relay和Pass机制。但对Pass的基础设施（Pass Infrastructure）和Relay树结构都没有详细介绍，所以这篇文章主要介绍一下Pass Infrastructure和Relay树结构，再基于这些关键的基础知识详细了解一下Constant Folding Pass，相信读者读完这篇文章会对TVM的Pass有更深的理解，并且在阅读其它Pass和实现自定义Pass时可以很Relax。

2021-07-01

9070

PyTorch 源码解读之即时编译篇

python pytorch c#c++

来源丨https://zhuanlan.zhihu.com/p/361101354

2021-07-01

1.1K0

一文学会 Pytorch 中的 einsum

pytorch https 网络安全 c++github

爱因斯坦求和约定（einsum）提供了一套既简洁又优雅的规则，可实现包括但不限于：向量内积，向量外积，矩阵乘法，转置和张量收缩（tensor contraction）等张量操作，熟练运用 einsum 可以很方便的实现复杂的张量操作，而且不容易出错。

2021-04-16

2.5K0

深度学习算法优化系列十九 | 如何使用tensorRT C++ API搭建网络

api c++深度学习 https 网络安全

在深度学习算法优化系列十八 | TensorRT Mnist数字识别使用示例中主要是用TensorRT提供的NvCaffeParser来将Caffe中的model转换成TensorRT中特有的模型结构。其中NvCaffeParser是TensorRT封装好的一个用以解析Caffe模型的工具（高层的API），同样的还有NvUffPaser用于解析TensorFlow的pb模型，NvONNXParse用于解析Onnx模型。除了这几个工具之外，TensorRT还提供了C++ API（底层的API）直接在TensorRT中创建模型。这时候TensorRT相当于是一个独立的深度学习框架，不过这个框架只负责前向推理(Inference)。

2020-03-19

2.4K0

《Automatic Color Equalization and its Fast Implementation》图像论文复现

编程算法 c++https 网络安全

这篇论文实际上也是《快速ACE算法及其在图像拼接中的应用》这篇论文中的快速ACE算法，我用C++实现了，现在放出来。

2019-12-04

6980

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态