首页
学习
活动
专区
工具
TVP
发布

GiantPandaCV

专栏成员
722
文章
992215
阅读量
100
订阅数
【论文解读】基于MLIR生成矩阵乘法的高性能GPU代码,性能持平cuBLAS
本文是对 https://arxiv.org/abs/2108.13191 这篇论文进行解读,学习一下如何基于MLIR编译器基础设施生成高效的GPU代码。本文的阅读的先后顺序分别为:
BBuf
2022-04-06
2.5K0
【从零开始学深度学习编译器】二十,MLIR的Pattern Rewrite机制
这篇文章对MLIR的Pattern Rewrite机制进行翻译和总结。这几篇文档分别是https://mlir.llvm.org/docs/PatternRewriter/ 和 https://mlir.llvm.org/docs/Rationale/RationaleGenericDAGRewriter/ 和 https://mlir.llvm.org/docs/Canonicalization/。下面的第一节是阅读并翻译了这三篇文档之后的要点总结,方便读者可以快速把握这三篇文档的核心内容。
BBuf
2022-04-06
1.5K0
使用OneFlow完成基于U型网络的ISBI细胞分割任务
文章目录 1. Introduction 2. 网路架构 3. 数据和程序准备 4. 使用步骤 5. 单机单卡训练方式 6. 单机多卡训练方式(DDP) 7. 可视化实验结果 8. Conclusion and discussion 1. Introduction 本文基于OneFlow和U-Net实现ISBI挑战赛的细胞分割,代码包括单机单卡和单机多卡两种训练方式,OneFlow 提供了 oneflow.nn.parallel.DistributedDataParallel 模块及 launcher,可以
BBuf
2021-12-09
4600
PyTorch Lightning工具学习
【GiantPandaCV导语】Pytorch Lightning是在Pytorch基础上进行封装的库(可以理解为keras之于tensorflow),为了让用户能够脱离PyTorch一些繁琐的细节,专注于核心代码的构建,提供了许多实用工具,可以让实验更加高效。本文将介绍安装方法、设计逻辑、转化的例子等内容。
BBuf
2020-12-09
1.5K0
图解神秘的NC4HW4
【GiantPandaCV导语】以卷积和im2col+gemm实现卷积操作举例,来图解深度学习中Tensor的NC4HW4(其实应该是N{C/4+C%4>0?1:0}HW4),写成NC4HW4方便阅读
BBuf
2020-11-17
2.3K0
从零学Paddle系列-1 Paddle框架CNN相关API详解
前面我们对Paddle做了个大致的介绍,这一次我们来详细学习一下cv相关函数的使用
BBuf
2020-07-17
1.8K0
从零学Paddle系列-0 Paddle框架整体概览
Paddle是百度开发的一个深度学习框架,运行时可采用静态图和动态图,通过多个版本的优化,Paddle的动态图运行效率已经可以媲美静态图,这里我推荐使用动态图来编写网络。基于Paddle框架进而衍生出了百度其他强大的开发套件,工具组件和模型库,基础概览如下
BBuf
2020-07-09
2.1K0
深度学习算法优化系列十九 | 如何使用tensorRT C++ API搭建网络
在深度学习算法优化系列十八 | TensorRT Mnist数字识别使用示例 中主要是用TensorRT提供的NvCaffeParser来将Caffe中的model转换成TensorRT中特有的模型结构。其中NvCaffeParser是TensorRT封装好的一个用以解析Caffe模型的工具 (高层的API),同样的还有NvUffPaser用于解析TensorFlow的pb模型,NvONNXParse用于解析Onnx模型。除了这几个工具之外,TensorRT还提供了C++ API(底层的API)直接在TensorRT中创建模型。这时候TensorRT相当于是一个独立的深度学习框架,不过这个框架只负责前向推理(Inference)。
BBuf
2020-03-19
2.4K0
深度学习算法优化系列十七 | TensorRT介绍,安装及如何使用?
由于前期OpenVINO的分享已经基本做完了,笔者也可以成功的在CPU和Intel神经棒上完整的部署一些工作了,因此开始来学习TensorRT啦。先声明一下我使用的TensorRT版本是TensorRT-6.0.1.5 。
BBuf
2020-03-06
5.9K0
深度学习算法优化系列十六 | OpenVINO Post-Training Optimization文档翻译
这个工具的主要功能是一个统一的量化工具。通常,此方法支持任意Bit(>=2)来表示权重和激活值。在量化过程中,会根据预先定义的硬件目标将FakeQuantize操作自动插入到模型图中,以生成硬件友好的优化模型。然后,不同的量化算法可以调整FakeQuantize参数或删除一些操作以满足精度标准。最后这个伪量化模型可以在运行时被解释并将其转换为真正的低精度模型,从而获得真正的性能改善。
BBuf
2020-03-05
1.2K0
【从零开始学习YOLOv3】6. 模型构建中的YOLOLayer
YOLOv3是一个单阶段的目标检测器,将目标划分为不同的grid,每个grid分配3个anchor作为先验框来进行匹配。首先读一下代码中关于grid创建的部分。
BBuf
2020-02-21
5630
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档