腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

GiantPandaCV

专栏作者

698

文章

851855

阅读量

93

订阅数

系统调优助手，PyTorch Profiler TensorBoard 插件教程

pytorch profiler 插件教程系统

使用PyTorch Profiler进行性能分析已经一段时间了，毕竟是PyTorch提供的原生profile工具，个人感觉做系统性能分析时感觉比Nsys更方便一些，并且画的图也比较直观。这里翻译一下PyTorch Profiler TensorBoard Plugin的教程并分享一些使用经验，我使用的时候也是按照这个教程来来的，有一点不一样的是可以在vscode里面直接安装TensorBoard插件，然后Command+Shift+P打开vscode的命令行窗口输入TensorBoard启用TensorBoard插件并把PyTorch Profiler输出的日志文件所在的文件夹路径传给它就可以直接在vscode里面查看可视化Profile结果了。

2024-04-18

200

nndeploy - 一款开源的模型端到端部署框架

框架模型内存开源部署

项目地址：https://github.com/DeployAI/nndeploy 欢迎star和PR

2024-04-12

840

ICLR 2024 spotlight WURSTCHEN - 一个高效的大规模文本到图像扩散模型的架构

压缩架构论文模型效率

这篇论文探讨了一个当前在图像合成领域中的核心问题：如何在保持生成图像质量的同时，减少计算资源的消耗。目前的先进扩散模型，如Stable Diffusion和DALL·E 2，虽然能够生成接近真实的高质量图像，但它们对计算资源的需求非常高，这在一定程度上限制了它们的应用范围和可达性。例如，Stable Diffusion 1.4版本的训练就耗费了150,000 GPU小时。

2024-04-12

1310

《PytorchConference2023翻译系列》25 数据加载技术的演进

数据存储系统翻译模型数据

我叫劳伦斯·拉斯内尔，是Meta公司的工程经理，我负责PyTorch团队的一部分。在过去的两年半里，我一直专注于PyTorch库，例如Torch vision,audio,multimodel。我们在生成式人工智能、大规模内容理解模型和大规模推荐系统等方面做了大量的工作。今天我将讲述PyTorch中dataloading的发展现状。

2024-04-12

1070

新进展！Larimar-让大型语言模型像人一样记忆与遗忘

事件数据存储编码模型

更新大型语言模型（LLM）中的知识是当前研究的一个重要挑战。本文介绍了Larimar——一种受大脑启发的新架构，它通过分布式情节记忆来增强LLM。Larimar的记忆系统能够在不需要重新训练或微调的情况下，动态地进行一次性知识更新。在多个事实编辑基准测试中，Larimar展示了与最有竞争力的基线相当的精度，即使在连续编辑的挑战性环境中也是如此。它在速度上也超过了基线，根据不同的LLM，可以实现4到10倍的加速。此外，由于其架构的简单性、LLM不可知论和通用性，Larimar也展示出了灵活性。我们还提供了基于Larimar的一次性记忆更新机制，包括选择性事实遗忘和输入上下文长度的泛化机制，并证明了它们的有效性。

2024-03-27

1240

AI Infra论文阅读之《在LLM训练中减少激活值内存》

论文模型内存 LLM 存储

写了一个Megatron-LM的3D Parallel进程组可视化的Playground，界面长下面这样：

2024-03-26

1260

ICLR2024 oral：小尺度Transformer如何Scale Up

性能优化 scale 论文模型

这篇论文探讨了在放大Transformer模型时遇到的一系列训练不稳定性问题，并提出了研究和预测这些不稳定性的方法。作者指出，尽管将Transformer模型扩展到更大的规模已经在从聊天模型到图像生成等多个领域取得了显著进展，但并非每一次训练尝试都会成功。在训练大型Transformer模型时，研究人员报告了一些不稳定性，这些不稳定性会减缓或破坏学习过程。

2024-03-26

1100

ICLR 2024 最新研究 DYST 技术让视频表征更精准、更智能

变量对象模型视频数据

首先来看引言部分，概述了在视觉表示学习领域的主流研究集中于捕捉个别图像的语义和2D结构的现状，并指出本研究的重点是同时捕捉场景的3D结构和动态，这对于规划、空间和物理推理以及与现实世界的有效互动至关重要。文章强调了最近在3D视觉场景的生成模型方面取得的进展，特别是从使用体素网格、点云或纹理网格等显式表示转向通过直接优化新视图合成（NVS）来学习隐式表示的转变。如神经辐射场（Neural Radiance Fields）虽然最初限于单一场景并需要大量输入图像、控制的照明、精确的相机姿态和长时间的处理，但随后已被扩展以处理照明变化、跨场景泛化、少量图像工作、缺失相机和动态场景。

2024-03-20

1180

3D内容创作新篇章：DREAMGAUSSIAN技术解读，已开源

算法优化渲染开源模型

本文从自动三维数字内容创建的研究背景入手，探讨了这一领域在数字游戏、广告、电影以及元宇宙等多个领域的应用前景。特别强调了图像到3D和文本到3D这两种核心技术如何通过减少专业艺术家的手动劳动需求，以及赋予非专业用户参与3D资产创建的能力，带来显著优势。文章借鉴了2D内容生成领域的最新突破，讨论了3D内容创建领域的快速发展，将现有的研究分为两大类：仅推理的3D原生方法和基于优化的2D提升方法。

2024-03-07

2110

【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记三 FusedAttention

cuda openai 笔记入门性能

继续Triton的学习，这次来到 https://triton-lang.org/main/getting-started/tutorials/06-fused-attention.html 教程。也就是如何使用Triton来实现FlashAttention V2。对于FlashAttention和FlashAttention V2网上已经有非常多的介绍了，大家如果感兴趣的话我推荐FlashAttention V1看《图解大模型计算加速系列：FlashAttention V1，从硬件到计算逻辑》https://zhuanlan.zhihu.com/p/669926191 这篇文章的讲解以及 FlashAttention V2 看《图解大模型计算加速系列：Flash Attention V2，从原理到并行计算》 https://mp.weixin.qq.com/s/5K6yNj23NmNLcAQofHcT4Q ，原理和公式推导都非常清晰，不过想一口气读完还是要花一些精力的。同时你也可以在 https://github.com/BBuf/how-to-optim-algorithm-in-cuda 找到更多相关资料（此外Meagtron-LM，DeepSpeed等训练Infra框架的迅速跟进也说明了FlashAttention这个系列工作影响之大），例如：

2024-02-29

3120

自动驾驶建图--道路边缘生成方案探讨

自动驾驶脚本模型数据优化

对于自动驾驶来说，建图是必不可少的，目前主流厂商技术都在从HD到"无图"进行过渡筹备中，不过想要最终实现真正的"无图"还是有很长的一段路要走。对于建图来说，包含了很多的道路元素，车道线，停止线，斑马线，导流属性，道路边缘以及中心线(包含引导线)等。这里，中心线的预测通常是根据轨迹，通过数学公式进行拟合，目前学术上逐渐采用模型进行预测，但是对于下游(PNC)来说，还是存在不够平滑，曲率不够精准等问题，不过这个不在本次方案讨论范围内，先忽略，以后有空可以写一写。道路边界对于PNC来说也是至关重要，约束车辆行驶范围，避免物理碰撞发生。通常道路边界的生成有几种方法，一种是当做车道线的一部分，跟着模型一起输出，但是没有车道线的特征明显，容易漏检，而且道路边界是异形的，基于分割的方案会比基于Anchor的方案效果稳定一些。另一种是HD的方法，根据处理后的车道线，按照距离和规则等虚拟出道路边界线。本文给出一种新的解决方案，略微繁琐，但是优点是可以延用已有的公开数据集进行处理生成，快速落地验证，缺点是本方案不具备时效性，是离线的方法。

2024-02-29

1350

最新SOTA！利用扩散模型精准识别UDC环境下的面部表情

数据算法网络编码模型

论文标题：LRDif: Diffusion Models for Under-Display Camera Emotion Recognition

2024-02-29

1610

《PytorchConference2023翻译系列》22. PT2 Export - 用于PyTorch的全图捕获机制

pytorch export 编译翻译模型

PT2 Export - A Sound Full Graph Capture Mechanism for PyTorch

2024-02-29

800

OpenAI/Triton MLIR 第四章: ROCm-triton配置

block openai size 编译配置

最近在整理python-based的benchmark代码，反过来在NV的GPU上又把Triton装了一遍，发现Triton的github repo已经给出了对应的llvm的commit id以及对应的编译细节，然后跟着走了一遍，也顺利的安装成功，只需要按照如下方式即可完成NV GPU上的安装，

2024-02-29

1400

AI Infra论文阅读之LIGHTSEQ（LLM长文本训练的Infra工作）

工作论文模型通信 LLM

从 https://github.com/RulinShao/LightSeq 注意到这篇paper（https://arxiv.org/pdf/2310.03294.pdf），paper里面有一些比较有趣的发现并且这个paper的代码是基于Triton来实现的，所以激发了我阅读兴趣。我后续也会从源码的角度来解读这篇paper核心idea的代码实现，顺便学习下Triton。介于篇幅原因，这篇文章只读一下这篇paper，把握一下核心的Infra相关的idea。这篇paper应该还没有中会议，处于openreview阶段。

2024-02-22

1680

【BBuf的CUDA笔记】十四，OpenAI Triton入门笔记二

入门 cuda openai 笔记函数

接着【BBuf的CUDA笔记】十三，OpenAI Triton 入门笔记一继续探索和学习OpenAI Triton。这篇文章来探索使用Triton写LayerNorm/RMSNorm kernel的细节。

2024-02-22

2200

视觉类表面缺陷检测项目相关技术总结

算法部署服务模型数据

做这个方向的项目也有一段时间了，作为算法工程师，主导的大大小小的项目也有几个，有成功交付的，诚然也有烂尾的。回顾整个项目流程，尽管经历酸甜苦辣，但收获颇丰，估写下此文当成2023年终总结吧。

2024-02-22

1900

星辰AI大模型TeleChat-7B评测

测试工作模型出行开源

受中电信 AI 科技有限公司的邀请，为他们近期开源的TeleChat-7B大模型做一个评测。

2024-02-22

2190

AI Infra论文阅读之将流水线并行气泡几乎降到零（附基于Meagtron-LM的ZB-H1开源代码实现解读）

内存优化开源 lm 论文

这篇论文对应的链接为：https://openreview.net/pdf?id=tuzTN0eIO5 ，最近被ICLR 2024接收，但不少AI Infra的同行已经发现了这个工作的价值，并且已经开源在 https://github.com/sail-sg/zero-bubble-pipeline-parallelism ，在一些AI Infra相关的地方也存在一些讨论和介绍。比如 https://www.zhihu.com/question/637480969/answer/3354692418

2024-02-22

2620

大白话解说Continous Batching

论文模型算法系统优化

Continous Batching提出于论文《Orca: A Distributed Serving System for Transformer-Based Generative Models》，因其可以实现数倍乃至数十倍的系统吞吐提升，已广泛被各大LLM推理框架采用（原名Iteration Batching，TGI和vLLM称之为Contious Batching，TensorRT-LLM称之为In-flight Batching）。

2024-02-22

4260

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态