腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
GiantPandaCV
专栏作者
举报
698
文章
851855
阅读量
93
订阅数
订阅专栏
申请加入专栏
全部文章
https
网络安全
编程算法
神经网络
深度学习
人工智能
机器学习
模型
图像识别
github
数据
git
pytorch
开源
python
论文
卷积神经网络
图像处理
性能
优化
批量计算
kernel
腾讯云测试服务
ide
存储
网络
函数
数据结构
翻译
工作
c++
opencv
数据分析
算法
css
框架
node.js
人脸识别
api
linux
block
打包
对象
编译
部署
架构
单片机
笔记
编码
html
文件存储
分布式
监督学习
测试
教程
量化
设计
tcp/ip
cuda
openai
内存
对象存储
自动驾驶
c#
网站
http
缓存
ssh
迁移
channel
lm
models
self
tensor
视频
LLM
tensorflow
.net
android
mapreduce
渲染
决策树
windows
bit
image
text
token
编译器
后端
脚本
内核
压缩
图像分割
NLP 服务
arm
容器镜像服务
容器
chatgpt
epoch
model
size
变量
接口
连接
入门
系统
线程
javascript
日志服务
企业
html5
无人驾驶
面向对象编程
keras
二叉树
markdown
迁移学习
fpga
ghost
学习方法
智能推荐平台
chat
embedding
free
gpu
input
int
key
layer
map
mask
max
nas
normalization
object
patch
random
rgb
row
scale
set
time
程序
地图
高性能
工具
基础
集合
解决方案
进程
开发者
索引
腾讯
通信
学习笔记
语法
源码
重构
负载均衡
java
bash
jquery
opengl
汇编语言
flask
apache
nginx
bash 指令
黑石物理服务器
访问管理
命令行工具
SSL 证书
高性能计算
vr 视频解决方案
出行
serverless
shell
强化学习
rpc
无监督学习
anaconda
大数据
数据处理
腾讯云开发者社区
网站渗透测试
聚类算法
分类算法
汽车
小程序·云开发
alpha
architecture
auto
backbone
bi
branch
class
cpu
crop
cube
data
dataset
detection
dsl
encoding
export
file
fold
gan
google
gpt
gradient
im
kaggle
label
lambda
leetcode
llvm
load
local
location
mac
mapping
matrix
mean
memory
meta
mutable
offset
outlook
output
pdf
position
post
profiler
reshape
rotation
sap
scaling
schedule
scope
search
sequence
shared
spatial
sse
stream
streaming
sum
table
tail
thread
torch
transform
vector
worker
zero
编程
读书笔记
多线程
服务
互联网
开发
流媒体
排序
排序算法
配置
日志
事件
手机
数据存储
统计
效率
异常
硬件
原型
字符串
搜索文章
搜索
搜索
关闭
系统调优助手,PyTorch Profiler TensorBoard 插件教程
pytorch
profiler
插件
教程
系统
使用PyTorch Profiler进行性能分析已经一段时间了,毕竟是PyTorch提供的原生profile工具,个人感觉做系统性能分析时感觉比Nsys更方便一些,并且画的图也比较直观。这里翻译一下PyTorch Profiler TensorBoard Plugin的教程并分享一些使用经验,我使用的时候也是按照这个教程来来的,有一点不一样的是可以在vscode里面直接安装TensorBoard插件,然后Command+Shift+P打开vscode的命令行窗口输入TensorBoard启用TensorBoard插件并把PyTorch Profiler输出的日志文件所在的文件夹路径传给它就可以直接在vscode里面查看可视化Profile结果了。
BBuf
2024-04-18
20
0
nndeploy - 一款开源的模型端到端部署框架
框架
模型
内存
开源
部署
项目地址:https://github.com/DeployAI/nndeploy 欢迎star和PR
BBuf
2024-04-12
84
0
ICLR 2024 spotlight WURSTCHEN - 一个高效的大规模文本到图像扩散模型的架构
压缩
架构
论文
模型
效率
这篇论文探讨了一个当前在图像合成领域中的核心问题:如何在保持生成图像质量的同时,减少计算资源的消耗。目前的先进扩散模型,如Stable Diffusion和DALL·E 2,虽然能够生成接近真实的高质量图像,但它们对计算资源的需求非常高,这在一定程度上限制了它们的应用范围和可达性。例如,Stable Diffusion 1.4版本的训练就耗费了150,000 GPU小时。
BBuf
2024-04-12
131
0
《PytorchConference2023翻译系列》25 数据加载技术的演进
数据存储
系统
翻译
模型
数据
我叫劳伦斯·拉斯内尔,是Meta公司的工程经理,我负责PyTorch团队的一部分。在过去的两年半里,我一直专注于PyTorch库,例如Torch vision,audio,multimodel。我们在生成式人工智能、大规模内容理解模型和大规模推荐系统等方面做了大量的工作。今天我将讲述PyTorch中dataloading的发展现状。
BBuf
2024-04-12
107
0
新进展!Larimar-让大型语言模型像人一样记忆与遗忘
事件
数据
存储
编码
模型
更新大型语言模型(LLM)中的知识是当前研究的一个重要挑战。本文介绍了Larimar——一种受大脑启发的新架构,它通过分布式情节记忆来增强LLM。Larimar的记忆系统能够在不需要重新训练或微调的情况下,动态地进行一次性知识更新。在多个事实编辑基准测试中,Larimar展示了与最有竞争力的基线相当的精度,即使在连续编辑的挑战性环境中也是如此。它在速度上也超过了基线,根据不同的LLM,可以实现4到10倍的加速。此外,由于其架构的简单性、LLM不可知论和通用性,Larimar也展示出了灵活性。我们还提供了基于Larimar的一次性记忆更新机制,包括选择性事实遗忘和输入上下文长度的泛化机制,并证明了它们的有效性。
BBuf
2024-03-27
124
0
AI Infra论文阅读之《在LLM训练中减少激活值内存》
论文
模型
内存
LLM
存储
写了一个Megatron-LM的3D Parallel进程组可视化的Playground,界面长下面这样:
BBuf
2024-03-26
126
0
ICLR2024 oral:小尺度Transformer如何Scale Up
性能
优化
scale
论文
模型
这篇论文探讨了在放大Transformer模型时遇到的一系列训练不稳定性问题,并提出了研究和预测这些不稳定性的方法。作者指出,尽管将Transformer模型扩展到更大的规模已经在从聊天模型到图像生成等多个领域取得了显著进展,但并非每一次训练尝试都会成功。在训练大型Transformer模型时,研究人员报告了一些不稳定性,这些不稳定性会减缓或破坏学习过程。
BBuf
2024-03-26
110
0
ICLR 2024 最新研究 DYST 技术让视频表征更精准、更智能
变量
对象
模型
视频
数据
首先来看引言部分,概述了在视觉表示学习领域的主流研究集中于捕捉个别图像的语义和2D结构的现状,并指出本研究的重点是同时捕捉场景的3D结构和动态,这对于规划、空间和物理推理以及与现实世界的有效互动至关重要。文章强调了最近在3D视觉场景的生成模型方面取得的进展,特别是从使用体素网格、点云或纹理网格等显式表示转向通过直接优化新视图合成(NVS)来学习隐式表示的转变。如神经辐射场(Neural Radiance Fields)虽然最初限于单一场景并需要大量输入图像、控制的照明、精确的相机姿态和长时间的处理,但随后已被扩展以处理照明变化、跨场景泛化、少量图像工作、缺失相机和动态场景。
BBuf
2024-03-20
118
0
3D内容创作新篇章:DREAMGAUSSIAN技术解读,已开源
算法
优化
渲染
开源
模型
本文从自动三维数字内容创建的研究背景入手,探讨了这一领域在数字游戏、广告、电影以及元宇宙等多个领域的应用前景。特别强调了图像到3D和文本到3D这两种核心技术如何通过减少专业艺术家的手动劳动需求,以及赋予非专业用户参与3D资产创建的能力,带来显著优势。文章借鉴了2D内容生成领域的最新突破,讨论了3D内容创建领域的快速发展,将现有的研究分为两大类:仅推理的3D原生方法和基于优化的2D提升方法。
BBuf
2024-03-07
211
0
【BBuf的CUDA笔记】十四,OpenAI Triton入门笔记三 FusedAttention
cuda
openai
笔记
入门
性能
继续Triton的学习,这次来到 https://triton-lang.org/main/getting-started/tutorials/06-fused-attention.html 教程。也就是如何使用Triton来实现FlashAttention V2。对于FlashAttention和FlashAttention V2网上已经有非常多的介绍了,大家如果感兴趣的话我推荐FlashAttention V1看 《图解大模型计算加速系列:FlashAttention V1,从硬件到计算逻辑》https://zhuanlan.zhihu.com/p/669926191 这篇文章的讲解 以及 FlashAttention V2 看 《图解大模型计算加速系列:Flash Attention V2,从原理到并行计算》 https://mp.weixin.qq.com/s/5K6yNj23NmNLcAQofHcT4Q ,原理和公式推导都非常清晰,不过想一口气读完还是要花一些精力的。同时你也可以在 https://github.com/BBuf/how-to-optim-algorithm-in-cuda 找到更多相关资料(此外Meagtron-LM,DeepSpeed等训练Infra框架的迅速跟进也说明了FlashAttention这个系列工作影响之大),例如:
BBuf
2024-02-29
312
0
自动驾驶建图--道路边缘生成方案探讨
自动驾驶
脚本
模型
数据
优化
对于自动驾驶来说,建图是必不可少的,目前主流厂商技术都在从HD到"无图"进行过渡筹备中,不过想要最终实现真正的"无图"还是有很长的一段路要走。对于建图来说,包含了很多的道路元素,车道线,停止线,斑马线,导流属性,道路边缘以及中心线(包含引导线)等。这里,中心线的预测通常是根据轨迹,通过数学公式进行拟合,目前学术上逐渐采用模型进行预测,但是对于下游(PNC)来说,还是存在不够平滑,曲率不够精准等问题,不过这个不在本次方案讨论范围内,先忽略,以后有空可以写一写。道路边界对于PNC来说也是至关重要,约束车辆行驶范围,避免物理碰撞发生。通常道路边界的生成有几种方法,一种是当做车道线的一部分,跟着模型一起输出,但是没有车道线的特征明显,容易漏检,而且道路边界是异形的,基于分割的方案会比基于Anchor的方案效果稳定一些。另一种是HD的方法,根据处理后的车道线,按照距离和规则等虚拟出道路边界线。本文给出一种新的解决方案,略微繁琐,但是优点是可以延用已有的公开数据集进行处理生成,快速落地验证,缺点是本方案不具备时效性,是离线的方法。
BBuf
2024-02-29
135
0
最新SOTA!利用扩散模型精准识别UDC环境下的面部表情
数据
算法
网络
编码
模型
论文标题:LRDif: Diffusion Models for Under-Display Camera Emotion Recognition
BBuf
2024-02-29
161
0
《PytorchConference2023翻译系列》22. PT2 Export - 用于PyTorch的全图捕获机制
pytorch
export
编译
翻译
模型
PT2 Export - A Sound Full Graph Capture Mechanism for PyTorch
BBuf
2024-02-29
80
0
OpenAI/Triton MLIR 第四章: ROCm-triton配置
block
openai
size
编译
配置
最近在整理python-based的benchmark代码,反过来在NV的GPU上又把Triton装了一遍,发现Triton的github repo已经给出了对应的llvm的commit id以及对应的编译细节,然后跟着走了一遍,也顺利的安装成功,只需要按照如下方式即可完成NV GPU上的安装,
BBuf
2024-02-29
140
0
AI Infra论文阅读之LIGHTSEQ(LLM长文本训练的Infra工作)
工作
论文
模型
通信
LLM
从 https://github.com/RulinShao/LightSeq 注意到这篇paper(https://arxiv.org/pdf/2310.03294.pdf),paper里面有一些比较有趣的发现并且这个paper的代码是基于Triton来实现的,所以激发了我阅读兴趣。我后续也会从源码的角度来解读这篇paper核心idea的代码实现,顺便学习下Triton。介于篇幅原因,这篇文章只读一下这篇paper,把握一下核心的Infra相关的idea。这篇paper应该还没有中会议,处于openreview阶段。
BBuf
2024-02-22
168
0
【BBuf的CUDA笔记】十四,OpenAI Triton入门笔记二
入门
cuda
openai
笔记
函数
接着【BBuf的CUDA笔记】十三,OpenAI Triton 入门笔记一 继续探索和学习OpenAI Triton。这篇文章来探索使用Triton写LayerNorm/RMSNorm kernel的细节。
BBuf
2024-02-22
220
0
视觉类表面缺陷检测项目相关技术总结
算法
部署
服务
模型
数据
做这个方向的项目也有一段时间了,作为算法工程师,主导的大大小小的项目也有几个,有成功交付的,诚然也有烂尾的。回顾整个项目流程,尽管经历酸甜苦辣,但收获颇丰,估写下此文当成2023年终总结吧。
BBuf
2024-02-22
190
0
星辰AI大模型TeleChat-7B评测
测试
工作
模型
出行
开源
受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B大模型做一个评测。
BBuf
2024-02-22
219
0
AI Infra论文阅读之将流水线并行气泡几乎降到零(附基于Meagtron-LM的ZB-H1开源代码实现解读)
内存
优化
开源
lm
论文
这篇论文对应的链接为:https://openreview.net/pdf?id=tuzTN0eIO5 ,最近被ICLR 2024接收,但不少AI Infra的同行已经发现了这个工作的价值,并且已经开源在 https://github.com/sail-sg/zero-bubble-pipeline-parallelism ,在一些AI Infra相关的地方也存在一些讨论和介绍。比如 https://www.zhihu.com/question/637480969/answer/3354692418
BBuf
2024-02-22
262
0
大白话解说Continous Batching
论文
模型
算法
系统
优化
Continous Batching提出于论文《Orca: A Distributed Serving System for Transformer-Based Generative Models》,因其可以实现数倍乃至数十倍的系统吞吐提升,已广泛被各大LLM推理框架采用(原名Iteration Batching,TGI和vLLM称之为Contious Batching,TensorRT-LLM称之为In-flight Batching)。
BBuf
2024-02-22
426
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档