首页
学习
活动
专区
工具
TVP
发布

GiantPandaCV

专栏作者
684
文章
801910
阅读量
90
订阅数
AI Infra论文阅读之LIGHTSEQ(LLM长文本训练的Infra工作)
从 https://github.com/RulinShao/LightSeq 注意到这篇paper(https://arxiv.org/pdf/2310.03294.pdf),paper里面有一些比较有趣的发现并且这个paper的代码是基于Triton来实现的,所以激发了我阅读兴趣。我后续也会从源码的角度来解读这篇paper核心idea的代码实现,顺便学习下Triton。介于篇幅原因,这篇文章只读一下这篇paper,把握一下核心的Infra相关的idea。这篇paper应该还没有中会议,处于openreview阶段。
BBuf
2024-02-22
200
【BBuf的CUDA笔记】十四,OpenAI Triton入门笔记二
接着【BBuf的CUDA笔记】十三,OpenAI Triton 入门笔记一 继续探索和学习OpenAI Triton。这篇文章来探索使用Triton写LayerNorm/RMSNorm kernel的细节。
BBuf
2024-02-22
180
视觉类表面缺陷检测项目相关技术总结
做这个方向的项目也有一段时间了,作为算法工程师,主导的大大小小的项目也有几个,有成功交付的,诚然也有烂尾的。回顾整个项目流程,尽管经历酸甜苦辣,但收获颇丰,估写下此文当成2023年终总结吧。
BBuf
2024-02-22
260
星辰AI大模型TeleChat-7B评测
受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B大模型做一个评测。
BBuf
2024-02-22
240
AI Infra论文阅读之将流水线并行气泡几乎降到零(附基于Meagtron-LM的ZB-H1开源代码实现解读)
这篇论文对应的链接为:https://openreview.net/pdf?id=tuzTN0eIO5 ,最近被ICLR 2024接收,但不少AI Infra的同行已经发现了这个工作的价值,并且已经开源在 https://github.com/sail-sg/zero-bubble-pipeline-parallelism ,在一些AI Infra相关的地方也存在一些讨论和介绍。比如 https://www.zhihu.com/question/637480969/answer/3354692418
BBuf
2024-02-22
130
大白话解说Continous Batching
Continous Batching提出于论文《Orca: A Distributed Serving System for Transformer-Based Generative Models》,因其可以实现数倍乃至数十倍的系统吞吐提升,已广泛被各大LLM推理框架采用(原名Iteration Batching,TGI和vLLM称之为Contious Batching,TensorRT-LLM称之为In-flight Batching)。
BBuf
2024-02-22
130
Text Generation Inference源码解读(二):模型加载与推理
本文以TGI对Llama 2的支持为例,解读TGI的模型加载和推理实现,总结其中运用到的推理优化技巧,最后以TGI增加AWQ推理支持为例复盘模型加载逻辑。虽尽力保持行文简洁,但最后成文还是很长,请读者按需跳转阅读。本文所分析TGI代码版本为1.1.1。
BBuf
2024-02-22
250
《PytorchConference2023翻译系列》19-使用TorchBench for PyTorch标准化CPU基准测试
大家好,我是来自英特尔的明飞。今天的主题是关于使用Torchbench对PyTorch社区进行CPU基准测试的标准化。实际上,这是我同事王传奇和姜彦斌的一项工作,但不幸的是他们有一些签证问题,无法亲自来参加,所以我代替他们进行演讲。特别感谢来自Meta的工程师赵旭,在这项工作中给予了很多帮助。首先,我们来看一下为什么做这个?
BBuf
2024-01-30
850
三维场景零样本分割新突破:SAMPro3D技术解读
这篇论文提出了一种创新的3D室内场景分割方法,这在增强现实、机器人技术等领域是一个关键的任务。该任务的核心是从多种3D场景表现形式(如网格或点云)中预测3D物体掩膜。历史上,传统方法在分割训练过程中未遇到的新物体类别时常常遇到困难,这限制了它们在陌生环境中的有效性。
BBuf
2024-01-30
1000
《PytorchConference2023 翻译系列》16.PyTorch 边缘部署之编译器和后端的供应商集成之旅
大家好,我是Kimish Patel,这是我的同事Chen。我们俩都在Meta的人工智能部门工作,也是一个由合作伙伴领导的团队的一员。非常高兴能在这里与大家分享我们加速AI模型的合作伙伴集成的构想。让我先回答一个问题,为什么合作伙伴集成如此重要呢?我希望我们能先看看当前设备上AI的情况,将PyTorch模型部署到设备上的过程通常是这样的:
BBuf
2024-01-24
1050
【BBuf的CUDA笔记】十三,OpenAI Triton 入门笔记一
2023年很多mlsys工作都是基于Triton来完成或者提供了Triton实现版本,比如现在令人熟知的FlashAttention,大模型推理框架lightllm,diffusion第三方加速库stable-fast等灯,以及很多mlsys的paper也开始使用Triton来实现比如最近刚报道的这个新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度。当然笔者由于目前由于工作需要也需要用Triton,所以就有了这系列Triton学习笔记。本篇文章开始入门一下OpenAI的Triton,然后首先是从Triton介绍博客看起,然后对triton官方实现的vector_add和fused_softmax还有Matmul教程做一个阅读,也就是 https://triton-lang.org/main/getting-started/tutorials/ 这里的前三节,熟悉一下triton编写cuda kernel的语法。
BBuf
2024-01-23
1400
《PytorchConference2023 翻译系列》18-如何在TorchServe上提供LLMs的分布式推理
这里是Hamid,我来自PyTorch合作伙伴工程部。我将跟随Mark的讨论,讲解如何在TorchServe上提供LLMs的分布式推理和其他功能。首先,为什么需要分布式推理呢?简单来说,大部分这些模型无法适应单个GPU。
BBuf
2024-01-23
1220
《PytorchConference2023 翻译系列》17-让pytroch模型更快速投入生产的方法——torchserve
大家好,非常感谢大家的加入。我是马克,在推理和PyTorch方面有着丰富的经验。今天我想和大家谈谈一种让你的模型快速投入生产的方法。训练模型的过程非常艰难,你需要花费大量时间和计算资源。但是推理问题似乎相对简单一些。基本上,你只需要将模型在一个批次上运行即可。这就是推理过程所需要的。然而,如果你更接近真实的场景,可能需要进行一些额外的步骤。比如,你不能每次推理都重新加载模型,而且你可能需要设置一个HTTP服务器,并对其进行推理。然后你需要加载模型权重和相关数据,对于大型模型,这可能需要很长时间。此外,用户不会发送张量给你,他们可能发送文本或图像,所以你可能需要对这些输入进行预处理。然后你就可以运行推理了。
BBuf
2024-01-23
860
NID-SLAM:动态环境中基于神经隐式表示的RGB-D SLAM
论文标题:NID-SLAM: NEURAL IMPLICIT REPRESENTATION-BASED RGB-D SLAM IN DYNAMIC ENVIRONMENTS
BBuf
2024-01-17
1640
【BBuf的CUDA笔记】十二,LayerNorm/RMSNorm的重计算实现
我也是偶然在知乎的一个问题下看到这个问题,大概就是说在使用apex的LayerNorm/RMSNorm的时候可以打开这个api的memory_efficient开关,这个开关可以在速度和精度无损的情况下节省网络训练的显存占用。感觉比较有趣,我就研究了一下,因此也就有了这篇文章。
BBuf
2024-01-17
1700
基于 Discrete Diffusion 的模型不可知分割细化
这次这篇文章介绍一篇很有意思的工作:SegRefiner,来自 NeurIPS, 2023,目前代码已开源。SegRefiner 的效果:
BBuf
2024-01-17
1730
《PytorchConference2023 翻译系列》15-PyTorch-Edge-在边缘设备上部署AI模型的开发者之旅
我的名字是孟伟,这是安吉拉。今天我们非常高兴地讲解ExecuTorch,这是我们的一个新的端到端技术栈,帮助开发者在边缘设备上部署他们的PyTorch模型,这些设备包括智能手机、智能可穿戴设备和虚拟现实头显等等。
BBuf
2024-01-12
880
《PytorchConference2023 翻译系列》9,在PyTorch 2.X中使用TensorRT加速推理
大家好,我叫乔治。嗨,我是迪拉杰,我们都是NVIDIA的深度学习软件工程师。今天我们在这里讨论使用Torch TensorRT加速PyTorch推断。首先,我们会给大家简短介绍一下Torch TensorRT是什么,然后乔治将深入介绍我们优化PyTorch模型的用户工作流程。最后,我们将比较这两种方法,并讨论一些正在进行的未来工作。现在我将把话筒交给乔治。
BBuf
2024-01-11
1130
首创!BEV-CV:用鸟瞰视角变换实现跨视角地理定位
因为航拍视角和地面视角之间有很大的差异,所以跨视角地理定位一直是一个难题。本文提出了一种新方法,可以利用地理参考图像进行定位,而不需要外部设备或昂贵的设备。现有的研究使用各种技术来缩小域间的差距,例如对航拍图像进行极坐标变换或在不同视角之间进行合成。然而,这些方法通常需要360°的视野,限制了它们的实际应用。我们提出了BEV-CV,这是一种具有两个关键创新的方法。首先,我们将地面级图像转换为语义鸟瞰图,然后匹配嵌入,使其可以直接与航拍分割表示进行比较。其次,我们在该领域首次引入了标准化温度缩放的交叉熵损失,实现了比标准三元组损失更快的收敛。BEV-CV在两个公开数据集上实现了最先进的召回精度,70°裁剪的特征提取Top-1率提高了300%以上,Top-1%率提高了约150%,对于方向感知应用,我们实现了70°裁剪的Top-1精度提高了35%。
BBuf
2024-01-11
1770
【BBuf的CUDA笔记】十一,Linear Attention的cuda kernel实现补档(文末送书
填一下 【BBuf的CUDA笔记】十,Linear Attention的cuda kernel实现解析 留下的坑,阅读本文之前需要先阅读上面这篇文章。这里就不重复介绍背景知识了,只需要知道现在要计算的目标是:
BBuf
2024-01-05
690
点击加载更多
社区活动
征集 | 幻兽帕鲁腾讯云教程
最高享8.6W,2月7日截止报名
玩转Python征文挑战赛
优先体验社区新功能,赢取众多精美礼品!
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档