BBuf

文章/答案/技术大牛

发布

LV0

发表了文章 2025-02-032025-02-03 07:46:13

如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？

来源丨https://www.zhihu.com/question/655172528/answer/3495218670

BBuf 2025-02-032025-02-03 21:28:59

DeepSeek

发表了文章 2025-02-032025-02-03 07:45:07

如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？（从推理角度分析）

来源丨https://www.zhihu.com/question/655172528/answer/3491439374

BBuf 2025-02-032025-02-03 21:29:00

DeepSeek

发表了文章 2024-07-022024-07-02 12:32:00

CUDA-MODE 课程笔记第一课: 如何在 PyTorch 中 profile CUDA kernels

一直想系统看一下某个课程系统和科学的学习下 CUDA ，感觉 CUDA-MODE 这个课程能满足我的需求。这个课程是几个 PyTorch 的 Core Dev ...

BBuf 2024-07-022024-07-02 12:32:00

profile、笔记、性能、pytorch、cuda

发表了文章 2024-07-012024-07-01 14:15:13

Huggingface CEO：阿里Qwen-2成全球开源大模型排行榜第一，中国处于领导地位

早上浏览朋友圈的时候注意到HuugingFace的CEO Celm官宣了一个新的LLM排行榜OpenLLM Leaderboard2，阿里的Qwen2-72b-...

BBuf 2024-07-012024-07-01 14:15:13

架构、框架、模型、性能、开源

发表了文章 2024-07-012024-07-01 14:14:36

MLIR_对自定义IR Dialect编写bufferization pass

最近在整理先前实习做的一些工作，主要是对AI compiler做基于mlir的重构，以下是之前写的compiler frontend的一个比较基础的pass，针...

BBuf 2024-07-012024-07-01 14:14:37

tensor、函数、内存、auto、func

发表了文章 2024-07-012024-07-01 14:13:15

如何使用“LoRa”的方式加载ONNX模型：StableDiffusion相关模型的C++推理

1.基于 onnxruntime，将 StableDiffusionInpaintPipeline、StableDiffusionControlNetImg2I...

BBuf 2024-07-012024-07-01 14:13:16

模型、LoRa、c++、data、std

发表了文章 2024-06-182024-06-18 12:39:09

大模型KV Cache节省神器MLA学习笔记（包含推理时的矩阵吸收分析）

这里提一下，我维护的几个记录个人学习笔记以及社区中其它大佬们的优秀博客链接的仓库都获得了不少star，感谢读者们的认可，我也会继续在开源社区多做贡献。githu...

BBuf 2024-06-182024-06-18 12:39:09

self、模型、学习笔记、压缩、原理

发表了文章 2024-06-182024-06-18 12:37:51

60行代码加速20倍 NEON实现深度学习OD任务后处理绘框

【前言】本文版权属于GiantPandaCV，未经允许，请勿转载！最近在学neon汇编加速，由于此前OD任务发现在检测后处理部分使用OpenCV较为占用资源且...

BBuf 2024-06-182024-06-18 12:37:52

数据、深度学习、存储、测试、函数

发表了文章 2024-06-182024-06-18 12:36:21

vAttention：用于在没有Paged Attention的情况下Serving LLM

paper链接：https://arxiv.org/pdf/2405.04437v1

BBuf 2024-06-182024-06-18 12:36:22

服务、模型、内存、系统、LLM

发表了文章 2024-06-182024-06-18 12:35:09

GQA，MLA之外的另一种KV Cache压缩方式：动态内存压缩（DMC）

在openreview上看到最近NV的一个KV Cache压缩工作：https://openreview.net/pdf?id=tDRYrAkOB7 ，感觉思路...

BBuf 2024-06-182024-06-18 12:35:09

模型、内存、算法、压缩、缓存

发表了文章 2024-06-062024-06-06 11:28:14

I-LLM：首次实现了LLM全整形量化，精度逼近浮点，超过Smooth/Omini/AffineQuant

来源丨https://zhuanlan.zhihu.com/p/701393483

BBuf 2024-06-062024-06-06 11:28:14

模型、性能、LLM、部署、量化

发表了文章 2024-06-052024-06-05 18:26:52

硬件高效的线性注意力机制Gated Linear Attention论文阅读

上篇文章 flash-linear-attention中的Chunkwise并行算法的理解根据GLA Transformer Paper（https://ar...

BBuf 2024-06-052024-06-05 18:26:53

硬件、递归、论文、内存、算法

发表了文章 2024-06-042024-06-04 15:40:38

原理&图解vLLM Automatic Prefix Cache(RadixAttention)首Token时延优化

来源丨https://zhuanlan.zhihu.com/p/693556044

BBuf 2024-06-042024-06-04 15:40:38

缓存、prefix、token、优化、原理

发表了文章 2024-06-032024-06-03 21:24:15

flash-linear-attention中的Chunkwise并行算法的理解

这里提一下，我维护的几三个记录个人学习笔记以及社区中其它大佬们的优秀博客链接的仓库都获得了不少star，感谢读者们的认可，我也会继续在开源社区多做贡献。gith...

BBuf 2024-06-032024-06-03 21:24:15

flash、torch、递归、函数、算法

发表了文章 2024-06-032024-06-03 21:24:05

大模型训练：Megatron-Core中的通信优化

来源丨https://zhuanlan.zhihu.com/p/694877232

BBuf 2024-06-032024-06-03 21:24:05

core、模型、数据、通信、优化

发表了文章 2024-06-032024-06-03 21:23:45

OverlapMamba 具备超强泛化能力的定位方法

精准的定位是自动驾驶系统独立决策和安全运行的基石，也是SLAM中环路闭合检测和全局定位的核心。传统方法通常采用点云数据作为输入，和基于深度学习的激光雷达定位（L...

BBuf 2024-06-032024-06-03 21:23:46

数据、网络、系统、函数、模型

发表了文章 2024-06-032024-06-03 21:20:25

[并行训练]Context Parallelism的原理与代码浅析

来源丨https://zhuanlan.zhihu.com/p/698447429

BBuf 2024-06-032024-06-03 21:20:25

优化、原理、数据、索引、通信

发表了文章 2024-05-212024-05-21 15:20:23

NEON做色域变化_ 用单核性能无限逼近八核并行OpenCV

最近开始接触neon汇编，觉得这个东西在一些应用场景上好用，遂做些记录，分享下自己做的一些工作。

BBuf 2024-05-212024-05-21 15:20:23

性能、opencv、测试、内存、数据

发表了文章 2024-05-212024-05-21 15:18:58

flash-linear-attention的fused_recurrent_rwkv6 Triton实现精读

继续补在GPU上加速RWKV6模型的Linear Attention计算没有写完的内容，对flash-linear-attention库（https://g...

BBuf 2024-05-212024-05-21 15:18:59

torch、函数、flash、mask、state

发表了文章 2024-05-132024-05-13 11:16:48

AffineQuant: 大语言模型的仿射变换量化

本文研究了大型语言模型（LLMs）在移动和边缘设备上的推理加速问题，这一问题在现实应用中具有重要意义。随着大型语言模型在多种任务中展现出卓越的性能，它们吸引了越...

BBuf 2024-05-132024-05-13 11:16:48

效率、性能、优化、量化、模型

12 3 4 5 6 7 8...37 下一页

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2019-03-26

个人成就

获得 1.8K 次赞同
文章被阅读 1.4M 次

关注了：1关注者：282

BBuf

如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？

如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？（从推理角度分析）

CUDA-MODE 课程笔记第一课: 如何在 PyTorch 中 profile CUDA kernels

Huggingface CEO：阿里Qwen-2成全球开源大模型排行榜第一，中国处于领导地位

MLIR_对自定义IR Dialect编写bufferization pass

如何使用“LoRa”的方式加载ONNX模型：StableDiffusion相关模型的C++推理

大模型KV Cache节省神器MLA学习笔记（包含推理时的矩阵吸收分析）

60行代码加速20倍 NEON实现深度学习OD任务后处理绘框

vAttention：用于在没有Paged Attention的情况下Serving LLM

GQA，MLA之外的另一种KV Cache压缩方式：动态内存压缩（DMC）

I-LLM：首次实现了LLM全整形量化，精度逼近浮点，超过Smooth/Omini/AffineQuant

硬件高效的线性注意力机制Gated Linear Attention论文阅读

原理&图解vLLM Automatic Prefix Cache(RadixAttention)首Token时延优化

flash-linear-attention中的Chunkwise并行算法的理解

大模型训练：Megatron-Core中的通信优化

OverlapMamba 具备超强泛化能力的定位方法

[并行训练]Context Parallelism的原理与代码浅析

NEON做色域变化_ 用单核性能无限逼近八核并行OpenCV

flash-linear-attention的fused_recurrent_rwkv6 Triton实现精读

AffineQuant: 大语言模型的仿射变换量化

个人简介

个人成就

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

BBuf

如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？

如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？（从推理角度分析）

CUDA-MODE 课程笔记 第一课: 如何在 PyTorch 中 profile CUDA kernels

Huggingface CEO：阿里Qwen-2成全球开源大模型排行榜第一，中国处于领导地位

MLIR_对自定义IR Dialect编写bufferization pass

如何使用“LoRa”的方式加载ONNX模型：StableDiffusion相关模型 的C++推理

大模型KV Cache节省神器MLA学习笔记（包含推理时的矩阵吸收分析）

60行代码加速20倍 NEON实现深度学习OD任务后处理绘框

vAttention：用于在没有Paged Attention的情况下Serving LLM

GQA，MLA之外的另一种KV Cache压缩方式：动态内存压缩（DMC）

I-LLM：首次实现了LLM全整形量化，精度逼近浮点，超过Smooth/Omini/AffineQuant

硬件高效的线性注意力机制Gated Linear Attention论文阅读

原理&图解vLLM Automatic Prefix Cache(RadixAttention)首Token时延优化

flash-linear-attention中的Chunkwise并行算法的理解

大模型训练：Megatron-Core中的通信优化

​OverlapMamba 具备超强泛化能力的定位方法

[并行训练]Context Parallelism的原理与代码浅析

NEON做色域变化_ 用单核性能无限逼近八核并行OpenCV

flash-linear-attention的fused_recurrent_rwkv6 Triton实现精读

AffineQuant: 大语言模型的仿射变换量化

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

CUDA-MODE 课程笔记第一课: 如何在 PyTorch 中 profile CUDA kernels

如何使用“LoRa”的方式加载ONNX模型：StableDiffusion相关模型的C++推理

OverlapMamba 具备超强泛化能力的定位方法