Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MLC LLM - 手机上的大模型

MLC LLM - 手机上的大模型

原创
作者头像
用户1758543
发布于 2023-05-07 03:19:20
发布于 2023-05-07 03:19:20
7780
举报

MLC LLM 是一种通用解决方案,它允许将任何语言模型本地部署在各种硬件后端和本地应用程序上,此外还提供了一个高效的框架,供每个人根据自己的用例进一步优化模型性能。

我们的使命是让每个人都能在每个人的设备上本地开发、优化和部署 AI 模型。

推荐:用NSDT设计器快速搭建可编程3D场景。

一切都在本地运行,无需服务器支持,并通过手机和笔记本电脑上的本地 GPU 加速。 支持的平台包括:

  • 苹果手机、iPad
  • 金属 GPU 和 Intel/ARM MacBook;
  • AMD、Intel 和 NVIDIA GPU,通过 WindowsLinux 上的 Vulkan;
  • 在 Windows 和 Linux 上通过 CUDA 的 NVIDIA GPU;
  • 浏览器上的 WebGPU(通过配套项目 WebLLM)。

1、什么是 MLC LLM?

近年来,生成式人工智能 (AI) 和大型语言模型 (LLM) 取得了显着进步,并变得越来越普遍。 由于开源计划,现在可以使用开源模型开发个人AI助手。 但是,LLM 往往是资源密集型和计算要求高的。 要创建可扩展的服务,开发人员可能需要依赖强大的集群和昂贵的硬件来运行模型推理。 此外,部署 LLM 还面临一些挑战,例如不断发展的模型创新、内存限制以及对潜在优化技术的需求。

该项目的目标是支持开发、优化和部署 AI 模型,以便跨各种设备进行推理,不仅包括服务器级硬件,还包括用户的浏览器、笔记本电脑和移动应用程序。 为实现这一目标,我们需要解决计算设备和部署环境的多样性问题。 一些主要挑战包括:

  • 支持不同型号的 CPU、GPU 以及可能的其他协处理器和加速器。
  • 部署在用户设备的本地环境中,这些环境可能没有 python 或其他可用的必要依赖项。
  • 通过仔细规划分配和积极压缩模型参数来解决内存限制。

MLC LLM 提供可重复、系统化和可定制的工作流程,使开发人员和 AI 系统研究人员能够以以生产力为中心、Python 优先的方法实施模型和优化。 这种方法可以快速试验新模型、新想法和新编译器通道,然后本地部署到所需目标。 此外,我们通过扩展 TVM 后端不断扩展 LLM 加速,使模型编译更加透明和高效。

2、MLC 如何实现通用原生部署?

我们解决方案的基石是机器学习编译 (MLC:Machine Learning Compilation),我们利用它来高效部署 AI 模型。 我们建立在开源生态系统的基础上,包括来自 HuggingFace 和 Google 的分词器,以及 Llama、Vicuna、Dolly、MOSS 等开源 LLM。 我们的主要工作流基于 Apache TVM Unity,这是 Apache TVM 社区中一项令人兴奋的持续开发。

  • 动态形状:我们将语言模型烘焙为具有原生动态形状支持的 TVM IRModule,避免了对最大长度进行额外填充的需要,并减少了计算量和内存使用量。
  • 可组合的 ML 编译优化:我们执行许多模型部署优化,例如更好的编译代码转换、融合、内存规划、库卸载和手动代码优化可以很容易地合并为 TVM 的 IRModule 转换,作为 Python API 公开。
  • 量化:我们利用低位量化来压缩模型权重,并利用 TVM 的循环级 TensorIR 为不同的压缩编码方案快速定制代码生成。
  • 运行时:最终生成的库在原生环境中运行,TVM 运行时具有最小的依赖性,支持各种 GPU 驱动程序 API 和原生语言绑定(C、JavaScript 等)。

此外,我们还提供了一个基于 C++ 的轻量级示例 CLI 应用程序,展示了如何包装已编译的工件和必要的预处理/后处理,这有望阐明将它们嵌入本机应用程序的工作流程。

作为起点,MLC 为 CUDA、Vulkan 和 Metal 生成 GPU 着色器。 通过改进 TVM 编译器和运行时,可以添加更多支持,例如 OpenCL、sycl、webgpu-native。 MLC 还通过 LLVM 支持各种 CPU 目标,包括 ARM 和 x86。

我们严重依赖开源生态系统,更具体地说,TVM Unity,这是 TVM 项目中令人兴奋的最新开发,它支持 python 优先的交互式 MLC 开发体验,使我们能够轻松地在 Python 中编写新的优化,并逐步将我们的应用程序带到 感兴趣的环境。 我们还利用了融合量化内核、一流动态形状支持和多样化 GPU 后端等优化。


原文链接:MLC LLM - 手机大模型 - BimAnt

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LLM 推理引擎之争:Ollama or vLLM ?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的模型推理框架。
Luga Lee
2025/04/24
1590
LLM 推理引擎之争:Ollama or vLLM ?
陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了
机器之心报道 机器之心编辑部 从此,大模型可以在任何设备上编译运行。 「我把大语言模型下到我的 iPhone 上,它神奇地跑起来了!」 五一假期还没过半,大模型领域的技术就已经发展到了这种程度。 对于陈天奇等人开源的新技术,大家一致的评论是「Amazing」。 最近人们都在研究 ChatGPT,大语言模型(LLM)彻底改变了科技领域的格局,但对于 AI 开发者来说,并不是人人都有上万块 A100 的。为了跑得起大模型,就要寻找各种优化方法。 在让大模型变小这条路上,人们做了很多尝试,先是 Meta 开源了
机器之心
2023/05/09
3950
陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了
A卡跑大模型,性能达到4090的80%,价格只有一半:陈天奇TVM团队出品
自预训练大模型兴起以来,人们面临的算力挑战就变得越来越大。为此,人们为大语言模型(LLM)提出了许多训练和推理的解决方案。显然,大多数高性能推理解决方案都基于 CUDA 并针对英伟达 GPU 进行了优化。
机器之心
2023/09/08
1.3K0
A卡跑大模型,性能达到4090的80%,价格只有一半:陈天奇TVM团队出品
浏览器就能跑大模型了!陈天奇团队发布WebLLM,无需服务器支持
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 现在,只需一个浏览器,就能跑通“大力出奇迹”的大语言模型(LLM)了! 不仅如此,基于LLM的类ChatGPT也能引进来,而且还是不需要服务器支持、WebGPU加速的那种。 例如这样: 这就是由陈天奇团队最新发布的项目——Web LLM。 短短数日,已经在GitHub上揽货3.2K颗星。 一切尽在浏览器,怎么搞? 首先,你需要下载Chrome Canary,也就是谷歌浏览器的金丝雀版本: 因为这个开发者版本的Chrome是支持WebGPU的,否则就
量子位
2023/05/06
3820
浏览器就能跑大模型了!陈天奇团队发布WebLLM,无需服务器支持
MLC LLM——本地应用程序上原生部署任何语言模型
在AI浪潮风起云涌的当下,AI正在不断地重塑着每一个行业。在各大厂先后争先恐后地推出一系列大模型的同时,也不断出现了很多开源的大模型。今天介绍的这个出现在GitHub热榜上的项目是MLC LLM。它是一种通用解决方案,可以在各种硬件后端和本地应用程序上原生部署任何语言模型,同时为所有人提供一个高效的框架,以进一步优化模型性能以适应其自身的用例。 一切都在本地运行,无需服务器支持,并且可以在手机和笔记本电脑上通过本地GPU加速。
山行AI
2023/06/14
3.4K0
MLC LLM——本地应用程序上原生部署任何语言模型
陈天奇官宣新APP,让手机原生跑大模型,应用商店直接下载使用
前段时间,TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇等多位研究者共同开发的一个项目引爆了 AI 界。
机器之心
2023/08/04
3670
陈天奇官宣新APP,让手机原生跑大模型,应用商店直接下载使用
LLM 大模型学习必知必会系列(一):大模型基础知识篇
2023 年,随着 LLM 技术的发展,中国模型研究机构的开源模型迎来了爆发式的增长:
汀丶人工智能
2024/05/11
3.2K0
LLM 大模型学习必知必会系列(一):大模型基础知识篇
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
MaxKB = Max Knowledge Base,是一款基于 LLM 大语言模型的开源知识库问答系统,旨在成为企业的最强大脑。它能够帮助企业高效地管理知识,并提供智能问答功能。想象一下,你有一个虚拟助手,可以回答各种关于公司内部知识的问题,无论是政策、流程,还是技术文档,MaxKB 都能快速准确地给出答案:比如公司内网如何访问、如何提交视觉设计需求等等
汀丶人工智能
2024/08/05
11.1K0
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
一文说明如何在NVIDIA Jetson上玩转大模型应用
非常兴奋能在这里与您分享一些关于将最新的生成式AI和大模型LLM引入边缘计算的惊人进展。
GPUS Lady
2023/11/13
3.1K0
一文说明如何在NVIDIA Jetson上玩转大模型应用
大模型时代的系统语言:Rust vs Mojo
这十七年我虽然没有什么光彩履历,但却很幸运,我还能在这个行业坚守,并能不断成长。同样很幸运,我经历了桌面软件没落, Web 2.0 崛起,以及移动互联网的兴盛,当下基础设施系统软件开始复兴的诸多历程。
张汉东
2023/09/13
2.4K0
大模型时代的系统语言:Rust vs Mojo
谷歌正式发布WebGPU!90多位贡献者研发6年,浏览器终于可以利用底层硬件了
整理 | 褚杏娟、核子可乐 经过六年的开发,当地时间 4 月 6 日,谷歌 Chrome 团队正式发布 WebGPU,用于在网络上进行高性能 3D 图形与数据并行计算。WebGPU 现已在 Beta 测试阶段的 Chrome 113 中默认启用。 WebGPU 是一种新型 Web 图形 API,具有显著减少同等图形规模下 JavaScript 工作量、将机器学习模型的推理效率提升 3 倍以上等优势。之所以能实现这样的飞跃,要归功于其令 WebGL 无法实现的灵活 GPU 编程和高级功能访问能力。 据悉,W
深度学习与Python
2023/04/10
1.3K0
谷歌正式发布WebGPU!90多位贡献者研发6年,浏览器终于可以利用底层硬件了
联邦语言模型:边缘SLM+云LLM
联邦语言模型是一个利用了两种人工智能趋势的想法:小型语言模型 (SLM) 和大型语言模型 (LLM) 能力的提升。
云云众生s
2024/07/14
3840
联邦语言模型:边缘SLM+云LLM
AutoGPT、AgentGPT、BabyAGI、HuggingGPT、CAMEL:各种基于GPT-4自治系统总结
来源:Deephub Imba本文约1400字,建议阅读5分钟集成ChatGPT和LLM到各种应用程序中只是使用语言模型的潜力的一部分。 ChatGPT和LLM技术的出现使得这些最先进的语言模型席卷了世界,不仅是AI的开发人员,爱好者和一些组织也在研究探索集成和构建这些模型的创新方法。各种平台如雨后春笋般涌现,集成并促进新应用程序的开发。 AutoGPT的火爆让我们看到越来越多的自主任务和代理利用了GPT-4的API。这些发展不仅增强了处理集成不同系统的复杂任务的能力,而且还推动了我们通过自主人工智能所能
数据派THU
2023/05/11
8950
AutoGPT、AgentGPT、BabyAGI、HuggingGPT、CAMEL:各种基于GPT-4自治系统总结
如何防止模型被窃取?基于TVM的端上模型部署加密方案
2023年在AI的发展史上一定是浓墨重彩的一笔,在这一年里出现了百模大战、全民“炼丹”的场面,围绕着各种模型的训练技术和算力需求有很多讨论。随着模型的成熟以及算力市场的发展,7B、13B这类小型号的模型也出现了端上部署的需求,其中以移动设备厂商最为突出。2024年,在端上部署和应用模型也可能会成为各家移动厂商的一个营销热点。
腾讯安全
2024/01/12
5080
如何防止模型被窃取?基于TVM的端上模型部署加密方案
GPT4All 3.0版 :66.5K 星星!最简单的本地 LLM 前端 - 无需 API 调用或 GPU、本地&私人
在人工智能领域,一年的时间可以带来巨大的变化。如果一个项目能存活超过一个月,那么它必定具有某些独特的优势。GPT4All 已经运行了一整年,仍然是 GitHub 上最受欢迎的项目之一。
AI进修生
2024/12/02
4790
GPT4All 3.0版 :66.5K 星星!最简单的本地 LLM 前端 - 无需 API 调用或 GPU、本地&私人
Ascend推理组件MindIE LLM
MindIE LLM是MindIE解决方案下的大语言模型推理组件,基于昇腾硬件提供业界通用大模型推理能力,同时提供多并发请求的调度功能,支持Continuous Batching、PageAttention、FlashDecoding等加速特性,使能用户高性能推理需求。
zjun
2024/12/04
1940
Ascend推理组件MindIE LLM
使用MLC-LLM将RWKV 3B模型跑在Android手机上(redmi k50每s可解码8个token
这篇文章主要是填一下 MLC-LLM 部署RWKV World系列模型实战(3B模型Mac M2解码可达26tokens/s) 这里留下来的坑,这篇文章里面介绍了如何使用 MLC-LLM 在A100/Mac M2上部署 RWKV 模型。但是探索在Android端部署一个RWKV对话模型的app时却碰到了诸多问题,解决的周期也很长,之前留了issue在MLC-LLM的repo,这周@chentianqi大佬回复说之前编译出的app会在模型初始化阶段卡住的问题已经解决了,所以我又重新开始踩了一些坑最终完成了在手机上运行RWKV World4 3B模型的目的。这里把踩的坑和Android编译方法都描述一下。
BBuf
2023/10/30
1.3K1
使用MLC-LLM将RWKV 3B模型跑在Android手机上(redmi k50每s可解码8个token
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
机器之心专栏 机器之心编辑部 近日,来自卡耐基梅隆大学(CMU)的 Catalyst Group 团队发布了一款「投机式推理」引擎 SpecInfer,可以借助轻量化的小模型来帮助大模型,在完全不影响生成内容准确度的情况下,实现两到三倍的推理加速。 随着 ChatGPT 的出现,大规模语言模型(LLM)研究及其应用得到学术界和工业界的广泛关注。一方面,开源的 LLM 模型不断涌现,比如 OPT、BLOOM、LLaMA 等,这些预训练模型的推出极大地促进了 LLM 的相关研究,使得 LLM 可以被应用于解决
机器之心
2023/05/31
1.3K0
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
mlc-llm 推理优化和大语言模型搭建解析(文末送书)
本文解析一下mlc-llm(https://github.com/mlc-ai/mlc-llm)对大模型推理的流程以及使用的图优化,算子优化策略。mlc-llm的模型部署流程可以查看官方文档:https://mlc.ai/mlc-llm/docs/ ,也可以参考我前段时间写的这篇MLC-LLM 部署RWKV World系列模型实战(3B模型Mac M2解码可达26tokens/s) 。
BBuf
2023/09/26
1.8K0
mlc-llm 推理优化和大语言模型搭建解析(文末送书)
WASM和机器学习
WebAssembly 是一种可以在现代Web浏览器中运行的低级的类汇编语言,具有紧凑的二进制格式,接近本机的性能运行的。为了实现代码紧凑WebAssembly 被设计成了不容易手写,但是支持C、C++、C#、Golang、Rust 等源语言编写代码,使用相应工具链翻译源语言代码。
thierryzhou
2022/11/18
1.1K0
推荐阅读
LLM 推理引擎之争:Ollama or vLLM ?
1590
陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了
3950
A卡跑大模型,性能达到4090的80%,价格只有一半:陈天奇TVM团队出品
1.3K0
浏览器就能跑大模型了!陈天奇团队发布WebLLM,无需服务器支持
3820
MLC LLM——本地应用程序上原生部署任何语言模型
3.4K0
陈天奇官宣新APP,让手机原生跑大模型,应用商店直接下载使用
3670
LLM 大模型学习必知必会系列(一):大模型基础知识篇
3.2K0
RAG+AI工作流+Agent:LLM框架该如何选择,全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐
11.1K0
一文说明如何在NVIDIA Jetson上玩转大模型应用
3.1K0
大模型时代的系统语言:Rust vs Mojo
2.4K0
谷歌正式发布WebGPU!90多位贡献者研发6年,浏览器终于可以利用底层硬件了
1.3K0
联邦语言模型:边缘SLM+云LLM
3840
AutoGPT、AgentGPT、BabyAGI、HuggingGPT、CAMEL:各种基于GPT-4自治系统总结
8950
如何防止模型被窃取?基于TVM的端上模型部署加密方案
5080
GPT4All 3.0版 :66.5K 星星!最简单的本地 LLM 前端 - 无需 API 调用或 GPU、本地&私人
4790
Ascend推理组件MindIE LLM
1940
使用MLC-LLM将RWKV 3B模型跑在Android手机上(redmi k50每s可解码8个token
1.3K1
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理
1.3K0
mlc-llm 推理优化和大语言模型搭建解析(文末送书)
1.8K0
WASM和机器学习
1.1K0
相关推荐
LLM 推理引擎之争:Ollama or vLLM ?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档