在人工智能(AI)计算资源日益紧张的今天,如何在资源受限的设备上运行大语言模型(LLM)成为了众多开发者的关注焦点。
近期,技术爱好者 Binh Pham 成功地将大语言模型部署到一台极限硬件上——树莓派 Zero W,并将其封装成一个 USB 设备。
这个名为 LLMStick 的设备,几乎让 8 年前的硬件变成了AI神器,展示了硬件极限下运行 LLM 的可能性。
树莓派 Zero W:8年老设备的新使命
树莓派 Zero W,诞生于 2017 年,已经有 8 年历史,其硬件规格相当有限:
CPU:Broadcom BCM2835(ARMv6 架构,单核 1GHz)
RAM:512MB
无线连接:802.11n WiFi + 蓝牙 4.1(BLE)
与今天许多主流的 LLM 所需的强大硬件配置(如 GPU 或 NPU)相比,树莓派 Zero W 的性能显得相当薄弱。
尽管如此,Binh Pham 决定将树莓派 Zero W 作为平台,通过修改推理引擎并解决兼容性问题,成功让这款老旧硬件运行 LLM。
优化源码:创造 llama.zero 推理引擎
Binh Pham 在实现 LLM 运行的过程中,首先选择了 llama.cpp 作为推理引擎。llama.cpp 是一个开源框架,专门为资源受限的设备优化,能够在 CPU 上运行 Meta Llama 等大语言模型。
但由于树莓派 Zero W 使用的是 ARMv6 架构,而 llama.cpp 仅支持 ARMv8 及以上架构,导致直接编译时出现了兼容性问题。
为了解决这一难题,Binh Pham 对 llama.cpp 的源码进行了深入修改,逐行审查并替换不兼容的部分,最终实现了适用于 ARMv6 架构的精简版推理引擎 llama.zero。这个工作耗时数周,且需要深厚的 ARM 架构知识与对源码的精通。
LLMStick:即插即用的 AI USB 设备
在成功优化源码并让模型运行后,Binh Pham 进一步将树莓派 Zero W 设计为 USB 设备,命名为 LLMStick。该设备具备以下特点:
1.插入电脑 USB 端口:用户只需将 LLMStick 插入电脑,设备会显示为一个 USB 存储设备。
2.创建文本文件与 LLM 交互:用户只需在存储设备中创建一个文本文件,输入 AI 提示,LLMStick 会运行 llama.zero 进行推理,并将生成的文本写回文件。
这种设计让 LLMStick 成为一个便捷的 AI 设备,用户无需复杂的操作界面即可进行离线推理。这种便捷的交互方式也将树莓派 Zero W 转变为一个简易的 AI 设备,适用于日常使用。
性能测试:挑战极限,速度略显不足
尽管 LLMStick 在树莓派 Zero W 上成功运行了 LLM,但其性能依旧受限于硬件。Binh Pham 对多个不同参数规模的 LLM 模型进行了测试,测试结果如下:
Tiny15M 模型:每个 token 生成时间为 223ms;
Lamini-T5-Flan-77M 模型:每个 token 生成时间为 2.5s;
SmolLM2-136M 模型:每个 token 生成时间为 2.2s。
这些数据显示,即便是较小的模型,生成速度仍然相对较慢。特别是在规模较大的模型中,推理速度几乎无法接受,因此对于实际应用场景而言,树莓派 Zero W 运行 LLM 的性能仍未达到实用标准。
树莓派 Zero 2W:可能的替代方案
不少开发者注意到,Binh Pham 完成这项挑战的背后是否有更为合理的选择——例如,使用树莓派 Zero 2W。
Zero 2W 采用了 ARMv8 架构,能够直接运行 llama.cpp,无需进行大量的代码修改,且性能更强,能够处理更大的 LLM 模型。
尽管如此,Binh Pham 坚持选择树莓派 Zero W 进行挑战,可能是希望证明即使是老旧硬件,在经过合理优化后,依然能具备一定的AI运行能力。许多人认为这一尝试更像是一次硬核开发者精神的展示。
未来展望:开源的力量与挑战
目前,Binh Pham 已经将 llama.zero 项目开源,并分享了完整的编译教程和使用指南,开发者可以自行尝试将 LLM 部署到低功耗硬件上进行实验。
这个项目的成功,标志着 AI 计算资源紧张的情况下,通过巧妙优化,仍然能在轻量级硬件上实现大语言模型的部署,展现了开源和开发者的无限创造力。
然而,尽管这个项目充满探索精神,实际应用仍然存在许多挑战,包括推理速度的提升和硬件的选择问题。对于普通用户来说,可能更需要的是设备能够在保持高性能的同时,也具备更强的普适性。
结语
Binh Pham 的 LLMStick 项目无疑为 AI 开发者提供了新的思路,证明了即便是在资源受限的设备上,也可以通过优化算法和硬件配置实现大语言模型的应用。
这种创新精神值得所有技术爱好者的敬佩,同时也为 AI 技术在低功耗设备上的普及打开了新的可能性。
------------------------------------------------------------------------------
“垂直求值”——聚焦学术前沿,速览科技要闻。精筛各领域文献,深析科研成果。
领取专属 10元无门槛券
私享最新 技术干货