前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >llama.cpp作者创业,用纯C语言框架降低大模型运行成本

llama.cpp作者创业,用纯C语言框架降低大模型运行成本

作者头像
机器之心
发布2023-08-07 09:02:33
3270
发布2023-08-07 09:02:33
举报
文章被收录于专栏:机器之心

机器之心报道

机器之心编辑部

大模型的应用前景将越来越广泛。

通常,神经网络的推理代码是使用 Python 语言编写的。但相比于 Python,C/C++ 代码运行速度更快,编写过程更严谨,因此一些开发者尝试用 C/C++ 语言实现神经网络。

在众多使用 C/C++ 语言编写神经网络代码的开发者中,Georgi Gerganov 是一位佼佼者。Georgi Gerganov 是资深的开源社区开发者,曾为 OpenAI 的 Whisper 自动语音识别模型开发 whisper.cpp。

Georgi Gerganov

今年 3 月 Georgi Gerganov 又构建了开源项目 llama.cpp,llama.cpp 让开发者在没有 GPU 的条件下也能运行 Meta 的 LLaMA 模型。llama.cpp 让开发者在没有 GPU 的条件下也能运行 LLaMA 模型。项目发布后,很快就有开发者尝试并成功在 MacBook 和树莓派上运行 LLaMA。

打开 Georgi Gerganov 的个人主页,我们发现全是开源项目,满满的干货。

现在,Georgi Gerganov 宣布创立一家新公司 ggml.ai,旨在支持 ggml 的开发。ggml 是 Georgi Gerganov 使用 C/C++ 构建了机器学习张量库,能够帮助开发者在消费级硬件上实现大模型,并提升模型性能。ggml 张量库具有以下特点:

  • 用 C 语言编写;
  • 支持 16bit 浮点数;
  • 支持整数量化(包括 4 位、5 位、8 位);
  • 自动微分;
  • 内置优化算法(例如 ADAM、L-BFGS);
  • 为 Apple 芯片设置特定优化;
  • 在 x86 架构上使用 AVX / AVX2 Intrinsic;
  • 通过 WebAssembly 和 WASM SIMD 提供 Web 支持;
  • 无第三方依赖;
  • 运行时零内存分配;
  • 支持指导型语言输出。

作为纯 C 语言编写的框架,ggml 大幅降低了大模型的运行成本。llama.cpp 和 whisper.cpp 都使用了 ggml,我们来看一下使用 llama.cpp 和 whisper.cpp 的例子。

下图是一个在树莓派上使用 whisper.cpp 检测短语音命令的例子:

在单个 M1 Pro 上同时运行 LLaMA-13B + Whisper Small 的 4 个实例,如下图所示:

在 M2 Max 上以 40 tok/s 的速度运行 LLaMA-7B,如下图所示:

总体来说,ggml 让本地运行大型语言模型变得更容易,操作更便捷。Georgi Gerganov 成立新公司之后,简单高效的 ggml 张量库将获得更多开发者和投资者的支持。我们相信随着开发人员在技术层面做出努力,大模型的应用前景将会越来越广泛。

参考链接:http://ggml.ai/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档