首先,您需要一个命令行工具(CLI 工具)—— LLM,用于与语言模型进行交互,包括安装在您自己机器上的OpenAI、PaLM和本地模型。
你可以使用 Homebrew 安装 LLM:
brew install llm
或者使用 pip 安装 LLM:
pip install llm
接下来,需要为 LLM 安装一个用于支持 llama 模型支持的插件:llm-llama-cpp。
安装方法:
llm install llm-llama-cpp
我们还需要使用Python调用C++的接口,这一步很简单,我们将使用llama-cpp-python,这是llama.cpp的Python绑定,它在纯C/C++中充当LLaMA模型的推理。
llm install llama-cpp-python
到这安装环境基本完成,剩下的工作是下载模型。
模型可以有多个选择,这里我们以 llama-2-7b-chat 聊天模型为例,大小 7G,并给模型起了别名 llama2-chat 和 l2c,以后在命令行中可以使用别名来指定模型:
llm llama-cpp download-model \
https://huggingface.co/TheBloke/Llama-2-7B-Chat-GGML/resolve/main/llama-2-7b-chat.ggmlv3.q8_0.bin \
--alias llama2-chat --alias l2c --llama2-chat
好了,模型已经下载好了,我们可以与 llama 2 进行交互聊天了。
运行以下命令进行交互:
llm -m l2c '帮写段小学生自我介绍'
我们可以看到他的回复默认是英文的,如果要继续接着前面的问题提示,可以使用 llm -c 命令,例如我们让他翻译成中文,可以执行以下命令:
llm -c '帮我翻译成中文'
呵呵,这个翻译有点让人摸不着头脑。总之,它可以在 Mac 上用了,如果机器性能好,可以下载更大的模型试试。
当然,你也可以通过 --system 指定模型角色,限制模型回复的范围。比如:
llm -m l2c '告诉我一个关于美洲驼的笑话' --system '你是幽默大师'
好了,开启你的大模型之旅吧!