标题:WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences 地址:https://arxiv.org/pdf/2306.07906.pdf 代码:https://github.com/THUDM/WebGLM 会议:KDD 2023 学校:清华
大模型如火如荼的今日,本文提出了WebGLM,利用LLM对网络搜索内容进行问答,同时部署方便。WebGLM具有LLM增强的检索器,bootstrap生成器和人类偏好感知。10B的WebGLM性能接近175B的WebGPT,并且提出评估此类QA系统的标准。
笔者是在windows上部署的,因此相关内容都是关于windows的,linux也类似。clone webglm的仓库获取代码
git clone https://github.com/THUDM/WebGLM.git
在conda中新建环境
conda create -n webglm_env
安装3.10.0的python,这个版本就看自己,不要装太老的版本
pip install -r requirements.txt
这里安装的库里面有一个playwright库,因为webglm是对搜索的内容进行问答,而这个库可以仅用API执行主流浏览器(chromium,firefox)的自动化操作。执行完上述命令后,需要执行playwright install来安装不同的浏览器内核。
webglm使用serpapi进行谷歌搜索,所以需要先去注册serpapi并获得key,选择免费套餐就行,每个月有100次搜索
在windows设置环境变量
set SERPAPI_KEY="serpapi key"
下载retriever的ckpt
python download.py retriever-pretrained-checkpoint
下载完后,把对应下载的ckpt的路径设置到环境变量
set WEBGLM_RETRIEVER_CKPT=路径
尝试webglm 2b
python cli_demo.py -w THUDM/WebGLM-2B
这时需要从huggingface下载文件,如果比较慢或者报错,可以手动下载到本地https://huggingface.co/THUDM/WebGLM-2B/tree/main,然后
python cli_demo.py -w 下载的路径
效果