文档中心>向量数据库>实践教程>快速搭建 RAG 应用实践>向量数据库 + DeepSeek 大语言模型

向量数据库 + DeepSeek 大语言模型

最近更新时间:2025-02-21 11:07:12

我的收藏

背景信息

随着 DeepSeek 大语言模型在全球范围内的迅猛发展和广泛应用,其热度持续攀升,成为当前人工智能领域的焦点。为了满足市场对高效部署和应用的需求,腾讯云 TI 平台 提供了快速部署 DeepSeek 系列模型的方案。通过将腾讯云向量数据库与 DeepSeek 深度结合,用户可以高效搭建基于 DeepSeek 的 RAG 知识问答系统,实现高效的检索和生成能力,同时显著降低部署成本和时间。

效果预览



准备工作

1. 选型并购买向量数据库实例,具体操作,请参见 购买实例
2. 客户端运行环境准备。
类别
要求
地域与网络环境
使用腾讯云外网访问,需手动配置白名单,开通外网功能。具体操作,请参见 开启外网访问
使用腾讯云内网方式访问,确保购买的 CVM 所处地域与向量数据库为同地域,且 VPC 和安全组策略能正常连通向量数据库实例。
客户端
使用腾讯云外网方式,可使用本地客户端操作环境即可。
使用腾讯云内网方式,推荐选择 云服务器 CVM,如 SA3.LARGE8、SA3.2XLARGE16等规格。
Python 环境依赖
推荐 Python 版本 >= 3.8。
安装 Python SDK 执行pip3 install tcvectordb命令,可直接安装最新版本。
3. 下载 document_search_demo_20250207.zip 压缩包,并将其上传于客户端运行环境。
4. 准备知识库文件,本示例以腾讯云向量数据库的官网文档为例搭建,存放知识库文件 demo_file1.pdfdemo_file2.md 于本地。
说明:
1. 当前支持导入数据库的文件类型包含: Markdown、PDF、Word、PPT。
2. Markdown 类型文件最大限制为1MB,其余类型最大限制为10MB。若文件超过10MB,请 提交工单 处理。
5. 腾讯云 TI 平台 部署 DeepSeek 模型。具体操作,请参见 快速部署和体验 DeepSeek 系列模型。部署完成后,待服务状态为运行中,在服务调用页面,获取调用地址AuthToken
说明:
若不开通 DeepSeek 大模型,不阻塞知识库搭建,仅支持从腾讯云向量数据库搜索到的图文并茂的知识点,而不支持经过大模型润色加工的知识答案。


快速搭建

1. 登录客户端运行环境,执行pip3 install tcvectordb,安装向量数据库最新的 Python SDK。
2. 使用 unzip 命令,解压 document_search_demo_20250207.zip 压缩包。
3. 进入压缩包解压后的文件夹,执行pip3 install -r requirements.txt 命令,安装 SDK 通用依赖,DeepSeek 大模型 SDK 以及相关依赖组件。
4. 使用 vim conf/config.ini 命令,根据参数注释修改相关配置并保存,如下所示。
[vector_db]
address=http://bj-vdb-qpvr****.sql.tencentcdb.com:8100
key=*****************************
ai_db=test_ai_db
ai_collection=test_ai_collection

[model]
address=https://ms-d6b6rhnl-1000********.gw.ap-beijing.ti.tencentcs.com/ms-d6b6****

name=ms-d6b6****
# 如果在 TiOne 平台开启了鉴权,则填入key
key=***************

[server]
name=127.0.0.1
port=7869
配置项
参数名
参数含义
配置说明
[vector_db]
address
向量数据库实例的内网地址或外网地址。建议使用内网方式。
请登录 向量数据库控制台,在实例详情页面网络信息区域直接复制访问地址。具体操作,请参见 查看实例信息
key
向量数据库实例 API 密钥,用于进行身份认证。
请登录 向量数据库控制台,在密钥管理页面直接复制密钥。具体操作,请参见 密钥管理
ai_db
AI 类数据库名。
Database 命名要求如下:
只能使用英文字母,数字,下划线_、中划线-,并以英文字母开头。
长度要求:[1,128]。
ai_collection
AI 数据库集合视图名。
CollectionView 命名要求如下:
只能使用英文字母,数字,下划线_、中划线-,并以英文字母开头。
长度要求:[1,128]。
[model]
address
DeepSeek 模型的 API 服务域名
腾讯云 TI 平台,部署 DeepSeek 之后,在服务调用页面,获取调用地址。
name
DeepSeek 模型的 ID。
腾讯云 TI 平台,部署 DeepSeek 之后,随机分配的唯一标识 ID,在服务管理页面直接复制模型 ID。

key
DeepSeek 模型鉴权 Token
腾讯云 TI 平台,部署 DeepSeek 之后,在服务调用页面,开启鉴权,获取用于身份验证的 Token。
[server]
name
客户端运行环境 IP 地址。
-
port
运行环境分配的端口
注意避免端口冲突。
5. 执行python3 main.py,运行脚本,生成知识问答前端访问链接,如下图所示。

6. 复制 Running on local URL 后面的访问链接,在浏览器访问链接,显示 Tencent VectorDB AI Demo 配置向导,如下图所示。
注意:
在浏览器访问知识问答应用,切勿关闭后端运行环境正在运行的进程。

7. 单击下方开始初始化,脚本将自动创建向量数据库与集合,界面显示初始化进度,等待任务完成,如下图所示。

8. 单击知识上传,将已准备的知识库文件 demo_file1.pdfdemo_file2.md 一起直接拖放或者上传至应用程序,程序将自动将文件向量化写入向量数据库,如下图所示。
说明:
支持批量上传文件,不支持上传压缩包。

9. 等待文档上传完成,便可以进行知识检索或问答。
说明:
针对知识库文件,可参考如下问题进行问答和检索体验:
问题1: 腾讯云向量数据库如何构建大模型知识库?
问题2: 腾讯云向量数据库如何应用于推荐系统?
问题3: 腾讯云向量数据库如何应用于文本或者图片检索场景?
问题4: 腾讯会议如何快速发起会议?
问题5: 腾讯会议如何加入会议?
问题6: 腾讯会议如何取消会议?
知识检索:单击知识检索(仅向量检索),在下方请输入您要检索的问题处,输入需要检索的问题,单击检索知识,即可检索到从腾讯云向量数据库中搜索到的图文并茂的知识点。

知识问答:单击知识问答(含LLM),在下方请输入您的问题处,输入需要查阅的问题,单击提问,即可看到经过 DeepSeek 大模型润色后的答案。
注意:
若需更换其他系列模型,请在工程 models 文件夹下添加模型,同步修改 conf 下配置文件中模型的信息。