向量数据库 + 混元大模型

最近更新时间:2025-07-14 09:55:52

我的收藏

背景信息

本文基于腾讯云向量数据库与 腾讯混元大模型,提供一套直观且完整的知识问答系统搭建方案。相关 AI 套件具体信息,请参见 AI 套件

准备工作

1. 选型并购买向量数据库实例,具体操作,请参见 购买实例
2. 客户端运行环境准备。
类别
要求
地域与网络环境
使用腾讯云外网访问,需手动配置白名单,开通外网功能。具体操作,请参见 开启外网访问
使用腾讯云内网方式访问,确保购买的 CVM 所处地域与向量数据库为同地域,且 VPC 和安全组策略能正常连通向量数据库实例。
客户端
使用腾讯云外网方式,可使用本地客户端操作环境即可。
使用腾讯云内网方式,推荐选择 云服务器 CVM,如 SA3.LARGE8、SA3.2XLARGE16 等规格。
Python 环境依赖
推荐 Python 版本 >= 3.8。
安装 Python SDK 执行pip3 install tcvectordb命令,可直接安装最新版本。
3. 下载 document_search_demo_20241114.zip 压缩包,并将其上传于客户端运行环境。
4. 准备知识库文件,本示例以腾讯云向量数据库的官网文档为例搭建,存放知识库文件 demo_file1.pdfdemo_file2.md于本地。
说明:
1. 当前支持导入数据库的文件类型包含: Markdown、PDF、Word、PPT。
2. Markdown 类型文件最大限制为1MB,其余类型最大限制为100MB。
5. (可选)开通腾讯混元大模型 服务,并获取其访问密钥 secret_id secret_key
说明:
若不开通混元大模型,不阻塞知识库搭建,仅支持从腾讯云向量数据库搜索到的图文并茂的知识点,而不支持经过大模型润色加工的知识答案。

快速搭建

1. 登录客户端运行环境,执行 pip3 install tcvectordb,安装向量数据库最新的 Python SDK。
2. 使用 unzip 命令,解压 document_search_demo_20241114.zip 压缩包。
3. 进入压缩包解压后的文件夹,执行pip3 install -r requirements.txt 命令,安装 SDK 通用依赖,混元大模型 SDK 以及相关依赖组件。
4. 使用 vim conf/config.ini 命令,根据参数注释修改相关配置并保存,如下所示。
[vector_db]
# 腾讯云向量数据库访问地址,建议使用内网方式。
address=http://xxx:xxx
# 向量数据库实例密钥
key=xxx
ai_db=test_ai_db
ai_collection=test_ai_collection

[model]
address=hunyuan.tencentcloudapi.com
# 备选模型:hunyuan-standard,hunyuan-pro,hunyuan-turbo
name=hunyuan-turbo
# 开通混元模型api能力账号的secret_id和secret_key
secret_id=xxx
secret_key=xxx

[server]
# 启动服务的地址和端口
name=127.0.0.1
port=7869
配置项
参数名
参数含义
配置说明
[vector_db]
address
向量数据库实例的内网地址或外网地址。建议使用内网方式。
请登录 向量数据库控制台,在实例详情页面网络信息区域直接复制访问地址。具体操作,请参见 查看实例信息
key
向量数据库实例 API 密钥,用于进行身份认证。
请登录 向量数据库控制台,在密钥管理页面直接复制密钥。具体操作,请参见 密钥管理
ai_db
AI 类数据库名。
Database 命名要求如下:
只能使用英文字母,数字,下划线_、中划线-,并以英文字母开头。
长度要求:[1,128]。
ai_collection
AI 数据库集合视图名。
CollectionView 命名要求如下:
只能使用英文字母,数字,下划线_、中划线-,并以英文字母开头。
长度要求:[1,128]。
[model]
address
腾讯云混元大模型的 API 服务域名
固定为 hunyuan.tencentcloudapi.com
name
腾讯混元大模型的名称
hunyuan-turbo 为模型默认版本,采用全新的混合专家模型(MoE)结构。更多模型信息,请参见 混元大模型产品概述,可按需选择。
secret_id
开通腾讯混元大模型的账号访问密钥 ID。
获取方式具体操作,请参见 开通腾讯混元大模型
secret_key
腾讯混元大模型访问密钥 ID对应的 Key。
为降低密钥泄露的风险,自2023年11月30日起,对所有主账号、子账号的密钥,关闭查询 SecretKey 的功能,仅支持在创建时查看,请及时保存SecretKey。
[server]
name
客户端运行环境 IP 地址。
-
port
运行环境分配的端口
注意避免端口冲突。
5. 执行python3 main.py,运行脚本,生成知识问答前端访问链接,如下图所示。

6. 复制 Running on local URL 后面的访问链接,在浏览器访问链接,显示 Tencent VectorDB AI Demo 配置向导,如下图所示。
注意:
在浏览器访问知识问答应用,切勿关闭后端运行环境正在运行的进程。

7. 单击下方开始初始化,脚本将自动创建向量数据库与集合,界面显示初始化进度,等待任务完成,如下图所示。

8. 单击知识上传,将已准备的知识库文件 demo_file1.pdfdemo_file2.md 一起直接拖放或者上传至应用程序,程序将自动将文件向量化写入向量数据库,如下图所示。
说明:
支持批量上传文件,不支持上传压缩包。

9. 等待文档上传完成,便可以进行知识检索或问答。
说明:
针对知识库文件,可参考如下问题进行问答和检索体验:
问题1: 腾讯云向量数据库如何构建大模型知识库?
问题2: 腾讯云向量数据库如何应用于推荐系统?
问题3: 腾讯云向量数据库如何应用于文本或者图片检索场景?
问题4: 腾讯会议如何快速发起会议?
问题5: 腾讯会议如何加入会议?
问题6: 腾讯会议如何取消会议?
知识检索:单击知识检索(仅向量检索),在下方请输入您要检索的问题处,输入需要检索的问题,单击检索知识,即可检索到从腾讯云向量数据库中搜索到的图文并茂的知识点。

知识问答:单击知识问答(含LLM),在下方请输入您的问题处,输入需要查阅的问题,单击提问,即可看到经过腾讯混元大模型润色后的答案。
注意:
若未开通腾讯混元大模型,访问该知识问答(含LLM)页面将会提示错误。若需开通,请参见 开通混元大模型
若需更换其他 LLM 模型,请在工程 model 文件夹下添加其他模型,同步修改 conf 下配置文件中模型的信息。


(可选)开通腾讯混元大模型

1. 前往 腾讯混元大模型控制台,如下图所示,在服务关闭设置区域,单击

,立即开通。

2. 在左侧导航,选择立即接入,单击创建密钥,如下图所示。

3. 访问管理 > API 密钥管理 页面,单击新建密钥,显示如下图所示弹窗,获取访问密钥 secret_id secret_key
注意:
为降低密钥泄露的风险,自2023年11月30日起,对所有主账号、子账号的密钥,关闭查询 SecretKey 的功能,仅支持在创建时查看,请及时保存SecretKey。

腾讯云向量数据库 AI 套件,可帮助企业挖掘文本数据的更大价值,加速企业在文本大模型领域的应用创新和发展。如果您在使用 AI 套件过程中有任何疑问,请联系腾讯云向量数据库,感谢您的支持。