该接口用于在使用 AI 套件上传 PDF 类型的文件后,获取图片 URL 地址列表。
说明:
当在数据库的 Collection 中上传 PDF 文件时,系统会提取 PDF 中的图片信息,并将这些信息以 Key 列表的形式存储。在检索出的原始文本块中,图片的位置会以 {key} 的形式进行占位。通过调用接口 getImageUrl,可以获取到与这些 Key 一一对应的图片 URL 地址列表。利用这种映射关系,可以将原始 PDF 文档的内容恢复并以 HTML 格式进行展示。
Method 与 URL
POST https://{实例访问 IP 地址}:{实例网络端口}/ai/document/getImageUrl
。请求参数
说明:
curl -i -X POST \\-H 'Content-Type: application/json' \\-H 'Authorization: Bearer account=root&api_key=A5VOgsMpGWJhUI0WmUbY********************' \\http://10.0.X.X:80/ai/document/getImageUrl
\\-d '{"database":"db-test","collection":"coll-ai-files","fileName": "腾讯云向量数据库.pdf","documentIds": ["1340988975862403135"]}'
参数 | 参数含义 | 子参数 | 是否必选 | 配置方法 |
database | 指定 Database 名称。 | - | 是 | |
collection | 指定 Collection 的名称。 | - | 是 | Collection 命名要求如下: 只能使用英文字母,数字,下划线_、中划线-,并以英文字母开头。 长度要求:[1,128]。 |
fileName | 上传文件名称。 | - | 是 | |
splitterPreprocess | 文件预处理方式配置。 | appendTitleToChunk | 否 | 在对文件拆分时,配置是否将 Title 追加到切分后的段落后面一并 Embedding。取值如下所示: false:不追加。默认值为 false。 true:将段落 Title 追加到切分后的段落。 |
| | appendKeywordsToChunk | 否 | 在对文件拆分时,配置是否将关键字 keywords 追加到切分后的段落一并 Embedding。取值如下所示: false:不追加。 true:将全文的 keywords 追加到切分后的段落。默认值为 true。 |
| | chunkSplitter | 否 | 以正则表达式的方式配置文档拆分方式,例如: \\n{2,} 代表以两个及以上的换行进行拆分,常用在 QA 对文件拆分中。 |
parsingProcess | PDF 文件解析方式相关参数。 | parsingType | 否 | 指定 PDF 类型文件的解析方式,取值如下所示: VisionModelParsing:文件依据解析模型解析,推荐使用,可解析 PDF 中双栏、表格等复杂格式。 AlgorithmParsing:文件依据算法解析,系统默认解析方式。Markdown、Word、PPT 类型,无需配置该参数,默认使用 AlgorithmParsing 解析。 |
embeddingModel | 指定使用的 Embedding 模型的名称。 | - | 是 | bge-large-zh-v1.5:适用中文,1024维,推荐使用。 bge-base-zh-v1.5:适用中文,768维。 bge-large-zh:适用中文,1024维。 bge-base-zh:适用中文,768维。 m3e-base:适用中文,768维。 e5-large-v2:适用英文,1024维。 text2vec-large-chinese:适用中文,1024维。 multilingual-e5-base:适用于多种语言类型,768维。 BAAI/bge-m3:适用于多种语言类型,1024维。 |
fieldMappings | 指定文件字段在数据库中映射关系。 | filename | 是 | 指定文件名映射的字段。 |
| | text | 是 | 指定文件内容文本映射的字段。 |
| | image_list | 是 | 指定图片信息存放的字段。 |
响应消息
{"code": 0,"msg": "Operation success","requestId": "24ce1fbeb1f8241842b182108096d669","images": [[{"documentId": "1340988975862403135","imageName": "ea97227d-1b12-4d35-8b67-************.png","imageUrl": "https://vecterdb************.cos.ap-guangzhou.myqcloud.com/embedding_file/vdb-********/db-test/coll-file-test-6/******************************************"},{"documentId": "1340988975862403135","imageName": "a5daca6f-a27e-4b35-89f5-************.png","imageUrl": "https://vecterdb************.cos.ap-guangzhou.myqcloud.com/embedding_file/vdb-********/db-test/coll-file-test-6/******************************************"}]]}
参数名 | 参数含义 |
documentId | Document 的 ID 信息。 |
imageName | 图片名。 |
imageUrl | 图片 URL。 |