1. 接口描述
接口请求域名: lke.tencentcloudapi.com 。
本接口为异步接口的发起请求接口,用于发起文档解析任务。
文档解析支持将图片或PDF文件转换成Markdown格式文件,可解析包括表格、公式、图片、标题、段落、页眉、页脚等内容元素,并将内容智能转换成阅读顺序。
体验期间单账号限制qps仅为1,若有正式接入需要请与产研团队沟通开放。
推荐使用 API Explorer
点击调试
API Explorer 提供了在线调用、签名验证、SDK 代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成 SDK 调用示例。
2. 输入参数
以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数。
参数名称 | 必选 | 类型 | 描述 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Action | 是 | String | 公共参数,本接口取值:CreateReconstructDocumentFlow。 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||
Version | 是 | String | 公共参数,本接口取值:2023-11-30。 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||
Region | 是 | String | 公共参数,详见产品支持的 地域列表。 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||
FileType | 否 | String | 文件类型。支持的文件类型:PDF、DOC、DOCX、PPT、PPTX、MD、TXT、XLS、XLSX、CSV、PNG、JPG、JPEG、BMP、GIF、WEBP、HEIC、EPS、ICNS、IM、PCX、PPM、TIFF、XBM、HEIF、JP2。 示例值:PDF |
||||||||||||||||||||||||||||||||||||||||||||||||||||||
FileBase64 | 否 | String | 文件的 Base64 值。支持的文件大小:所下载文件经Base64编码后不超过 8M。文件下载时间不超过 3 秒。支持的图片像素:单边介于20-10000px之间。文件的 FileUrl、FileBase64 必须提供一个,如果都提供,只使用 FileUrl。 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||
FileUrl | 否 | String | 文件的Url地址。文件下载时间不超过15秒。支持的图片像素:单边介于20-10000px之间。文件存储于腾讯云的Url可保障更高的下载速度和稳定性,建议文件存储于腾讯云。非腾讯云存储的 Url 速度和稳定性可能受一定影响。所下载文件经 Base64 编码后不超过支持的文件大小:
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||
FileStartPageNumber | 否 | Integer | 当传入文件类型为PDF、DOC、DOCX、PPT、PPTX,用来指定文件识别的起始页码,识别的页码包含当前值。默认为1,表示从文件的第1页开始识别。 示例值:1 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||
FileEndPageNumber | 否 | Integer | 当传入文件类型为PDF、DOC、DOCX、PPT、PPTX,用来指定文件识别的结束页码,识别的页码包含当前值。默认为100,表示识别到文件的第100页。单次调用最多支持识别1000页内容,即FileEndPageNumber-FileStartPageNumber需要不大于1000。 示例值:100 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||
Config | 否 | CreateReconstructDocumentFlowConfig | 创建文档解析任务配置信息。 示例值:{"TableResultType":"1"} |
3. 输出参数
参数名称 | 类型 | 描述 |
---|---|---|
TaskId | String | 任务唯一ID。30天内可以通过GetReconstructDocumentResult接口查询TaskId对应的处理结果。 |
RequestId | String | 唯一请求 ID,由服务端生成,每次请求都会返回(若请求因其他原因未能抵达服务端,则该次请求不会获得 RequestId)。定位问题时需要提供该次请求的 RequestId。 |
4. 示例
示例1 接口请求成功示例
输入示例
POST / HTTP/1.1
Host: lke.tencentcloudapi.com
Content-Type: application/json
X-TC-Action: CreateReconstructDocumentFlow
<公共请求参数>
{
"FileStartPageNumber": 1,
"FileEndPageNumber": 1,
"Config": {
"TableResultType": "1"
},
"FileBase64": "data:application/pdf;base64,JVBERi0xLjcKXXX..."
}
输出示例
{
"Response": {
"RequestId": "1d569fb4-4c9d-4141-bbd7-e1d8735bd1a9",
"TaskId": "9e28e561e9a04ef096768d13deffe963"
}
}
5. 开发者资源
腾讯云 API 平台
腾讯云 API 平台 是综合 API 文档、错误码、API Explorer 及 SDK 等资源的统一查询平台,方便您从同一入口查询及使用腾讯云提供的所有 API 服务。
API Inspector
用户可通过 API Inspector 查看控制台每一步操作关联的 API 调用情况,并自动生成各语言版本的 API 代码,也可前往 API Explorer 进行在线调试。
SDK
云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。
- Tencent Cloud SDK 3.0 for Python: GitHub Gitee
- Tencent Cloud SDK 3.0 for Java: GitHub Gitee
- Tencent Cloud SDK 3.0 for PHP: GitHub Gitee
- Tencent Cloud SDK 3.0 for Go: GitHub Gitee
- Tencent Cloud SDK 3.0 for Node.js: GitHub Gitee
- Tencent Cloud SDK 3.0 for .NET: GitHub Gitee
- Tencent Cloud SDK 3.0 for C++: GitHub Gitee
- Tencent Cloud SDK 3.0 for Ruby: GitHub Gitee
命令行工具
6. 错误码
以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码。
错误码 | 描述 |
---|---|
FailedOperation.DownLoadError | 文件下载失败。 |
FailedOperation.FileDecodeFailed | 文件解码失败 |
FailedOperation.ImageDecodeFailed | 图片解码失败。 |
FailedOperation.UnKnowError | 未知错误。 |
FailedOperation.UnKnowFileTypeError | 未知的文件类型 |
FailedOperation.UnOpenError | 服务未开通。 |
InvalidParameterValue.InvalidParameterValueLimit | 参数值错误。 |
LimitExceeded.TooLargeFileError | 文件内容太大。 |
ResourceUnavailable.InArrears | 账号已欠费。 |
ResourceUnavailable.ResourcePackageRunOut | 账号资源包耗尽。 |
ResourcesSoldOut.ChargeStatusException | 计费状态异常。 |