1. 接口描述
本接口支持图像整体文字的检测和识别。可以识别中文、英文、中英文、日语、韩语、西班牙语、法语、德语、葡萄牙语、越南语、马来语、俄语、意大利语、荷兰语、瑞典语、芬兰语、丹麦语、挪威语、匈牙利语、泰语,阿拉伯语20种语言,且各种语言均支持与英文混合的文字识别。
适用于印刷文档识别、网络图片识别、广告图文字识别、街景店招牌识别、菜单识别、视频标题识别、头像文字识别等场景。
产品优势:支持自动识别语言类型,可返回文本框坐标信息,对于倾斜文本支持自动旋转纠正。
通用印刷体识别不同版本的差异如下:
【荐】通用印刷体识别 | 【荐】通用印刷体识别(高精度版) | 通用印刷体识别(精简版) | |
---|---|---|---|
适用场景 | 适用于所有通用场景的印刷体识别 | 适用于文字较多、长串数字、小字、模糊字、倾斜文本等困难场景 | 适用于快速文本识别场景,准召率有一定损失,价格更优惠 |
识别准确率 | 96% | 99% | 91% |
价格 | 中 | 高 | 低 |
支持的语言 | 中文、英文、中英文、日语、韩语、西班牙语、法语、德语、葡萄牙语、越南语、马来语、俄语、意大利语、荷兰语、瑞典语、芬兰语、丹麦语、挪威语、匈牙利语、泰语 | 中文、英文、中英文 | 中文、英文、中英文 |
自动语言检测 | 支持 | 支持 | 支持 |
返回文本行坐标 | 支持 | 支持 | 支持 |
自动旋转纠正 | 支持旋转识别,返回角度信息 | 支持旋转识别,返回角度信息 | 支持旋转识别,返回角度信息 |
默认接口请求频率限制:20次/秒。接口请求域名: ocr.tencentcloudapi.com 。
推荐使用 API Explorer
点击调试
API Explorer 提供了在线调用、签名验证、SDK 代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成 SDK 调用示例。
2. 输入参数
以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数。
参数名称 | 必选 | 类型 | 描述 |
---|---|---|---|
Action | 是 | String | 公共参数,本接口取值:GeneralBasicOCR。 |
Version | 是 | String | 公共参数,本接口取值:2018-11-19。 |
Region | 是 | String | 公共参数,详见产品支持的 地域列表,本接口仅支持其中的: ap-beijing, ap-guangzhou, ap-hongkong, ap-seoul, ap-shanghai, ap-singapore, na-toronto 。 |
ImageBase64 | 否 | String | 图片/PDF的 Base64 值。 要求图片/PDF经Base64编码后不超过 7M,分辨率建议600*800以上,支持PNG、JPG、JPEG、BMP、PDF格式。 图片的 ImageUrl、ImageBase64 必须提供一个,如果都提供,只使用 ImageUrl。 |
ImageUrl | 否 | String | 图片/PDF的 Url 地址。 要求图片/PDF经Base64编码后不超过 7M,分辨率建议600*800以上,支持PNG、JPG、JPEG、BMP、PDF格式。 图片存储于腾讯云的 Url 可保障更高的下载速度和稳定性,建议图片存储于腾讯云。非腾讯云存储的 Url 速度和稳定性可能受一定影响。 |
Scene | 否 | String | 保留字段。 |
LanguageType | 否 | String | 识别语言类型。 支持自动识别语言类型,同时支持自选语言种类,默认中英文混合(zh),各种语言均支持与英文混合的文字识别。 可选值: zh:中英混合 zh_rare:支持英文、数字、中文生僻字、繁体字,特殊符号等 auto:自动 mix:混合语种 jap:日语 kor:韩语 spa:西班牙语 fre:法语 ger:德语 por:葡萄牙语 vie:越语 may:马来语 rus:俄语 ita:意大利语 hol:荷兰语 swe:瑞典语 fin:芬兰语 dan:丹麦语 nor:挪威语 hun:匈牙利语 tha:泰语 hi:印地语 ara:阿拉伯语 |
IsPdf | 否 | Boolean | 是否开启PDF识别,默认值为false,开启后可同时支持图片和PDF的识别。 |
PdfPageNumber | 否 | Integer | 需要识别的PDF页面的对应页码,仅支持PDF单页识别,当上传文件为PDF且IsPdf参数值为true时有效,默认值为1。 |
IsWords | 否 | Boolean | 是否返回单字信息,默认关 |
3. 输出参数
参数名称 | 类型 | 描述 |
---|---|---|
TextDetections | Array of TextDetection | 检测到的文本信息,包括文本行内容、置信度、文本行坐标以及文本行旋转纠正后的坐标,具体内容请点击左侧链接。 |
Language | String | 检测到的语言类型,目前支持的语言类型参考入参LanguageType说明。 |
Angel | Float | 图片旋转角度(角度制),文本的水平方向为0°;顺时针为正,逆时针为负。点击查看如何纠正倾斜文本 |
PdfPageSize | Integer | 图片为PDF时,返回PDF的总页数,默认为0 |
RequestId | String | 唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。 |
4. 示例
示例1 通用印刷体识别示例代码 前往调试工具
输入示例
POST / HTTP/1.1
Host: ocr.tencentcloudapi.com
Content-Type: application/json
X-TC-Action: GeneralBasicOCR
<公共请求参数>
{
"ImageUrl": "https://xx/a.jpg"
}
输出示例
{
"Response": {
"Angel": 6.5,
"TextDetections": [
{
"AdvancedInfo": "xx",
"Polygon": [
{
"Y": 211,
"X": 450
},
{
"Y": 223,
"X": 560
},
{
"Y": 244,
"X": 558
},
{
"Y": 232,
"X": 448
}
],
"Confidence": 99,
"ItemPolygon": {
"Y": 273,
"X": 473,
"Height": 22,
"Width": 112
},
"WordCoordPoint": [
{
"WordCoordinate": [
{
"Y": 0,
"X": 0
}
]
}
],
"DetectedText": "xx",
"Words": [
{
"Confidence": 0,
"Character": "xx"
}
]
},
{
"AdvancedInfo": "xx",
"Polygon": [
{
"Y": 233,
"X": 370
},
{
"Y": 265,
"X": 649
},
{
"Y": 331,
"X": 642
},
{
"Y": 299,
"X": 362
}
],
"Confidence": 99,
"ItemPolygon": {
"Y": 304,
"X": 396,
"Width": 282,
"Height": 68
},
"WordCoordPoint": [
{
"WordCoordinate": [
{
"Y": 0,
"X": 0
}
]
}
],
"DetectedText": "xx",
"Words": [
{
"Confidence": 0,
"Character": "xx"
}
]
},
{
"AdvancedInfo": "xx",
"Polygon": [
{
"Y": 318,
"X": 402
},
{
"Y": 339,
"X": 587
},
{
"Y": 370,
"X": 584
},
{
"Y": 349,
"X": 398
}
],
"Confidence": 99,
"ItemPolygon": {
"Y": 385,
"X": 437,
"Width": 188,
"Height": 32
},
"WordCoordPoint": [
{
"WordCoordinate": [
{
"Y": 0,
"X": 0
}
]
}
],
"DetectedText": "xx",
"Words": [
{
"Confidence": 0,
"Character": "xx"
}
]
},
{
"AdvancedInfo": "xx",
"Polygon": [
{
"Y": 366,
"X": 386
},
{
"Y": 390,
"X": 591
},
{
"Y": 423,
"X": 587
},
{
"Y": 399,
"X": 382
}
],
"Confidence": 99,
"ItemPolygon": {
"Y": 435,
"X": 427,
"Width": 207,
"Height": 34
},
"WordCoordPoint": [
{
"WordCoordinate": [
{
"Y": 0,
"X": 0
}
]
}
],
"DetectedText": "xx",
"Words": [
{
"Confidence": 0,
"Character": "xx"
}
]
}
],
"RequestId": "xx",
"Language": "xx",
"PdfPageSize": 0
}
}
5. 开发者资源
腾讯云 API 平台
腾讯云 API 平台 是综合 API 文档、错误码、API Explorer 及 SDK 等资源的统一查询平台,方便您从同一入口查询及使用腾讯云提供的所有 API 服务。
API Inspector
用户可通过 API Inspector 查看控制台每一步操作关联的 API 调用情况,并自动生成各语言版本的 API 代码,也可前往 API Explorer 进行在线调试。
SDK
云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。
- Tencent Cloud SDK 3.0 for Python
- Tencent Cloud SDK 3.0 for Java
- Tencent Cloud SDK 3.0 for PHP
- Tencent Cloud SDK 3.0 for Go
- Tencent Cloud SDK 3.0 for NodeJS
- Tencent Cloud SDK 3.0 for .NET
- Tencent Cloud SDK 3.0 for C++
- Tencent Cloud SDK 3.0 for Ruby
命令行工具
6. 错误码
以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码。
错误码 | 描述 |
---|---|
FailedOperation.DownLoadError | 文件下载失败。 |
FailedOperation.EmptyImageError | 图片内容为空。 |
FailedOperation.EngineRecognizeTimeout | 引擎识别超时。 |
FailedOperation.ImageDecodeFailed | 图片解码失败。 |
FailedOperation.ImageNoText | 图片中未检测到文本。 |
FailedOperation.LanguageNotSupport | 输入的Language不支持。 |
FailedOperation.OcrFailed | OCR识别失败。 |
FailedOperation.UnKnowError | 未知错误。 |
FailedOperation.UnOpenError | 服务未开通。 |
InvalidParameterValue.InvalidParameterValueLimit | 参数值错误。 |
LimitExceeded.TooLargeFileError | 文件内容太大。 |
ResourcesSoldOut.ChargeStatusException | 计费状态异常。 |