词向量

最近更新时间:2019-07-24 15:29:06

1. 接口描述

接口请求域名: nlp.tencentcloudapi.com 。

词向量接口能够将输入的词语映射成一个固定维度的词向量,用来表示这个词语的语义特征。词向量是很多自然语言处理技术的基础,能够显著提高它们的效果。

该词向量服务由腾讯知文自然语言处理团队联合腾讯AI Lab共同打造。使用的词向量基于千亿级大规模互联网语料并采用AI Lab自研的DSG算法训练而成,开源的词向量包含800多万中文词汇,在覆盖率、新鲜度及准确性等三方面性能突出。

腾讯AI Lab词向量相关资料:

https://ai.tencent.com/ailab/zh/news/detial?id=22

https://ai.tencent.com/ailab/nlp/embedding.html

默认接口请求频率限制:20次/秒。

2. 输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数

参数名称 必选 类型 描述
Action String 公共参数,本接口取值:WordEmbedding
Version String 公共参数,本接口取值:2019-04-08
Region String 公共参数,详见产品支持的 地域列表
Text String 输入的词语(仅支持UTF-8格式,不超过20字)

3. 输出参数

参数名称 类型 描述
Dimension Integer 词向量的维度
Vector Array of Float 词向量数组
RequestId String 唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。

4. 示例

示例1 词向量示例

特别说明:为方便观看,如下示例中,向量维度仅显示10维。实际维度以原API说明为准。

输入示例

https://nlp.tencentcloudapi.com/?Action=WordEmbedding
&Text="自然语言处理"
&<公共请求参数>

输出示例

{
  "Response": {
    "RequestId": "8dd99adb-5144-43ca-8213-f6a929ce5075",
    "Dimension": 10,
    "Vector": [
      0.0723935,
      0.138519,
      0.0297711,
      0.0160847,
      0.0354727,
      0.0133147,
      0.0901527,
      0.116386,
      0.0905767,
      -0.0555024
    ]
  }
}

5. 开发者资源

API Explorer

该工具提供了在线调用、签名验证、SDK 代码生成和快速检索接口等能力,能显著降低使用云 API 的难度,推荐使用。

SDK

云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。

命令行工具

6. 错误码

以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码

错误码 描述
FailedOperation.WordNotFound 查找不到词语
InvalidParameterValue.EmptyValueError 参数空值错误
InvalidParameterValue.TextEncodeError 文本编码错误,不符合utf-8
InvalidParameterValue.TextTooLong 输入文本超出长度限制
ResourceInsufficient.QuotaRunOut 额度用尽,请充值后重试