词法分析

最近更新时间:2019-09-19 20:26:29

1. 接口描述

接口请求域名: nlp.tencentcloudapi.com 。

词法分析接口提供以下三个功能:

1、智能分词:将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列;

2、词性标注:为每一个词附上对应的词性,例如名词、代词、形容词、动词等;

3、命名实体识别:快速识别文本中的实体,例如人名、地名、机构名、时间日期等。

所有的功能均基于千亿级大规模互联网语料进行持续迭代更新,以保证效果不断提升,用户无需担心新词发现、歧义消除、调用性能等问题。目前词法分析已经在泛互联网、金融、政务等不同垂直领域提供业务支持,并取得良好的效果。

默认接口请求频率限制:20次/秒。

2. 输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数

参数名称 必选 类型 描述
Action String 公共参数,本接口取值:LexicalAnalysis
Version String 公共参数,本接口取值:2019-04-08
Region String 公共参数,详见产品支持的 地域列表
Text String 待分析的文本(仅支持UTF-8格式,不超过500字)
Flag Integer 词法分析模式(默认取1值):
1、高精度(具备混合粒度分词能力);
2、高性能;

3. 输出参数

参数名称 类型 描述
NerTokens Array of NerToken 命名实体识别结果。取值范围:
  • PER:表示人名
  • LOC:表示地名
  • ORG:表示机构团体名
  • PosTokens Array of PosToken 分词&词性标注结果(词性表请参见附录)
    RequestId String 唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。

    4. 示例

    示例1 词法分析示例

    输入示例

    https://nlp.tencentcloudapi.com/?Action=LexicalAnalysis
    &Text="欢迎使用腾讯知文自然语言处理"
    &Flag=1
    &<公共请求参数>

    输出示例

    {
      "Response": {
        "RequestId": "8dd99adb-5144-43ca-8213-f6a929ce5075",
        "PosTokens": [
          {
            "BeginOffset": 0,
            "Word": "欢迎",
            "Length": 2,
            "Pos": "v"
          },
          {
            "BeginOffset": 2,
            "Word": "使用",
            "Length": 2,
            "Pos": "v"
          },
          {
            "BeginOffset": 4,
            "Word": "腾讯",
            "Length": 2,
            "Pos": "ntc"
          },
          {
            "BeginOffset": 6,
            "Word": "知文",
            "Length": 2,
            "Pos": "n"
          },
          {
            "BeginOffset": 8,
            "Word": "自然语言处理",
            "Length": 6,
            "Pos": "nz"
          }
        ],
        "NerTokens": [
          {
            "BeginOffset": 4,
            "Type": "ORG",
            "Word": "腾讯",
            "Length": 2
          }
        ]
      }
    }

    5. 开发者资源

    API Explorer

    该工具提供了在线调用、签名验证、SDK 代码生成和快速检索接口等能力,能显著降低使用云 API 的难度,推荐使用。

    SDK

    云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。

    命令行工具

    6. 错误码

    以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码

    错误码 描述
    InvalidParameterValue.EmptyValueError 参数空值错误
    InvalidParameterValue.TextEncodeError 文本编码错误,不符合utf-8
    InvalidParameterValue.TextTooLong 输入文本超出长度限制
    InvalidParameterValue.ValueRangeError 参数取值范围错误
    ResourceInsufficient.QuotaRunOut 额度用尽,请充值后重试