发音评估初始化

最近更新时间:2019-08-29 20:52:14

1. 接口描述

接口请求域名: soe.tencentcloudapi.com 。

初始化发音评估过程,每一轮评估前进行调用。语音输入模式分为流式模式和非流式模式,流式模式支持数据分片传输,可以加快评估响应速度。评估模式分为词模式和句子模式,词模式会标注每个音节的详细信息;句子模式会有完整度和流利度的评估。

默认接口请求频率限制:10000次/秒。

2. 输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数

参数名称 必选 类型 描述
Action String 公共参数,本接口取值:InitOralProcess
Version String 公共参数,本接口取值:2018-07-24
Region String 公共参数,本接口不需要传递此参数。
SessionId String 语音段唯一标识,一段语音一个SessionId
RefText String 被评估语音对应的文本,句子模式下不超过个 20 单词或者中文文字,段落模式不超过 120 单词或者中文文字,中文评估使用 utf-8 编码,自由说模式该值传空。如需要在单词模式和句子模式下使用自定义音素,可以通过设置 TextMode 使用音素标注
WorkMode Integer 语音输入模式,0:流式分片,1:非流式一次性评估
EvalMode Integer 评估模式,0:词模式(中文评测模式下为文字模式),1:句子模式,2:段落模式,3:自由说模式,当为词模式评估时,能够提供每个音节的评估信息,当为句子模式时,能够提供完整度和流利度信息。4: 英文单词音素诊断评测模式,针对一个单词音素诊断评测。
ScoreCoeff Float 评价苛刻指数,取值为[1.0 - 4.0]范围内的浮点数,用于平滑不同年龄段的分数,1.0为小年龄段,4.0为最高年龄段
SoeAppId String 业务应用ID,与账号应用APPID无关,是用来方便客户管理服务的参数,新的 SoeAppId 可以在控制台【应用管理】下新建。
IsLongLifeSession Integer 长效session标识,当该参数为1时,session的持续时间为300s,但会一定程度上影响第一个数据包的返回速度,且TransmitOralProcess必须同时为1才可生效。
StorageMode Integer 音频存储模式,0:不存储,1:存储到公共对象存储,输出结果为该会话最后一个分片TransmitOralProcess 返回结果 AudioUrl 字段,2:永久存储音频,需要提工单申请,会产生一定存储费用,3:自定义存储,将音频存储到自定义的腾讯云对象存储中,需要提工单登记存储信息。
SentenceInfoEnabled Integer 输出断句中间结果标识,0:不输出,1:输出,通过设置该参数,可以在评估过程中的分片传输请求中,返回已经评估断句的中间结果,中间结果可用于客户端 UI 更新,输出结果为TransmitOralProcess请求返回结果 SentenceInfoSet 字段。
ServerType Integer 评估语言,0:英文,1:中文。
IsAsync Integer 异步模式标识,0:同步模式,1:异步模式,可选值参考服务模式
TextMode Integer 输入文本模式,0: 普通文本,1:音素结构文本。2:音素注册模式(提工单注册需要使用音素的单词)。

3. 输出参数

参数名称 类型 描述
SessionId String 语音段唯一标识,一个完整语音一个SessionId
RequestId String 唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。

4. 示例

示例1 初始化发音评估过程

初始化发音评估过程

输入示例

https://soe.tencentcloudapi.com/?Action=InitOralProcess
&SessionId=stress_test_956938
&WorkMode=0
&RefText=again
&EvalMode=0
&ScoreCoeff=3.5
&<公共请求参数>

输出示例

{
  "Response": {
    "RequestId": "xxxxxx"
  }
}

5. 开发者资源

API Explorer

该工具提供了在线调用、签名验证、SDK 代码生成和快速检索接口等能力,能显著降低使用云 API 的难度,推荐使用。

SDK

云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。

命令行工具

6. 错误码

以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码

错误码 描述
InternalError 内部错误
InternalError.BASE64DecodeFailed BASE64解码错误
InternalError.IlegalServerResponse 服务器应答非法
InternalError.InitialParameterError 初始化参数错误
InternalError.InvalidSeqId 分片序号错误。
InternalError.InvalidWAVHeader WAV头部格式非法或不在同一分片内。
InternalError.NoConversationFound 使用的会话没有找到或已经被释放
InternalError.ServerInternalError 服务器内部错误
InternalError.ServerOverload 服务器过载
InternalError.ServiceTimeout 服务超时
InternalError.ShardNoStartWithOne 分片序号错误应该从1开始
InternalError.StreamingvoicepkgTimeout 流式语音包超时
InternalError.VoiceMsgOversized 语音数据大于1MB
InternalError.WordLengthTooLong 文本单词超过限制
InvalidParameter 参数错误
InvalidParameter.AuthorizeError 服务未开通或已欠费。
InvalidParameter.InitialParameterError 初始化参数错误。
InvalidParameter.VoiceMsgOversized 语音数据大于1MB。
InvalidParameterValue 参数取值错误
InvalidParameterValue.BASEDecodeFailed BASE64解码错误。
InvalidParameterValue.InvalidSeqId 分片序号错误。
InvalidParameterValue.InvalidWAVHeader WAV头部格式非法或不在同一分片内。
InvalidParameterValue.NoDocInList 表单中没有文件。
InvalidParameterValue.RefTxtTooLang 输入文本太长。
InvalidParameterValue.ShardNoStartWithOne 分片序号错误应该从1开始。
InvalidParameterValue.StreamingvoicepkgTimeout 流式语音包超时。
InvalidParameterValue.VadNotDetectedSpeak 没有检测到语音。
InvalidParameterValue.WordLengthTooLong 文本单词超过限制。
ResourceUnavailable.AuthorizeError 服务未开通或已欠费。
ResourceUnavailable.CannotFindSession 评估之前没有初始化或已过期。
ResourceUnavailable.ConcurrencyLimit 使用并发超出限制。
ResourceUnavailable.InitStreamNotSupport 该接口不支持init_stream。
ResourceUnavailable.InitStreamUnfinished 初始化请求未完成,请稍后重试。
ResourceUnavailable.LastSeqUnfinished 前一个分片未处理完,请稍后重试。
ResourceUnavailable.NoConversationFound 使用的会话没有找到或已经被释放。
ResourceUnavailable.NoInitBeforeEvaluation 评估之前没有初始化。