语音识别模板接口

最近更新时间:2023-11-23 19:42:43

我的收藏

简介

本文档提供关于语音识别模板接口的 API 概览和 SDK 示例代码。
注意
旧版本可能存在 bug,使用时建议升级到 最新版本
API
操作描述
创建语音识别模板
更新语音识别模板

创建语音识别模板

功能说明

创建语音识别模板。

方法原型

public Guzzle\\Service\\Resource\\Model createVoiceSpeechRecognitionTemplate(array $args = array());

请求示例

<?php

require dirname(__FILE__, 2) . '/vendor/autoload.php';

$secretId = "SECRETID"; //替换为用户的 secretId,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capi
$secretKey = "SECRETKEY"; //替换为用户的 secretKey,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capi
$region = "ap-beijing"; //替换为用户的 region,已创建桶归属的 region 可以在控制台查看,https://console.cloud.tencent.com/cos5/bucket
$cosClient = new Qcloud\\Cos\\Client(
array(
'region' => $region,
'scheme' => 'https', //协议头部,默认为http
'credentials'=> array(
'secretId' => $secretId ,
'secretKey' => $secretKey)));
try {
// 创建语音识别模板 https://cloud.tencent.com/document/product/460/84498
$result = $cosClient->createVoiceSpeechRecognitionTemplate(array(
'Bucket' => 'examplebucket-125000000', //存储桶名称,由BucketName-Appid 组成,可以在COS控制台查看 https://console.cloud.tencent.com/cos5/bucket
'Tag' => 'SpeechRecognition',
'Name' => 'voice-speechrecognition-name',
'SpeechRecognition' => array(
'EngineModelType' => '16k_zh',
'ChannelNum' => 1,
'ResTextFormat' => 1,
'FilterDirty' => 0,
'FilterModal' => 1,
'ConvertNumMode' => 0,
'SpeakerDiarization' => 1,
'SpeakerNumber' => 0,
'FilterPunc' => 0,
'OutputFileType' => 'txt',
// 'FlashAsr' => 'true',
// 'Format' => 'mp3',
// 'FirstChannelOnly' => 1,
// 'WordInfo' => 1,
// 'SentenceMaxLength' => 6,
),
));
// 请求成功
print_r($result);
} catch (\\Exception $e) {
// 请求失败
echo($e);
}

参数说明

Request 中的具体数据描述如下:
节点名称(关键字)
父节点
描述
类型
是否必选
限制
Tag
Request
模板类型:SpeechRecognition
String
Name
Request
模板名称 仅支持中文、英文、数字、_、-和*
String
SpeechRecognition
Request
语音识别参数
Container
Container 类型 SpeechRecognition 的具体数据描述如下:
节点名称(关键字)
父节点
描述
类型
是否必选
EngineModelType
Request.Speech
Recognition
引擎模型类型,分为电话场景和非电话场景。
电话场景:
8k_zh:电话 8k 中文普通话通用(可用于双声道音频);
8k_zh_s:电话 8k 中文普通话话者分离(仅适用于单声道音频);
8k_en:电话 8k 英语;
非电话场景:
6k_zh:16k 中文普通话通用;
16k_zh_video:16k 音视频领域;
16k_en:16k 英语;
16k_ca:16k 粤语;
16k_ja:16k 日语;
16k_zh_edu:中文教育;
16k_en_edu:英文教育;
16k_zh_medical:医疗;
16k_th:泰语;
16k_zh_dialect:多方言,支持23种方言。
极速ASR支持8k_zh、16k_zh、16k_en、16k_zh_video、16k_zh_dialect、16k_ms(马来语)、16k_zh-PY(中英粤)
String
ChannelNum
Request.Speech
Recognition
仅支持非极速ASR
语音声道数:
1 表示单声道.EngineModelType为非电话场景仅支持单声道;
2 表示双声道(仅支持 8k_zh 引擎模型 双声道应分别对应通话双方)。
Integer
ResTextFormat
Request.Speech
Recognition
仅支持非极速ASR
识别结果返回形式:
0 表示识别结果文本(含分段时间戳);
1 词级别粒度的详细识别结果,不含标点,含语速值.(词时间戳列表,一般用于生成字幕场景)
2 词级别粒度的详细识别结果(包含标点、语速值)。
3 标点符号分段,包含每段时间戳,特别适用于字幕场景(包含词级时间、标点、语速值)。
Integer
FilterDirty
Request.Speech
Recognition
是否过滤脏词(目前支持中文普通话引擎):
0 表示不过滤脏词;
1 表示过滤脏词;
2 表示将脏词替换为 *
默认值为 0。
Integer
FilterModal
Request.Speech
Recognition
是否过滤语气词(目前支持中文普通话引擎):
0 表示不过滤语气词;
1 表示部分过滤;
2 表示严格过滤 。
默认值为 0。
Integer
ConvertNumMode
Request.Speech
Recognition
是否进行阿拉伯数字智能转换(目前支持中文普通话引擎):
0 表示不转换,直接输出中文数字;
1 表示根据场景智能转换为阿拉伯数字。
3 表示打开数学相关数字转换。仅非极速ASR支持
默认值为 0。
Integer
SpeakerDiarization
Request.Speech
Recognition
是否开启说话人分离:
0 表示不开启;
1 表示开启(仅支持8k_zh,16k_zh,16k_zh_video,单声道音频)。
默认值为 0。
注意:8k电话场景建议使用双声道来区分通话双方,设置ChannelNum=2即可,不用开启说话人分离。
Integer
SpeakerNumber
Request.Speech
Recognition
仅支持非极速ASR
说话人分离人数(需配合开启说话人分离使用),取值范围:0-10。
0代表自动分离(目前仅支持≤6个人),1-10代表指定说话人数分离。默认值为 0。
Integer
FilterPunc
Request.Speech
Recognition
是否过滤标点符号(目前支持中文普通话引擎):
0 表示不过滤。
1 表示过滤句末标点。
2 表示过滤所有标点。
默认值为 0。
Integer
OutputFileType
Request.Speech
Recognition
输出文件类型,可选txt、srt。默认为txt
极速ASR仅支持txt
非极速Asr时,ResTextFormat为3时仅支持txt
String
FlashAsr
Request.Speech
Recognition
是否开启极速ASR,可选true、false。默认为false
String
Format
Request.Speech
Recognition
极速ASR音频格式。支持 wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac。
String
当FlashAsr为true时必选
FirstChannelOnly
Request.Speech
Recognition
极速ASR参数。表示是否只识别首个声道,默认为1。0:识别所有声道;1:识别首个声道。
Integer
WordInfo
Request.Speech
Recognition
极速ASR参数。表示是否显示词级别时间戳,默认为0。0:不显示;1:显示,不包含标点时间戳,2:显示,包含标点时间戳。
Integer
SentenceMaxLength
Request.Speech
Recognition
单标点最多字数,取值范围:[6,40]。默认为不开启该功能。该参数可用于字幕生成场景,控制单行字幕最大字数,当FlashAsr为false时,仅ResTextFormat为3时参数有效
Integer

返回结果示例

GuzzleHttp\\Command\\Result Object
(
[RequestId] => NjRjNzNjRjMjIxODBfMzUxNGSIOJOIDAJOIDg=
[ContentType] => application/xml
[ContentLength] => 1059
[Template] => Array
(
[State] => Normal
[TemplateId] => t11367a00f19asf798sd7f89s7f2e646
[Name] => voice-speechrecognition-name
[BucketId] => examplebucket-1250000000
[Category] => Custom
[Tag] => SpeechRecognition
[UpdateTime] => 2023-07-31T17:19:30+0800
[CreateTime] => 2023-07-31T17:19:30+0800
[SpeechRecognition] => Array
(
[EngineModelType] => 16k_zh
[ChannelNum] => 1
[ResTextFormat] => 1
[FilterDirty] => 0
[FilterModal] => 1
[ConvertNumMode] => 0
[SpeakerDiarization] => 1
[SpeakerNumber] => 0
[FilterPunc] => 0
[OutputFileType] => txt
[FlashAsr] => false
[Format] =>
[FirstChannelOnly] => 0
[WordInfo] => 0
[SentenceMaxLength] => 0
)

)

[Bucket] => examplebucket-1250000000
[Location] => examplebucket-1250000000.ci.ap-guangzhou.myqcloud.com/template
)

更新语音识别模板

功能说明

更新语音识别模板。

方法原型

public Guzzle\\Service\\Resource\\Model updateVoiceSpeechRecognitionTemplate(array $args = array());

请求示例

<?php

require dirname(__FILE__, 2) . '/vendor/autoload.php';

$secretId = "SECRETID"; //替换为用户的 secretId,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capi
$secretKey = "SECRETKEY"; //替换为用户的 secretKey,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capi
$region = "ap-beijing"; //替换为用户的 region,已创建桶归属的 region 可以在控制台查看,https://console.cloud.tencent.com/cos5/bucket
$cosClient = new Qcloud\\Cos\\Client(
array(
'region' => $region,
'scheme' => 'https', //协议头部,默认为http
'credentials'=> array(
'secretId' => $secretId ,
'secretKey' => $secretKey)));
try {
// 更新语音识别模板 https://cloud.tencent.com/document/product/460/84759
$result = $cosClient->updateVoiceSpeechRecognitionTemplate(array(
'Bucket' => 'examplebucket-125000000', //存储桶名称,由BucketName-Appid 组成,可以在COS控制台查看 https://console.cloud.tencent.com/cos5/bucket
'Key' => '', // TemplateId
'Tag' => 'SpeechRecognition',
'Name' => 'voice-speechrecognition-name',
'SpeechRecognition' => array(
'EngineModelType' => '16k_zh',
'ChannelNum' => 1,
'ResTextFormat' => 1,
'FilterDirty' => 0,
'FilterModal' => 1,
'ConvertNumMode' => 0,
'SpeakerDiarization' => 1,
'SpeakerNumber' => 0,
'FilterPunc' => 0,
'OutputFileType' => 'txt',
// 'FlashAsr' => 'true',
// 'Format' => 'mp3',
// 'FirstChannelOnly' => 1,
// 'WordInfo' => 1,
// 'SentenceMaxLength' => 6,
),
));
// 请求成功
print_r($result);
} catch (\\Exception $e) {
// 请求失败
echo($e);
}

参数说明

Request 中的具体数据描述如下:
节点名称(关键字)
父节点
描述
类型
必选
Request
同创建语音识别模板接口的 Request
Container

返回结果示例

GuzzleHttp\\Command\\Result Object
(
[RequestId] => NjRjNzdNjRjMjIxODBfMzUxNGSIOJOIDAJOIDg=
[ContentType] => application/xml
[ContentLength] => 1060
[Template] => Array
(
[State] => Normal
[TemplateId] => t11361pc7a00f19asf798sd7f89s7f2e646
[Name] => voice-speechrecognition-name
[BucketId] => examplebucket-1250000000
[Category] => Custom
[Tag] => SpeechRecognition
[UpdateTime] => 2023-07-31T17:20:45+0800
[CreateTime] => 2023-07-31T17:19:30+0800
[SpeechRecognition] => Array
(
[EngineModelType] => 16k_zh
[ChannelNum] => 1
[ResTextFormat] => 1
[FilterDirty] => 0
[FilterModal] => 1
[ConvertNumMode] => 0
[SpeakerDiarization] => 1
[SpeakerNumber] => 0
[FilterPunc] => 0
[OutputFileType] => txt
[FlashAsr] => false
[Format] =>
[FirstChannelOnly] => 0
[WordInfo] => 0
[SentenceMaxLength] => 0
)

)

[Key] => t11361pc7a00f19asf798sd7f89s7f2e646
[Bucket] => examplebucket-1250000000
[Location] => examplebucket-1250000000.ci.ap-guangzhou.myqcloud.com/template/t11361pc7a00f19asf798sd7f89s7f2e646
)