概述
TRTC AI 对话声纹能力是腾讯实时音视频(TRTC)提供的一项智能语音识别技术,通过声纹识别技术实现对不同说话人的精准识别和区分。该功能可以在 AI 对话过程中自动识别说话人身份,为用户提供更加个性化和智能化的交互体验。
声纹识别基于每个人独特的声音特征,例如音调、语速、音色等生物特征,为 AI 对话系统提供说话人身份验证和识别能力,实现更精准的语音交互控制。
功能优势
高精度识别
基于深度学习算法,声纹识别准确率高。
支持在嘈杂环境下的稳定识别。
抗干扰能力强,有效过滤背景噪音。
个性化体验
根据不同说话人提供定制化回答。
支持多用户场景下的个性化服务。
应用场景
场景一:个性化AI助手
在AI对话过程中自动识别说话人,针对不同的说话人提供个性化的回答。
适用情况:
智能客服系统:为VIP客户提供专属服务
智能家居:家庭成员个性化语音控制
场景二:声纹过滤与专注对话
在 AI 对话过程中,只回应特定说话人的内容,起到过滤背景人声或者远场人声的效果。
适用情况:
会议场景:只响应主讲人的语音指令
嘈杂环境:过滤背景噪音,专注目标用户
多人对话:避免误触发,提高交互准确性
安全场景:只接受授权人员的语音指令
使用方式
步骤1:声纹注册
1. 在开始 AI 对话前,需要使用 Register 声纹 API 进行声纹注册。
2. 调用声纹注册 API(RegisterVoicePrint),录制8到18秒的有效音频,音频中应保证人声清晰、无明显噪音或空白片段。
3. 注册成功后,系统返回唯一的 VoicePrintId。
步骤2:配置AI对话
1. 开启 AI 对话时,在 AgentConfig.VoicePrint 结构体中传入对应信息。在对话中会过滤非注册声纹的声音。
2. 在 AgentConfig.VoicePrint 结构体中进行配置:
参数 | 说明 |
Mode | 默认值为0,表示禁用声纹功能。 设置为1表示启用固定声纹功能,此时需填写对应的 VoicePrintId。 |
IdList | 当 VoicePrint Mode 为1时填写该字段,目前仅支持填写单个 VoicePrintId。 |
步骤3:获取声纹结果
在使用注册好的声纹开启对话任务时,系统会在字幕中返回声纹识别结果。具体说明如下:
结果返回时机
声纹结果仅在字幕的 end 为 true 时返回。
声纹匹配不通过的字幕默认不会发送给 LLM 处理。
如需将不匹配的字幕发送给 LLM,可通过端上发送自定义消息实现。
具体消息格式如下:
{"type": 10000,"sender": "user_a","receiver": [],"payload": {"text": "你好,很高兴认识你。","start_time": "00:00:01","end_time": "00:00:03","roundid": "conversation_123456","end": true,"voiceprint_result": 2,"voiceprint_audio_name": "your_audio_name"}}
字段名 | 说明 |
voiceprint_result | |
voiceprint_audio_name | 注册声纹时设置的 AudioName。 |
声纹结果状态码
voiceprint_result 状态码 | 说明 |
1 | 声纹暂未锁定。 |
2 | 声纹匹配不通过。 |
3 | 声纹匹配通过。 |
4 | 声纹识别出现错误。 |
使用注意事项
音频质量要求
时长要求:注册的音频需要8到18秒有效音频时长。
音质要求:保证人声清晰,没有明显的噪音。
内容要求:没有留白内容,确保全程有效人声。
注册建议
选择在安静环境下录制注册音频。
使用正常语速和音调进行录制。
避免背景音乐或其他人声干扰。
建议录制多段音频以提高识别准确性。
使用限制
目前 IdList 仅支持填写一个声纹 ID。
建议定期更新声纹模型以保持最佳识别效果。
相关链接
注册声纹信息
更新声纹信息
删除声纹信息
查询声纹信息
技术支持
声纹能力在试用阶段,如果您感兴趣可以加入群聊申请测试。
