前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TRTC接入实时语音识别-Android SDK

TRTC接入实时语音识别-Android SDK

原创
作者头像
向东平
修改2021-09-09 17:53:03
3.3K0
修改2021-09-09 17:53:03
举报
文章被收录于专栏:AI知识AI知识

概述

腾讯云实时音视频(TRTC)接入实时语音识别,主要是将TRTC中的音频数据传递到语音识别的音频数据源中进行实时识别。本篇讲述如何对TRTC本地和远端的音频流进行实时识别。


接入文档

TRTC SDK接入:https://cloud.tencent.com/document/product/647/32175

ASR SDK接入:https://cloud.tencent.com/document/product/1093/35722

TRTC接入实时语音识别:https://cloud.tencent.com/document/product/1093/48163

TRTC SDK文档:https://liteav.sdk.qcloud.com/doc/api/zh-cn/md_introduction_trtc_zh_Android_Brief.html

调用流程

时序图:

时序图.png
时序图.png

相关类

TRTC相关类:TRTCCloud(核心类)、TRTCCloudDef.TRTCAudioFrameCallbackFormat(音频数据格式)、TRTCCloudListener.TRTCAudioFrameListener(音频回调监听)。

ASR相关类:AAIClient(核心类)、AudioDataSource(音频数据来源)、AudioRecognizeRequest(识别请求)。

类图结构:

类图结构.png
类图结构.png

调用顺序:

1.初始化实时音视频SDK,设置音频回调格式(声道、采样率),设置音频采集回调监听。如果需识别本端音频流需设置mTRTCCloud.setCapturedRawAudioFrameCallbackFormat(format),如果需识别远端传来的音频流则设置mTRTCCloud.setMixedPlayAudioFrameCallbackFormat(format),与第4步对应。

初始化trtc.png
初始化trtc.png

2.初始化语音识别SDK,设置实时语音识别请求参数和音频数据源(mDataSource),mDataSource的实现方式请参考TRTC接入实时语音识别文档(https://cloud.tencent.com/document/product/1093/48163)—>Android接入流程第4点—>接入 ASR 的 PcmAudioDataSource 接口实现。

初始化实时语音识别.png
初始化实时语音识别.png

3.开始实时音视频的音视数据采集,开启实时语音识别。

开始音频采集和实时语音识别.png
开始音频采集和实时语音识别.png

4.TRTC音频回调方法中获取到音频数据并开始向实时语音识别的音频数据源中写入(PCM)音频流。如果需识别本端的音频流则在onCapturedRawAudioFrame()方法中写入,如果需识别远端的音频流则在onMixedPlayAudioFrame()方法中写入,与第1步对应。回调结果TRTCloudDef.TRTCAudioFrame中包含了音频数据、当前音频流的采样率和声道数。

获取到音频流.png
获取到音频流.png

5.进行识别并返回识别结果。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概述
  • 接入文档
  • 调用流程
    • 时序图:
    • 相关类
    • 调用顺序:
    相关产品与服务
    实时音视频
    实时音视频(Tencent RTC)基于腾讯21年来在网络与音视频技术上的深度积累,以多人音视频通话和低延时互动直播两大场景化方案,通过腾讯云服务向开发者开放,致力于帮助开发者快速搭建低成本、低延时、高品质的音视频互动解决方案。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档