课程概述

语音识别其实就是把语音转换成文本的服务,腾讯云语言识别ASR支持中文、英语和粤语,适用于录音文件识别、一句话识别和实时语音识别等应用场景,提供强大的语音识别能力,帮助提升公司的效率,提升客户体验。

本课程将带你快速入门腾讯云语音识别ASR产品。对于不同的语音识别能力,可通过时延性以及成本两个方面决定语音识别的方案。课程将演示语音识别ASR控制台的基本操作,包括语音识别的开通、上传自学习模型和资源包管理。课程将重点介绍语音识别API和SDK,分别讲解实时语音识别、录音文件识别和一句话识别的API和SDK。课程将演示Python、iOS和Android语音识别SDK的开发。课程还将介绍如何在小程序中接入语音识别能力。最后,课程将简单介绍语音识别服务的计费规则,并对一些常见的功能问题进行解答。

【课程目标】

学会选择合适的语音识别能力

掌握腾讯云语音识别ASR控制台的使用

掌握语音识别Python SDK的使用

掌握语音识别iOS SDK的使用

掌握语音识别Android SDK的使用

了解语音识别的服务计费

【适用对象】

商务、运维、开发、个人开发者

【课程大纲】

知识模块

简介

ASR 类别选择

语音识别ASR能力选择

控制台操作指导

机构简介

腾讯云大学

腾讯云旗下面向云生态用户的一站式学习成长平台

讲义

语音识别ASR能力选择

通过本课程的学习您将可以:

  • 语音识别各项能力介绍
  • 语音识别能力选择介绍
  • 章节总结

语音识别各项能力介绍

实时语音识别

  • 对实时音频流进行识别,实时识别为文字。
  • 适用于有一定实时性要求的场景,例如语音输入、语音机器人、会议现场记录、直播内容审核、视频实时添加字幕等场景。
  • 目前支持中文普通话、英语、粤语。
  • 支持wav、pcm、speex、 silk 的音频格式,支持8k、16k采样率的单声道音频流,支持1 6bit的数据采样精度。

一句话识别

  • 对60秒之内的短音频文件进行识别。
  • 适用于语音消息转写场景,例如语音短信、语音搜索等。
  • 目前支持中文普通话、英语、粤语
  • 支持wav、mp3 的音频格式,支持8k、 16k采样率的单声道音频,支持1 6bit的数据采样精度。

录音文件识别

  • 对不超过一小时的录音文件进行识别。
  • 适用于语音时间较长、对实时性要求低的场景,例如客服质检、视频字幕生成、音频节目字幕生成等。
  • 目前支持中文普通话。
  • 支持wav、mp3、silk. speex、 amr、m4a 等主流的音频格式,支持8k、 16k采样率的单声道或双声道音频识别,支持16bit的数据采样精度。

语音识别能力选择介绍

如何选择

如何选择

时延性要求:是否需要实时?

成本问题:预算多少

章节总结

本课程详细介绍了:

  • 语音识别能力介绍
  • 语音识别能力选择策略

课程评价(0)

感谢你参加本课程,请你作出评价:
0/300

以下选自学员评价

暂无精选评价