前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【玩转腾讯云】只需三分钟,再也不用听60秒长语音

【玩转腾讯云】只需三分钟,再也不用听60秒长语音

原创
作者头像
用户5654414
修改2020-05-06 10:41:29
2.7K1
修改2020-05-06 10:41:29
举报
文章被收录于专栏:用户oyxh的专栏用户oyxh的专栏

开篇引言

话不多说,先来两张图感受一下。

现实生活中,越来越多的地方需要使用到语音识别,微信里客户的长条语音,游戏里更方便快速的交流,都是语音识别的重要场景。现在为大家强力推荐腾讯云语音识别,一款为企业和开发者提供极具性价比的语音识别服务。腾讯云语音识别服务经微信、腾讯视频、王者荣耀、和平精英等大量内部业务验证;同时也在线上线下大量互联网、金融、教育等领域的外部客户业务场景下成功落地。同时日服务亿级用户,具有海量数据支撑、算法业界领先、支持语种丰富、服务性能稳定、抗噪音能力强、识别准确率高等优势。

三分钟接入

现在开始讲我们的重头戏,三分钟接入。如何实现我们的三分钟接入呢。

注册开通

0分1秒,登录腾讯云语音识别控制台,点击按钮开通。

获取密钥

0分3秒,得益于腾讯云快速稳定的服务,我们迅速开通,并在访问密钥页面,可获取到相应的Appid以及SecretId和SecretKey。

选取服务

0分25秒,选取你所需的服务。语音识别开放录音文件识别、实时语音识别和一句话识别三种服务形式,满足不同类型开发者需求。

录音文件识别

对不超过一小时的录音文件进行识别。适用于语音时间较长、对实时性要求低的场景,例如客服质检、视频字幕生成、音频节目字幕生成等。

  • 语言和方言:目前支持中文普通话、英语、粤语。
  • 行业/领域模型:目前支持音视频领域模型。
  • 音频属性:支持 wav、mp3、silk、speex、amr、m4a 等主流的音频格式,支持8k、16k采样率的单声道或双声道音频识别,支持16bit的数据采样精度。
  • 音频数据长度支持:若采用直接上传音频数据方式,建议音频数据不能大于5MB;若采用上传音频 url 方式,建议音频时长不能大于1小时。
  • 自学习模型:支持通过语言模型自学习工具进行定制优化,可以有效提高文本场景下的语音识别准确率。更多详情请参阅 自学习模型文档
  • 热词:目前支持通过控制台方式和API方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。更多详情请参阅 热词文档

关于录音文件识别使用详情,请参阅 录音文件识别 API 文档

实时语音识别

对实时音频流进行识别,达到“边说边出文字”的效果。适用于有一定实时性要求的场景,例如语音输入、语音机器人、会议现场记录、直播内容审核、视频实时添加字幕等场景。

  • 语言和方言:目前支持中文普通话、英语、粤语、韩语。
  • 行业/领域模型:目前支持金融领域模型。
  • 音频属性:支持 wav、pcm、speex、silk、mp3 的音频格式,支持8k、16k采样率的单声道音频流,支持16bit的数据采样精度。
  • 音频数据长度:建议每个数据包的音频分片最大不能超过200KB。
  • 自学习模型:支持通过语言模型自学习工具进行定制优化,可有效提高专有领域或行业下的语音识别准确率。更多详情请参阅 自学习模型文档
  • 热词:目前支持通过控制台方式和API方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。更多详情请参阅 热词文档

关于实时语音识别使用详情,请参阅 实时语音识别 SDK 文档

一句话识别

对60秒之内的短音频文件进行识别。适用于语音消息转写场景,例如语音短信、语音搜索等。

  • 语言和方言:目前支持中文普通话、英语、粤语。
  • 音频属性:支持 wav、mp3 的音频格式,支持8k、16k采样率的单声道音频,支持16bit的数据采样精度。
  • 音频数据长度:若采用直接上传音频数据方式,建议整个数据包不能大于600KB;若采用上传音频url方式,建议音频时长不能大于60s。
  • 自学习模型:支持通过语言模型自学习工具进行定制优化,可有效提高专有领域或行业下的语音识别准确率。更多详情请参阅 自学习模型文档
  • 热词:目前支持通过控制台方式和API方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。更多详情请参阅 热词文档

关于一句话识别使用详情,请参阅 一句话识别 SDK 文档

实现调用

1分08秒,在选取好相应的服务以后,只需要下载相应的sdk文档,填入相应的密钥和Appid,加上相应的音频地址和参数,即可实现调用。

写在最后

至于剩下的两分钟,是我多算了,各位看官可以思考下如何更好使用语音识别服务,如果有什么建议或意见,或者需要帮忙的,请随时咨询我们腾讯云语音识别的客服,我们会有专业的工程师为大家提供帮助。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 开篇引言
  • 三分钟接入
    • 注册开通
      • 获取密钥
        • 选取服务
          • 录音文件识别
          • 实时语音识别
          • 一句话识别
        • 实现调用
        • 写在最后
        相关产品与服务
        语音识别
        腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档