前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI Talk | 语音识别ASR幕后神器-模方平台

AI Talk | 语音识别ASR幕后神器-模方平台

原创
作者头像
腾讯云TI平台
发布2021-10-09 16:42:03
2.1K0
发布2021-10-09 16:42:03
举报
文章被收录于专栏:腾讯云TI平台

作者:jingtianli

ASR 作为机器学习的基础应用之一,已成为众多业务支撑的基础能力,在录音质检、音频字幕、会议转写、语音输入等场景中发挥越来越大的作用。腾讯云 ASR 作为业界领先的语音识别服务提供商,为开发者提供语音转文字服务的最佳体验,具备识别准确率高、接入便捷、性能稳定等特点。

基于腾讯的多个 AI 实验室的模型赋能,腾讯云 ASR 团队接入和开发了多种类型识别服务,如一句话识别、录音识别、实时语音识别等,业务覆盖通用、金融、医疗、游戏等多种场景。此外,工程方面,团队在整体系统的复用性、接口性能、服务稳定性上也做了大量优化。

鉴于此,腾讯云与微信智聆深入合作打造了模方平台,大幅度提升了微信智聆 ASR 能力的接入、评测、交付和上线效率;进而能对外输出更为敏捷的模型版本迭代能力。此外,平台也在 IBG 的香港粤语等模型进行验证,使平台承接上游实验室模型具有普适性。

自 2020 年 9 月份内部试用以来,模方平台已逐步替代了 ASR 模型的绝大部分接入、整合、评测和交付工作,极大提升效率的同时,将大量人力从重复工作中释放出来。此外,无论模型更新还是 sdk 更新,均需通过效果、性能的回归测试,尽可能发现潜在问题,减少服务带病上线的可能。比如近期专项,根据需求实验室同时释出了大量模型版本,sdk 也同步更新,通过平台很好地支撑了模型的快速迭代,保证线上识别服务模型的快速迭代,而这些在之前通过人工进行评测和更新时,是完全无法满足的。

引入模方平台后,效率方面:

  • 模型评测时间,由 2 人天降低到 30 分钟
  • 支持模型与引擎的自动化上线
  • 整个评测流程,仅需一人即可

而在质量方面:

  • 应用与模型版本管理,方便查询和追溯
  • 方便模型回归测试,尽可能排查潜在问题
  • 引入审核机制,确保交付模型满足质量要求
  • 完善效果和性能指标范围,进一步确保模型质量

ASR 团队调研现有其他评测平台的基础上,结合云 ASR 服务的类型和特点,开发了一站式的 ASR 模型评测系统——模方平台。平台支持引擎接入、模型整合、安装包交付、模型评测、质量审核、引擎上线等核心流程,较好地弥补了从上游实验室释出引擎模型,到模型上线中间的流程环节,通过自动化、可定制的形式,在兼容各种模型的同时,极大地提升了工程侧的模型迭代效率。平台的核心流程如下所示

下面逐一介绍下流水线的各个环节:

图片
图片

引擎接入与构建

实验室释出一版模型,主要有两部分组成:sdk引擎、模型(环境文件与配置)。 

sdk引擎,通常为头文件及对应的 lib 库。识别层要使用模型,需要调用 lib 库暴露的 头文件定义的 api 函数,并将 lib 库编译到识别层应用 speech-engine-platform 中。模方平台通过对接公司的 CODING-CI 平台和织云系统,实现speech-engine-platform 的自动编译、代码检查、打包和上传织云系统的功能。

使用模方平台,在新 sdk 释出后,工程师只需替换新的 lib 库文件,并把代码提交到指定的 git 分支,然后在平台上选择对应分支,点击构建,即可自动化生成织云安装包。

此外,由于线上服务器存在不同的硬件配置,针对不同型号,平台可自动生成对应各个配置的织云包,极大地方便了下游系统的线上部署。

模型整合与入库

实验室释出的模型,通常由不同的组件环境组成,需要整合后才能成为一个完整的模型。以微信智聆实验室的模型为例,ASR模型包含四个组件:识别环境、VAD 环境、话者分离环境和后处理环境。 

识别环境用于将音频数据转换为文字,VAD 环境用于删除非人声数据,话者分离用于区分一段语音中不同的 speaker,后处理用于将识别后文本进行进一步处理,如阿拉伯数字转换等。 

四个环境相互独立,但版本上又有一定对应关系,只有正确地整合成为一个整体,才能使用。 

之前人工整合模型,需要登录到中转机,找到各环境对应文件夹,将文件夹拷贝到本地服务器的指定目录,并将四个组件的配置项放到一个统一的配置文件。可见这样做,不但占用人力、效率低下,而且非常容易出错,版本信息也很难管理和追溯。为未来线上模型部署、问题排查埋下了隐患。 

模方平台的引入,解决了这个问题。在平台上,可以方便地浏览各个组件的所有版本目录,在整合和录入模型时,只需选择各自版本目录和配置文件,然后填写新模型的版本号,即可完成模型的整合、配置文件生成和版本号管理等操作。

下游环节均可通过该版本号回溯模型组件信息。

图片
图片

模型统一评测

新模型在发布前,需要评测模型是否满足质量要求。评测主要关注两个维度:效果评测和性能评测。

效果评测:指标主要包含:字准率、WER、插入/删除/替换错误、说话人分割聚类错误率 DER 等,用于衡量该版模型的识别效果。为满足特定业务用户希望根据自己的语料获得效果指标的需求,平台进一步提供自定义测试集功能。

性能评测:在性能上,相对于实验室关注的实时率等指标,工程侧更为关注从用户使用的角度,在不同的识别服务类型上,如何衡量服务识别的性能情况。ASR 服务种类和性能指标如下:

ASR服务类型

指标

录音识别

24小时转码时长

一句话识别

最大并发数、可用性

实时语音识别

并发路数、尾包延迟、VAD时延、首字时延

以上是模型评测报告的指标。新模型录入后,用户在平台可以方便地启动一次模型评测流程。选择模型版本号,指定测试服务器配置型号,点击启动评测即可。平台会自动将模型部署到指定测试服务器,编译并部署识别层应用 speech-engine-platform,然后调用评测服务进行评测,通常一次完全评测在 30分钟左右,即可获取评测报告。

模型发布上线

发布前,需要针对上个环节产出的评测报告进行审核。通过评测报告,用户可查看当前模型的效果指标和性能指标,并观察相较上一版的变化,判断是否满足上线标准,填写审核意见,并点击通过或拒绝即可。 审核通过后,点击交付,即可将开箱即用的安装包交付给下游系统。安装包包含两部分:识别层应用织云包、模型打包文件,两者版本均已对齐。

交付后,即可进行模型上线操作。之前通过人工上线,需要两步: 1. 识别层上线,需人工根据需要上线的 git 分支,手工触发识别层应用编译和织云打包;再登录公司织云系统,选择对应织云包版本和 IP 列表,部署到线上服务器  2. 模型上线,需人工将模型下载到所有需要升级的服务器上,并解压部署到指定目录  可以看到,引擎和模型的版本正确性,需要人工保证,不仅效率较低,而且也容易出错。平台支持上线,不仅提升效率和质量,而且进一步保证版本可追溯。

图片
图片

其他特性

除上述功能外,平台还支持如下特性:

  • 评测机型上,支持指定多种GPU配置机型
  • 场景上,支持金融、视频、医疗等场景模型评测
  • 方言与语种上,除中文外,支持上海话、粤语、英语、日语等
  • 支持公有云与私有化模型统一交付
  • 支持 CPU 模型评测


腾讯云语音识别ASR提供业界非常具有性价比的语音识别服务,超高识别准确率,适用多场景

点击了解更多

实时语音识别

对不限时长的实时音频流进行识别,识别结果自动断句,标记每句话的开始和结束时间;可应用于智能语音助手等实时音频流场景。

录音文件识别

对用户上传的五小时之内的录音文件进行识别;可应用于呼叫中心语音质检、视频字幕生成,会议语音资料转写等场景。

一句话识别

对一分钟之内的短音频文件进行识别;可应用于语音输入法、语音消息转文字、语音搜索等场景。

语音流异步识别

对直播协议语音流进行识别,准实时返回识别结果,支持音视频场景专用模型;可用于直播流质检等场景。 

录音文件识别极速版

对用户上传的较大的录音文件进行极速识别,半实时返回识别结果;可应用于音视频字幕、准实时质检分析场景等场景。 

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 模型整合与入库
  • 模型统一评测
  • 模型发布上线
  • 其他特性
    • 实时语音识别
      • 录音文件识别
        • 一句话识别
          • 语音流异步识别
            • 录音文件识别极速版
            相关产品与服务
            语音识别
            腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档