前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >语音标注工具介绍-开放式标注平台

语音标注工具介绍-开放式标注平台

原创
作者头像
小瓦匠
修改2019-06-17 10:25:07
7.6K0
修改2019-06-17 10:25:07
举报
文章被收录于专栏:数据标注数据标注

人工智能业内普遍认为,语音将成为下一个重要的技术平台,近年来随着人工智能理论与技术的迅猛发展,语音识别(ASR)、语音合成(TTS)技术在不断突破。虽然理论技术取得了长足进步,但是在实际应用过程中仍绕不开数据标注这一话题,训练数据的准确性很大程度上影响了算法模型的表现。

两个月前,Mozilla 发布了其开源语音识别数据集项目 Common Voice 的最新版本,并宣布其已成为当前全球最大的人类语音数据集。接下来我们聊聊这些语音数据集是如何生产的。

有一篇文章比较详细地介绍了语音标注工具Praat的使用方法,我想说的是Praat真的非常难用,今天找到一款在web上运行的语音数据标注工具,京东做的并且开放了出来,可以自主配置

https://biao.jd.com/bz

1. 配置标注工具

添加描述

① 选择是否转写:即是否是需要将音频转写为文字。大部分都需要吧

② 最长语音切割时长:即最长需要标注几秒,视你的素材而定。把这个定义清楚,防止标注人员把语音切割过长。

③ 选择或增加分层:系统默认给出了常用的角色、性别,可以根据你的需要增加或减少分层

④ 判断项:可针对噪音、发音重叠等情况做特殊处理

⑤ 填写具体的标注规则,方便标注人员实时查看

2. 预览工具

添加描述

接下来你可以试用一下刚才配置的标注工具,可以转写音频,标注角色、性别、噪音等。可以拖拽时间段、播放每一段的音频,体验还是非常好的,标注效率也会大大提高。

3. 上传数据

按照系统要求上传待标注的语音数据,在此不做赘述。给大家两段语音测试用

4. 发布标注项目

添加描述

你可以在京东众智这个平台上选择一个标注团队为你标注,输入你要求的合格率、工期要求等等,和标注团队确定好价格和预付费就好了。工具使用费是给平台的,目前是免费。总的来说,一定是比找其他标注平台要更便宜的。

5. 验收与导出数据

标注团队完成标注后,你可以在线上验收标注结果,不合格的话可以回滚,让标注团队重新标注。结算之后就能导出数据了。

我与一些标注团队沟通过,转写一小时的语音大约要150-200元左右,当然还要看各位具体的需求和标注难度。希望未来大厂们将更多的语音数据开源出来推动科技进步,开源万岁!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档