微信智能语音服务上线,集成语音识别、语音合成、声纹识别等功能

编辑导语

近日,腾讯云正式上线智能语音服务。智能语音是由腾讯微信AI团队自主研发的语音处理技术,可以满足语音识别、语音合成、声纹识别等需求。

这是继微信支付提速、微信公众号CDN加速、微信公众号安全护航等一系列动作之后,腾讯云联合微信发布的又一重大举措。腾讯云智能语音服务将以强大的垂直领域定制化服务,打造专业高效的语音大脑。

一、识别率行业领先云端+嵌入式开放

语音作为继键盘、鼠标、触屏之后人机交互的新体验,其识别技术被广泛应用在呼叫中心、网络搜索、智能终端、移动应用、人工智能等各大领域。

腾讯云平台联合微信,将智能语音服务以“云端+嵌入式”的形式开放,以覆盖更多的使用场景,满足各行业开发者的需求。其中云端智能语音服务可随需求弹性扩缩容,提供持久化可靠性达99.999999%的存储能力,而嵌入式引擎则可满足无网络场景下智能语音需求。

此次上线的智能语音各项技术均通过了亿万级别业务的并发验证,其中语音合成MOS值4.4,声纹识别准确率99%,语音识别更是采用业内首创的并行解码技术,现网抽样通用领域准确率达到93.8%,在餐饮、娱乐、教育、金融等垂直领域识别更精准,识别率平均达94%。

二、解放双手不只是语音质检

实际上,智能语音服务早已在腾讯内部业务中得到应用,如微信的语音输入、语音转文字、声纹锁等。另外语音识别也被广泛地应用在呼叫中心语音质检中,如珍爱网,通过语音转文字,情绪识别,静音监测,关键词搜索等多种能力结合,提高了通话合规性的检查效率,也通过语料信息隐藏的市场信号,发掘了更多企业产能。腾讯云智能语音服务不仅能运用在语音质检中,而且还能运用在很多领域,解放用户双手,提升用户体验。

语音搜索:针对垂直领域提供定制化的语音搜索引擎,如QQ音乐听歌名找曲目、电商APP语音搜索商品等,可提供便捷人机交互方式;

智能客服:在与招商银行服务号的合作中,提供了语音互动实现智能客服,通过机器学习挖掘用户问题,以机器人回答代替50%以上人力,降低运营成本;

身份鉴定:利用高达99%身份鉴定准确率的声纹识别技术,还可为金融、安保、智能终端等领域提供更可靠的安全保证。

三、专业领域定制化共享云端价值

腾讯云还将提供专业领域定制化服务,包括识别模型训练等,对专业领域的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”。

同时,腾讯云智能语音服务在语音识别过程中将对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。开发者和创业者们可利用其在购物、餐饮、寻医等各个行业大开脑洞,实现业务创新。另外,腾讯云智能语音采取灵活的按量计费方式,根据使用量收取费用,没有最低限制,亦可随时无限扩容。

腾讯云与微信这一系列双向技术和场景的深入合作,为开发者、创业者和企业带来多重福利的同时,也彰显了整个腾讯生态的开放与融合。

此外,这一系列合作也表明,腾讯云作为云计算行业中的标杆力量,不断打造云端生态、共享价值的态度。这种态度不仅将带动云计算行业的携手进步,而且也将对各行各业的升级转型与开拓创新有着重大的意义。语音技术是怎么实现的?技术难点是什么?可以用到哪里?以下是微信语音技术组组长卢鲤的解读

语音技术的实现人机交互的新体验

腾讯云推出的智能语音服务包括语音识别、语音合成、声纹识别、语言识别、性别识别、情绪识别等。其中以语音识别算法最为复杂,可谓是语音技术皇冠上的一颗明珠。

人认知语音的三个过程,是由声音到发音单元,发音单元到字词,最后是字词到到一句话,这也是计算机实现语音识别的三要素。因此,在机器里建立声学模型,词典和语言模型,便可对语音进行识别。

如何建立上述模型?

首先是对语音信号的处理,由于语音信号具有短时平稳性,可以先对其进行分帧,针对每一帧语音信号,变换成机器更易理解的特征。

然后是声学模型,由于每一个音的发声和前后音相关,因此无法以最小发音单元构建声学模型,于是用triphone来确定发音单元,并构建声学模型,向机器描述声音和发音单元之间的关系。

最后是词典和语言模型,词典规定每个字的读音,语言模型则需要机器利用数据去学习。常用的模型结构是Ngram模型。例如通过在大量语料中数数,学习到A这个字的出现概率p(A)多大,A出现之后出现B的概率多大即p(B|A),以此类推。这样的概率描述,在输入法、语音识别等很多技术中都有强大的实用性。

克服三大技术难题识别率业界领先

由于当前技术的局限,语音识别在实际应用中还会遇到如下难题,研发团队也在多年业务实践中不断寻求能提升语音识别率的方法。

· 第一,将语音识别技术的分段融合音频属性,在说话人以及部分语义信息中达成良好的断句;

· 第二,采用LSTM结合DNN的做法,有效学习语音的短时特征和长时依赖;

· 第三,通过开发并行解码空间,实现具体业务的快速适配,同时并行通用搜索空间;最后,对语音识别结果进行过滤及规整,增强可读性。

通过模拟真实场景的算法,把历史无噪数据转换成包含多种不同场景噪声数据,让模型在学习内容的同时也学习到不同的环境干扰,增加了引擎识别率的鲁棒性。

海量数据的训练会让机器更智能,但在无监督学习算法暂不成熟的情况下,数据的积累是缓慢的。研发团队对此进行反向思考,由于每个个体的声音都不一样,通用模型的长尾问题是导致错误发生的重要原因,因此采取算法让声学模型学习的过程中将说话人的信息抹去的方式,帮助提升识别率。智能语音服务已被广泛应用,如微信语音输入、语音转文字、腾讯智能手表、腾讯游戏语聊、为盲胞读书等。腾讯云此次开放智能语音服务,提供强大的垂直领域定制化智能语音服务,打造专业高效的语音大脑,将满足开发者们更多样的场景需求。

语音技术可以应用在呼叫中心领域以及企业以语音为服务的情况下,如珍爱网红娘业务,智能语音服务可通过关键词,情绪识别等技术手段对客服语音进行质检。

另外手机APP中的语音搜索、智能硬件中的语音指令、音视频的机器分析和检索、在线教育中进行学习评估矫正等都是语音技术的可用场景。

在这些场景中,语音技术都将真正解放用户双手,提升用户体验,同时节约运营成本,增加企业产能。对于开发者和创业者而言,智能语音服务还将绽放出更多创新的可能性。

原文发布于微信公众号 - BestSDK(bestsdk)

原文发表时间:2016-05-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏美团技术团队

【沙龙干货】主题一:外卖O2O的用户画像实践

分享内容 ---- 这个演讲的内容大概包括四个部分:第一个是外卖业务对营销的要求,我会从比较概括层面讲一下针对外卖业务我们要做什么;第二个是美团用户画像,介绍一...

4046
来自专栏钱塘大数据

人工智能与机器学习:两者有何不同?

导读:在过去几年,人工智能和机器学习频繁出现在技术新闻和各种网站上。两者常常被用作同义词,但许多专家认为它们存在微妙且重大的区别。第一,人工智能 (AI)这个...

4556
来自专栏华章科技

6个用好大数据的秘诀

  就算一个公司拥有再多的数据,也不能代表它就一定会获得商业上的成功。只有真正懂得如何利用大数据,了解到公司利用大数据可以达到什么目标,公司最终才有可能真正成...

631
来自专栏PPV课数据科学社区

【观点】大数据时代社交图谱与兴趣图谱的融合

首先,我想问大家一个问题,这个词我们听了好长时间了,大数据,什么是大数据?这个词大概从去年,然后很多人就不停的听到,可能很多同学在跟硬件相关的厂商那边听到,所以...

44013
来自专栏前沿科技

中兴视觉大数据报道:人工智能代表了信息技术的未来

中兴之智能视觉大数据报道:预测未来最好的方式是去创造未来。今天与其我们来预测未来的技术,不如根据我们今天已经开始的创新,来谈谈未来的技术。套一句时髦的话,叫作未...

1925
来自专栏腾讯研究院的专栏

大数据带来的四种思维

近年来大数据技术的快速发展深刻改变了我们的生活、工作和思维方式。大数据研究专家舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化:第一,人们处...

2139
来自专栏数据的力量

【05期】我的数据心经:从数据到智能

1705
来自专栏PPV课数据科学社区

编译 | 机器学习的趋势和人工智能的未来

数据飞轮,算法经济,和智能云托管的融合意味着每家公司现在可以是一个数据公司,每家公司现在可以访问算法智能,并且每一个应用程序可以是一个智能应用。 ? 每家公司现...

4539
来自专栏AI科技评论

专访腾讯钟黎:知文团队在智能问答系统方面的探索

对于刚刚成立的腾讯知文团队来说,过去是收获颇丰的一年。虽然成立尚不足一年,但这一团队已在 AAAI、IJCAI、SIGIR、EMNLP、COLING 等顶会上发...

2111
来自专栏CDA数据分析师

人工智能与机器学习:两者有何不同?

在过去几年,人工智能和机器学习频繁出现在技术新闻和各种网站上。两者常常被用作同义词,但许多专家认为它们存在微妙且重大的区别。 当然,专家们自己有时对于那些区别到...

2297

扫码关注云+社区

领取腾讯云代金券