前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >工业应用|AI语音技术应用场景及模型库概览

工业应用|AI语音技术应用场景及模型库概览

作者头像
用户1386409
发布2018-08-06 17:19:28
2.7K0
发布2018-08-06 17:19:28
举报
文章被收录于专栏:PaddlePaddle

近年来AI技术发展速度迅猛,深入到生活中的方方面面,从手机APP到车载语音系统。今天小PP和大家一起仔细了解,AI技术中的语音技术在各场景的应用,并奉上对应模型~

语音识别技术

语音识别其实是一种感知智能,核心功能是将物理世界的信息转化成可供计算机处理的信息,为后续的认知智能提供基础。

实际上,语音识别早已经应用于我们日常生活中的方方面面。现在非常多的手机APP支持语音识别,解放双手提升效率。像社交类APP微信的语音转文字、翻译APP有道词典即可通过识别语音进行外语翻译、记录类APP以及可以语音输入的输入法APP等等。

除了APP中应用,目前车载也是语音技术落地的重要场景。通过语音识别,驾驶者可直接与车辆进行互动,比如要求车辆打开窗户、关闭天窗、开灯等等。智能控制车辆等技术已经开始批量进入生产,百度、科大讯飞等公司都有对应的合作车型,进行智能车机落地。

除上述应用方向,语音识别技术落地场景多种多样。语音技术也是深度学习算法工程师从业的重要方向之一,那么哪些框架里能找到语音识别模型呢?

目前主流深度学习框架都有各自的语音识别模型。比如Tensorflow有TF Speech, Pytorch通过ASR实现语音到文本端的模型,PaddlePaddle有DeepASR模型。小伙伴们可以按自己的需求选择模型并尝试。目前PaddlePaddle的语音识别模型使用的是汉语数据集,配合中文教材,小伙伴们可以快速上手训练语音识别模型~

详细链接:

https://github.com/PaddlePaddle/models/tree/develop/fluid/DeepASR

语音合成技术

语音合成是通过大量数据训练模型,使得机器能够模仿真人的声音进行发声,将文字输入后,机器通过模型将文字转变为声音。根据训练数据的不同,还可以生成每个人个性化的声音。

当前在手机APP、导航和音响类产品中,语音合成承担着重要作用。如果说语音识别是解放双手,那么语音合成就是“解放双眼”。

目前,地图类产品是语音合成技术的重点落地场景。驾车时,手眼都会被驾驶行为占据,唯一可以进行交互的就是语言和听力。语音合成应用于导航,不仅仅是通过“志玲姐姐语音包”给大家带来声音的享受,更重要的是,它让用户使用听觉接受信息,解放了用户驾驶中的视觉,大大降低了低头看手机引发交通危险的可能性。

除此以外,目前大火的智能音箱,比如天猫精灵、小米音箱和小度在家,它们的回答声音也源自语音合成。当然,现在语音合成的声音还可以定制,比如小度音箱便借用蔡康永老师的声音与使用者对话。

目前语音合成技术的效果已经非常纯熟,但是模型训练需要的数据量级,仍然过于庞大。面对这种情况,如何能够在最短时间内合成仿真程度高的声音,也将会是未来一段时间内需要攻克的技术难点。想要尝试破解难题的小伙伴们,同样需要选择深度学习框架而后训练模型,逐步努力落地这个想法。目前主流深度学习框架中,Pytorch和TensroFlow都有开源的合成模型,感兴趣的小伙伴可以尝试。

这次小伙伴们已经了解语音技术的应用和模型,后续也将呈现NLP、目标检测、人脸识别和图像方向的相关内容,欢迎大家持续关注~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PaddlePaddle 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 语音合成是通过大量数据训练模型,使得机器能够模仿真人的声音进行发声,将文字输入后,机器通过模型将文字转变为声音。根据训练数据的不同,还可以生成每个人个性化的声音。
  • 当前在手机APP、导航和音响类产品中,语音合成承担着重要作用。如果说语音识别是解放双手,那么语音合成就是“解放双眼”。
  • 目前,地图类产品是语音合成技术的重点落地场景。驾车时,手眼都会被驾驶行为占据,唯一可以进行交互的就是语言和听力。语音合成应用于导航,不仅仅是通过“志玲姐姐语音包”给大家带来声音的享受,更重要的是,它让用户使用听觉接受信息,解放了用户驾驶中的视觉,大大降低了低头看手机引发交通危险的可能性。
  • 目前语音合成技术的效果已经非常纯熟,但是模型训练需要的数据量级,仍然过于庞大。面对这种情况,如何能够在最短时间内合成仿真程度高的声音,也将会是未来一段时间内需要攻克的技术难点。想要尝试破解难题的小伙伴们,同样需要选择深度学习框架而后训练模型,逐步努力落地这个想法。目前主流深度学习框架中,Pytorch和TensroFlow都有开源的合成模型,感兴趣的小伙伴可以尝试。
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档