专栏首页PaddlePaddle工业应用|AI语音技术应用场景及模型库概览

工业应用|AI语音技术应用场景及模型库概览

近年来AI技术发展速度迅猛,深入到生活中的方方面面,从手机APP到车载语音系统。今天小PP和大家一起仔细了解,AI技术中的语音技术在各场景的应用,并奉上对应模型~

语音识别技术

语音识别其实是一种感知智能,核心功能是将物理世界的信息转化成可供计算机处理的信息,为后续的认知智能提供基础。

实际上,语音识别早已经应用于我们日常生活中的方方面面。现在非常多的手机APP支持语音识别,解放双手提升效率。像社交类APP微信的语音转文字、翻译APP有道词典即可通过识别语音进行外语翻译、记录类APP以及可以语音输入的输入法APP等等。

除了APP中应用,目前车载也是语音技术落地的重要场景。通过语音识别,驾驶者可直接与车辆进行互动,比如要求车辆打开窗户、关闭天窗、开灯等等。智能控制车辆等技术已经开始批量进入生产,百度、科大讯飞等公司都有对应的合作车型,进行智能车机落地。

除上述应用方向,语音识别技术落地场景多种多样。语音技术也是深度学习算法工程师从业的重要方向之一,那么哪些框架里能找到语音识别模型呢?

目前主流深度学习框架都有各自的语音识别模型。比如Tensorflow有TF Speech, Pytorch通过ASR实现语音到文本端的模型,PaddlePaddle有DeepASR模型。小伙伴们可以按自己的需求选择模型并尝试。目前PaddlePaddle的语音识别模型使用的是汉语数据集,配合中文教材,小伙伴们可以快速上手训练语音识别模型~

详细链接:

https://github.com/PaddlePaddle/models/tree/develop/fluid/DeepASR

语音合成技术

语音合成是通过大量数据训练模型,使得机器能够模仿真人的声音进行发声,将文字输入后,机器通过模型将文字转变为声音。根据训练数据的不同,还可以生成每个人个性化的声音。

当前在手机APP、导航和音响类产品中,语音合成承担着重要作用。如果说语音识别是解放双手,那么语音合成就是“解放双眼”。

目前,地图类产品是语音合成技术的重点落地场景。驾车时,手眼都会被驾驶行为占据,唯一可以进行交互的就是语言和听力。语音合成应用于导航,不仅仅是通过“志玲姐姐语音包”给大家带来声音的享受,更重要的是,它让用户使用听觉接受信息,解放了用户驾驶中的视觉,大大降低了低头看手机引发交通危险的可能性。

除此以外,目前大火的智能音箱,比如天猫精灵、小米音箱和小度在家,它们的回答声音也源自语音合成。当然,现在语音合成的声音还可以定制,比如小度音箱便借用蔡康永老师的声音与使用者对话。

目前语音合成技术的效果已经非常纯熟,但是模型训练需要的数据量级,仍然过于庞大。面对这种情况,如何能够在最短时间内合成仿真程度高的声音,也将会是未来一段时间内需要攻克的技术难点。想要尝试破解难题的小伙伴们,同样需要选择深度学习框架而后训练模型,逐步努力落地这个想法。目前主流深度学习框架中,Pytorch和TensroFlow都有开源的合成模型,感兴趣的小伙伴可以尝试。

这次小伙伴们已经了解语音技术的应用和模型,后续也将呈现NLP、目标检测、人脸识别和图像方向的相关内容,欢迎大家持续关注~

本文分享自微信公众号 - PaddlePaddle(PaddleOpenSource)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 十月深度学习月福利 GPU算力每日免费用!

    之前我在知乎介绍了两款练习人工智能算法的应用,都是谷歌的,当时就有网友在评论区提到了国内有百度的 AI Studio,于是产生了兴趣,恰好在那评论出现后几个星期...

    用户1386409
  • 百度助力数据挖掘世界杯KDD Cup 历史性革新

    8月6日,一年一度的KDD(国际数据挖掘与知识发现)大会召开,这是数据挖掘领域国际最高级别会议,而其旗下赛事KDD Cup 被称为数据挖掘领域的“世界杯”。今年...

    用户1386409
  • PaddlePaddle 版本1.1.0发布啦!

    PaddlePaddle在基础框架、模型建设、分布式训练、预测引擎各个方向上完成多项更新。OP进行了全面完善和优化,模型库新增了自然语言处理、视觉和推荐等领域的...

    用户1386409
  • 国际刑警组织的新软件凭声音就能揪出犯罪分子!

    一个新的平台旨在将语音录音与存储在海量数据库中的语音样本进行匹配来识别犯罪分子,但这也引发了隐私方面的问题。

    周俊辉
  • 微软语音AI技术与微软听听文档小程序实践 | AI ProCon 2019

    【导语】9 月 7 日,在CSDN主办的「AI ProCon 2019」上,微软(亚洲)互联网工程院人工智能语音团队首席研发总监赵晟、微软(亚洲)互联网工程院 ...

    AI科技大本营
  • 智能语音扩展数字化服务

    广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。语音识别,刚才罗老师也分享了部分内容。语音合成是文字变成语音,这部分我们后面会详细展开。再往...

    腾讯云AI中心
  • 神一样的文字转语音软件,不仅免费功能还强大

    之前给大家推荐过小程序分享丨智能文字转语音神器,讯飞快读这个小程序可以解决大家文字转语音的问题,小轻论坛也绑定了讯飞快读,大家可以在公众号的菜单栏打开这个小程序...

    半夜喝可乐
  • AI语音交互领域常用的4个术语

    语音合成标记语言的英文全称是Speech Synthesis Markup Language,这是一种基于XML的标记语言,可让开发人员指定如何使用文本转语音...

    曼孚科技
  • 语音控制:企业计算的下一个重大突破

    如果说2007年 iPhone 的发布开启了近十年来消费者信息传达被屏幕和视觉统治的时代,那么,语音将成为继智能手机之后企业科技界下一个最大的颠覆。

    人称T客
  • 科大讯飞,站在十字路口

    在位于合肥规划中三到四平方公里的中国语音产业园,建筑机械群正在紧张作业。在竣工的讯飞大厦里,两千多名科大讯飞员工围绕“声音”忙碌着。在移动互联网的风口,...

    罗超频道

作者介绍

精选专题

活动推荐

扫码关注云+社区

领取腾讯云代金券