2017年深度学习总结:文本和语音应用

【导读】近日,大数据科学家Volodymyr Fedak发布一篇博客,总结了2017年深度学习的发展:深度学习在文本和语音领域的应用。深度学习从发展伊始就在图像领域取得了越来越好的效果,当今,图像领域也是深度学习最成功的应用领域之一。那么,最新的深度学习在文本和语音方面的发展情况怎样呢?本文就这两个方面给出了最新的总结:从谷歌翻译到Facebook的chatbot,从DeepMind Wavenet到牛津大学唇读。作者介绍了2017年在文本和语音领域中最新的深度学习技术,非常值得一读。

Deep Learning summary for 2017: Text and Speech Applications

深度学习正在改造许多行业,你所在的行业可能也不例外。 来一起了解下2017年最值得关注的深度学习主流项目,紧跟最前沿新技术,否则下一个被新技术淘汰的可能就是你了。

深度学习(DL)应用早已跨越传统行业的界限。 从医疗服务到保险,从银行到市场推出了各种DL项目。 例如,中国的目标是成为人工智能领域的全球领先者,到2030年将创造一个1500亿美元的人工智能产业,而百度集团的研究人员则大胆预测,以后对数十亿个样本数据集进行实验也只是小菜一碟。

因此,每个企业都应该密切关注其行业中可能存在的深度学习应用。 我们列出了2017年最受关注的文本和言语相关的DL最新应用,让机器学习专业人士和锐意进取的决策者都受益匪浅。

▌文本相关的深度学习应用



DL应用程序最重要的领域之一是处理文本:比如翻译,聊天机器人,文本分析和其他很多任务。

从Google翻译...

一年前,Google宣布推出新的Google翻译训练算法 - 循环神经网络(Recurrent Neural Network)。 近些年来,机器翻译结果经历了从生成毫无意义的聚在到生成出几乎完美无暇的翻译。 这些成就令人吃惊,Google的DL RNN 在不断提高!

...到Facebook谈判者chatbot

你可能听说过一个关于Facebook如何开发聊天机器人的故事,并由于它发明了一种新的语言而关闭了它。 而真相是,DL算法确实产生了一个非人类的词典,但它并没有阻止它实现其目标。 其目标实际上是让AI在与对手的对话中取得成功(特别是掌握书籍,拿到帽子等),尤其是通过掌握文本对话。

机器人训练使用一个监督的循环网络与一个真正的谈判的文本成绩单庞大的数据集,进一步磨练系统使用加强训练,而并且使系统的两个实例互相对话达到训练的目的。 chatbot已经掌握了现实生活中的谈判技巧之一,即虚假的兴趣。 它表示对它实际上并不需要的项目表示兴趣,并同意只有在给出实际需要的项目时才把它交给对方。

一旦任务完成,用人语言的限制就被解除了,这就导致了这个系统发明了一些新的术语。 随意调试代码,看看你的情况发生了什么!

语音处理和生成


DL应用的另一个重要领域涉及语音处理。 它包括语音和音乐的生成,嘴唇动作的识别和同步等。

▌DeepMind Wavenet



在AlphaGo背后的公司,Google Deepmind目前正在开发WaveNet - 一种将输入文本转换为原始音频的算法。 与以前的尝试相比,它显示出非常好的结果。

到目前为止,这个网络的主要缺陷是它的性能,因为1秒的音频需要1-2分钟才能产生,但是这个进程是惊人的。 要说更多,算法甚至可以创建钢琴音乐! 更多细节可在这里的PDF中找到。

▌从谷歌DeepMind和牛津大学唇读



另一项来自Google DeepMind的倡议与来自牛津大学(Oxford University)的专家一起工作 - 在他们的联合论文中深入介绍了唇读算法。 使用超过100,000个句子,视频和音频文件的数据集,使用用于音频的LSTM,用于视频的CNN + LSTM以及这两个用于生成状态字符的状态向量的组合来训练该模型。

该系统适用于不同类型的输入:音频,视频,音频+视频,使得这种算法是多元的。

▌嘴唇运动与音频流的同步



华盛顿大学处理了超过1万小时的奥巴马总统讲话的高清记录,并开发了一种能够使嘴唇运动与音频同步的DL算法。

这为游戏行业和CGI电影创造了巨大的能力......但是令人担忧的是,下一次总统演讲可能实际上是计算机生成的镜头,而不是真实的记录。

https://www.youtube.com/watch?v=9Yq67CjDqvw

▌结论



深度学习正在不断地在各个领域展示出新的激动人心新成就。 我们将在接下来的几周内描述机器感知的进步,强化学习和其他各种应用,敬请期待更新!

原文链接:

https://towardsdatascience.com/deep-learning-summary-for-2017-text-and-speech-applications-9ea02bb3835f

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-02-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

你的歌单无聊吗?关于音乐和机器学习的数据分析

Spotify 是全球最大的正版流媒体音乐服务平台,深受全球用户的喜爱。那么你的歌单无聊吗?一位程序员小哥对自己的Spotify歌单进行了数据分析。 几天前,我...

2135
来自专栏新智元

TensorFlow 工程总监 Quora 问答:深度学习系统瓶颈及用户痛点

【新智元导读】TensorFlow 工程总监Rajat Monga9月29日在Quora 上答疑,就深度学习效率瓶颈、TensorFlow 用户的痛点、如何用T...

41011
来自专栏机器之心

业界 | Ian Goodfellow专访:我为什么可以在一夜之间创建GAN

Ian Goodfellow:不客气!非常感谢您来采访我,也感谢您撰写采访博客为其他学生提供帮助。

952
来自专栏AI研习社

20 道面试题助你拿下微软 AI offer

微软在业界的霸主地位人尽皆知。它引领了云计算的风潮:第一季度的财报显示,微软提供的Azure服务和Office365在线版本的收入分别飙升了90%和42%。

1664
来自专栏大数据挖掘DT机器学习

数据挖掘工程师的面试问题与答题思路

机器学习、大数据相关岗位根据业务的不同,岗位职责大概分为: 1、平台搭建类   数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还...

2963
来自专栏华章科技

写给新人数据挖掘基础知识介绍

对企业来,堆积如山的数据无异于一个巨大的宝库。但是如何利用新一代的计算技术和工具来开采数据库中蕴藏的宝藏呢?

802
来自专栏机器之心

专访 | 三角兽首席科学家王宝勋:热度之下的对话生成

机器之心原创 作者:邱陆陆 从 EMNLP 入选论文《Neural Response Generation via GAN with an Approxima...

39611
来自专栏钱塘大数据

【干货】不容错过的 30 个机器学习视频、教程&课程

导读:下面是 Analytics Vidhya 网站发表的文章,汇集了 2016 年机器学习经典视频、教材和课程,分类整理,初学者、进阶级还是资深研究员,都可以...

85811
来自专栏新智元

【专访】MSRA周明团队,NLP铁军“超越人类”技术揭秘

作者:弗朗西斯 【新智元导读】2018年1月3日,微软亚洲研究院的r-net率先在SQuAD EM值达到82.650,这意味着在ExactMatch (精准匹配...

3465
来自专栏新智元

发表 NIPS 论文后,Salakhutdinov 打算如何塑造苹果的人工智能

【新智元导读】苹果公司 AI 研究主管 Russ Salakhutdinov 近日在 NIPS 2016 的一次闭门分享会上畅谈了苹果的 AI 研究现状。从其流...

41411

扫码关注云+社区