2017年深度学习总结：文本和语音应用

WZEARW

发布于 2018-04-13 16:00:40

8050

发布于 2018-04-13 16:00:40

文章被收录于专栏：专知

【导读】近日，大数据科学家Volodymyr Fedak发布一篇博客，总结了2017年深度学习的发展：深度学习在文本和语音领域的应用。深度学习从发展伊始就在图像领域取得了越来越好的效果，当今，图像领域也是深度学习最成功的应用领域之一。那么，最新的深度学习在文本和语音方面的发展情况怎样呢？本文就这两个方面给出了最新的总结：从谷歌翻译到Facebook的chatbot，从DeepMind Wavenet到牛津大学唇读。作者介绍了2017年在文本和语音领域中最新的深度学习技术，非常值得一读。

Deep Learning summary for 2017: Text and Speech Applications

深度学习正在改造许多行业，你所在的行业可能也不例外。来一起了解下2017年最值得关注的深度学习主流项目，紧跟最前沿新技术，否则下一个被新技术淘汰的可能就是你了。

深度学习（DL）应用早已跨越传统行业的界限。从医疗服务到保险，从银行到市场推出了各种DL项目。例如，中国的目标是成为人工智能领域的全球领先者，到2030年将创造一个1500亿美元的人工智能产业，而百度集团的研究人员则大胆预测，以后对数十亿个样本数据集进行实验也只是小菜一碟。

因此，每个企业都应该密切关注其行业中可能存在的深度学习应用。我们列出了2017年最受关注的文本和言语相关的DL最新应用，让机器学习专业人士和锐意进取的决策者都受益匪浅。

▌文本相关的深度学习应用

DL应用程序最重要的领域之一是处理文本：比如翻译，聊天机器人，文本分析和其他很多任务。

从Google翻译...

一年前，Google宣布推出新的Google翻译训练算法 - 循环神经网络（Recurrent Neural Network）。近些年来，机器翻译结果经历了从生成毫无意义的聚在到生成出几乎完美无暇的翻译。这些成就令人吃惊，Google的DL RNN 在不断提高！

...到Facebook谈判者chatbot

你可能听说过一个关于Facebook如何开发聊天机器人的故事，并由于它发明了一种新的语言而关闭了它。而真相是，DL算法确实产生了一个非人类的词典，但它并没有阻止它实现其目标。其目标实际上是让AI在与对手的对话中取得成功（特别是掌握书籍，拿到帽子等），尤其是通过掌握文本对话。

机器人训练使用一个监督的循环网络与一个真正的谈判的文本成绩单庞大的数据集，进一步磨练系统使用加强训练，而并且使系统的两个实例互相对话达到训练的目的。 chatbot已经掌握了现实生活中的谈判技巧之一，即虚假的兴趣。它表示对它实际上并不需要的项目表示兴趣，并同意只有在给出实际需要的项目时才把它交给对方。

一旦任务完成，用人语言的限制就被解除了，这就导致了这个系统发明了一些新的术语。随意调试代码，看看你的情况发生了什么！

语音处理和生成

DL应用的另一个重要领域涉及语音处理。它包括语音和音乐的生成，嘴唇动作的识别和同步等。

▌DeepMind Wavenet

在AlphaGo背后的公司，Google Deepmind目前正在开发WaveNet - 一种将输入文本转换为原始音频的算法。与以前的尝试相比，它显示出非常好的结果。

到目前为止，这个网络的主要缺陷是它的性能，因为1秒的音频需要1-2分钟才能产生，但是这个进程是惊人的。要说更多，算法甚至可以创建钢琴音乐！更多细节可在这里的PDF中找到。

▌从谷歌DeepMind和牛津大学唇读

另一项来自Google DeepMind的倡议与来自牛津大学（Oxford University）的专家一起工作 - 在他们的联合论文中深入介绍了唇读算法。使用超过100,000个句子，视频和音频文件的数据集，使用用于音频的LSTM，用于视频的CNN + LSTM以及这两个用于生成状态字符的状态向量的组合来训练该模型。

该系统适用于不同类型的输入：音频，视频，音频+视频，使得这种算法是多元的。