学界 | 谷歌研发能处理多域多任务的机器学习模型——MultiModel

我们知道,人工智能领域虽然发展迅速,但大部分机器学习的系统都是针对特定的学习任务存在的,例如会下棋的AlphaGo,识别人脸的图像识别模型,识别语音语义的智能语音助手等等。这些机器学习的系统都只面向特定的任务,目前很少有模型能真正突破狭义机器学习的限制,有能力学习多种不同领域任务。

近日 AI 科技评论了解到,谷歌在博客上发表了文章,提出了自己研发的新机器学习系统MultiModel,一个有能力处理多个任务的机器学习模型。这一模型由多伦多大学计算机科学机器学习小组研究员ÅukaszKaiser,Google Brain Team高级研究科学家Aidan N. Gomez 联合发布,以下是 AI 科技评论对MultiModel文章的翻译:

在过去十年里,深度学习的应用和表现都是以惊人的速度高速发展着。然而,目前这一领域的神经网络架构对于特定的应用领域都是高度集中化的,一直有一个重要的问题仍然没有被解决:领域之间的融合,能否有助于统一模型在多个领域都表现良好?

今天,谷歌研究院提出了MultiModel,这是一个在视觉,语言和音频网络任务中都表现良好的的神经网络架构,它能够同时解决跨越多个领域的多个问题,包括图像识别,翻译和语音识别。尽管在Google翻译也曾经使用过Google多语种神经机器翻译系统,在解决多任务领域有所进步,但MultiModel是首先将视觉,音频和语言理解融入单一网络的机器学习模型。

MultiModel处理多领域的灵感来自于人类大脑,人类大脑是如何将不同模式(如声音,视觉或味觉)的感官输入转化为单一的表达形式,并以语言或动作的形式给予反馈的呢?通过模拟大脑对这些模式和对它们所进行的转换,MultiModel有很多的子网络,用于音频,图像或文本等特定形态的任务,MultiModel由编码器,输入/输出混合器和解码器组成共享模型,如下图所示。

MultiModel结构:小型特定子网络与共享编码器,I / O混合器和解码器一起工作。每个小花瓣代表一种形态,转化为内在的表征(source:googleblog)

MultiModel能够同时学习八种不同的任务:它可以检测图像中的物体,提供字幕,识别语音,翻译四种语言,同时进行语法解析。给定的输入和一个非常简单的信号一起,该信号决定了我们要求的输出形式。

在设计MultiModel时,很明显有一些研究领域(视觉,语言和音频)的某些元素,对于模型在相关任务中取得成功是及其重要的。谷歌研究院证明,这些计算原语(如卷积,注意力或专家混合层)可以显着提高模型在原本应用领域的性能,同时不会影响MultiModel在其他任务中的性能。MultiModel不仅可以在多个任务联合训练上取得良好的表现,而且在数量有限的任务上,也可能实际提高性能。令我们感到惊讶的是,即使这些任务来自完全不同的领域,这种现象(性能提高)仍然存在。例如,图像识别任务可以提高语言任务的性能。

重要的是,虽然MultiModel没有刷新最优性能记录,但它确实提供了一种新的思维,增加了团队对神经网络中多域多任务学习的了解,以及通过引入辅助任务(auxiliary task)来解决在数据有限时训练模型的问题。在机器学习中有一种说法:“最好的正则化方法就是引入更多的数据”;而在MultiModel中,这些数据可以通过多领域获取,因此比以前获取数据要更加容易。 MultiModel表明,与其他任务相结合的训练可以获得良好的效果,并能够在数据有限的情况下提供模型的性能。

关于多域机器学习的许多疑问尚待研究,谷歌研究院将继续致力于优化Multimodel,提高它的性能。为了使这项研究能够更快发展,MultiModel将在Tensor2Tensor库中开发。谷歌研究院认为,对来自多个领域的数据进行联合训练的协同模式将成为深度学习的下一个研究方向,并将最终突破狭义训练网络的限制。

via research.googleblog, AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

科学家提出超越传统机器学习的量子算法

来自瑞士、英国和新加坡的科学家提出了一种新的量子算法,其进行数据分析的速度可超越传统机器学习算法,相关成果已发表在《物理评论快报》上。 计算机“思考”的一种方法...

2829
来自专栏AI派

近邻推荐之基于物品的协同过滤

在了解了基于用户的协同过滤之后,还有基于物品的的协同过滤。它们的原理非常类似。在电商平台中经常看到“看了又看”,“看过它的人还看”等等推荐,这些推荐背后对应的算...

3475
来自专栏人工智能头条

微软亚洲研究院:计算机看懂视频的步骤及未来努力方向

1352
来自专栏企鹅号快讯

IBM Watson提出人机推理网络HuMaINs,结合人机两者优势

选自arXiv 机器之心编译 参与:刘晓坤、黄小天 人机交互可以用机器的优势弥补人类决策的非理性缺陷。近日,IBM Watson 研究中心联合多家研究机构提出了...

2049
来自专栏数据科学与人工智能

【机器学习】深度学习 vs 机器学习 vs 模式识别

作者:Tomasz Malisiewicz 【编者按】本文来自CMU的博士,MIT的博士后,vision.ai的联合创始人Tomasz Malisiewicz的...

2958
来自专栏镁客网

厉害了Facebook,最新计算机视觉每秒可训练4万张图片

1163
来自专栏专知

【下载】Python迁移学习实战书籍和代码《Hands-On Transfer Learning with Python》

【导读】英特尔数据科学家Dipanjan Sarkar等人最新撰写的Python迁移学习实战书籍《Hands-On Transfer Learning with...

4115
来自专栏数据科学与人工智能

机器学习与大数据风控

一个普遍的看法是,机器学习等人工智能技术会最先在金融领域落地。金融行业是最早实现信息化的行业,有丰富的数据积累,且对于用技术提升效率有更多的需求。 现在也有越来...

4318
来自专栏新智元

LeCun最新演讲:深度学习大革命来了,可微分编程潜力巨大

1494
来自专栏人工智能快报

科学家提出超越传统机器学习的量子算法

1589

扫码关注云+社区