微软推出预训练模型VLP，可通过模仿人类来理解图片与视频内容

文章来源：infoq陈思

近日，微软官方技术博客上发布了一篇文章，文章表明：微软的AI系统正在通过大规模的预训练和统一的架构来扩展场景和语言理解。该系统通过模仿人类对世界了解的方式来训练图像-文本对。微软方面表示，其单模型编码-解码器视觉语言预训练（VLP）模型既可以生成图像描述，又可以回答有关场景的自然语言问题，为将来可能达到人类同等水平的框架奠定了基础。

图片来源：Microsoft Research Blog

人类从小就开始学习，了解周围的世界是一项必备的生存技能。人们通过观察环境、与周围环境以及其他人的互动直接或间接地学到了很多东西：比如一个叔叔指着一块闪亮的红色水果并讲述了他的侄子是苹果；或者一位老师读了一本关于毛毛虫的书，并告诉他毛毛虫最后变成了蝴蝶；又或者一个孩子观察着她的父母在谈论寄信的事情，以及寄出邮件的邮递员，她看到父母拿出了白色信封，上面印有刻字和邮票等等。

即使周围的环境发生新的变化，人类也能通过经验来理解这些变化。一枝花插在花瓶里，而后院的花园里种满了花，孩子们能够利用常识将这两者联系起来，并随着信息的获取而调整意识里旧的关联，利用他们的内在常识来弄清楚他们遇到的事情。人类与物理环境、照片和书籍等物品的互动越多，就越能更好地理解和使用语言来解释周围环境中存在的事物和发生的事情。

可是，对于机器而言，场景理解和语言理解很难训练，特别是在弱监督的条件下。如果没有确切的标签来学习场景中的所有组件，机器将难以获得扎实的基础，以建立需要了解场景和语言的其他功能。收集必要的标签通常代价很高，即使好的标签也只能提供对场景的合理理解，而不能提供语言信息。

那么，主要的问题就变成了：是否可以利用网络上可用的大量图文对，来模仿人类改善场景和语言理解的方式？能否建立一个统一机器功能的模型，以在视觉语言生成任务和理解任务上都表现出色？

在微软的论文《用于图像标注和VQA的统一视觉语言预训练》中，研究人员提出了一个统一的单模型编码-解码器系统，该系统能够完成两个不同的任务：生成图像场景描述和视觉问题解答（VQA）。

生成场景描述并回答有关场景的自然语言问题，可以很好地指示系统在场景理解和语言理解方面的整体有效性。研发人员相信该模型（又被称为视觉语言预训练（VLP）模型）是率先使用来自语言和视觉的数据来显示针对不同下游任务的重大改进的模型之一。

目前该模型已经在GitHub上开源，已使用三百万个图文对进行了预训练。微软方面表示：如果可以进一步利用文本数据来训练，并充分利用可公开获得的视觉数据集——比如带有标注的大型电影集，以及基于图像和视频的人类对话，或者在社交媒体上发布的图像或视频下的评论，或许将有机会看到机器场景和语言理解达到人类平等。

微软研究人员针对通用的视觉语言预培训开发了统一的编码-解码器模型，并对它们进行了微调，以进行图像标注和视觉问题解答。通过视觉语言预训练，与随机初始化或仅使用语言的预训练相比，下游任务的训练速度和整体准确性都得到了显著提高。

在当前模型上进行改进

现有的图像标注和VQA方法只有质量低下的标注和推理功能。这主要是由于三个原因：

上下文利用不充分。这是一项非常重要的功能，尤其是当给定场景中存在各种对象、关系和概念时，上下文的有效性不足。此外，该模型应该能够识别重要的组成部分，以准确描述图像并在给定自然语言问题的情况下对它们进行推理。
没有利用大规模的训练数据进行预训练。这对于学习语言和视觉的通用表示形式至关重要，对于许多下游任务尤其有用，而不仅仅是对图像标注和VQA有效。
体系结构在各种任务集上都设计得不能很好地执行。在这些任务集上，例如VQA和信息检索需要语言和视觉对齐，并且使用单个模型执行语言生成。

而微软的VLP模型试图通过以下架构克服上述限制：

部署共享的多层变压器网络（multi-layer transformer network）进行编码和解码；
针对双向和序列到序列预测进行优化；
在自我关注机制中结合特殊的蒙版，以使单个模型可以在给定场景上执行生成和理解任务。

当前大多数对模型进行预训练以处理多个任务的方法中，采用的是分别对编码器和解码器进行预训练，或者仅对它们的编码器进行预训练。但是微软的研发人员将编码器和解码器一起预训练，并针对双向和序列到序列的预测进行优化，这样做可以创建更好地对齐的编码-解码器表示形式，从而允许将相同模型用于不同的任务，例如图像标注和VQA。

测试与评估

研发人员在三个具有挑战性的基准上评估了VLP对图像进行标注和推理的能力：COCO、Flickr30K和VQA 2.0。结果是：VLP在几个图像标注和VQA指标上的表现均优于基线模型和最新模型，在训练过程中，VLP被证明更准确，收敛速度更快。

对COCO和VQA 2.0的定性结果（如下图2所示）表明，VLP不仅可以在生成标注时键入更多细节（如第一张照片的标注所示），而且还可以回答有关图像的挑战性问题。以前仅接受过语言训练的模型无法正确回答此类问题。例如，VLP能够在第一张照片中识别出不同人的服装设计相似性，以及第二张照片中的主角并不是在自拍等等。

图2：上表显示了COCO和VQA 2.0的定性示例。第一列表示来自COCO验证集的图像；第二列显示了五个人工标注；第三列表示由三种不同模型生成的标注及其对应的CIDEr分数，这是一种用于评估标注质量的指标，只有Unified VLP具有视觉语言预训练；最后一列显示VQA问题和与图像相关联的正确答案以及由模型生成的答案，前两个是成功案例，后两个是失败案例。

该研发团队表示：未来将继续加强VLP架构和预训练方法，同时在预训练和一系列更多样化的下游任务中添加更多数据。

发表于: 2019-10-102019-10-10 17:04:38
本文为 InfoQ 中文站特供稿件
首发地址：https://www.infoq.cn/article/1zNxEvHAbGEsIsHEs0DG
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

微软推出预训练模型VLP，可通过模仿人类来理解图片与视频内容

在当前模型上进行改进

测试与评估

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐