首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

独家|这可能会引领通用AI的下一个重大突破

作者:Karen Hao

翻译:张一然

校对:欧阳锦

本文约2500字,建议阅读8分钟。

研究者们正在教一个大型的语言模型如何去“看”以帮助他们更好的理解这个世界。

标签:自然语言处理,计算机视觉

您可能已经听我们说过无数次了:可以生成类似人类语言的大型人工智能模型GPT-3是一个奇迹,也是一个大型的海市蜃楼。您可以用一个简单的技巧来辨别:询问它绵羊的颜色,它回答“黑色”的次数和“白色”一样多——这反映出“黑色绵羊”这一短语出现在我们日常用语中。

这就是语言模型的一个问题,因为他们仅在文本上进行训练,缺乏常识。最近来自北加利福尼亚大学的研究者,Chapel Hill设计了一个新的技术来解决这一问题。他们称该技术为vokenization, 该技术赋予了诸如GPT3这样的模型“看”的能力。

这并非人类第一次尝试将语言模型和计算机视觉相结合,实际上这是一个快速发展的AI领域。产生这种想法是因为两种类型的AI都有不同的优势。像GPT-3这样的语言模型是通过无监督学习进行训练的,该过程不需要手动数据标记,因此易于扩展。相比之下,像目标识别系统这样的图像模型可以直接从现实中学习到更多。换句话说,他们学到的东西并不依赖于文本所提供的内容。他们可以从绵羊的照片中“看到”他们实际上是白色的。

可以解析语言和视觉输入的AI模型也有非常实际的用途。例如,如果我们要构建机器人助手,则他们需要计算机视觉来在世界中进行导航,需要语言来与人类进行交流。

但是,将两种类型的AI结合起来说起来容易做起来难。这并非简单地将现有语言模型与现有目标识别系统装订在一起。它需要使用包含文本和图像的数据集从头开始训练新模型,该数据集也称为视觉语言数据集。

获得此类数据集的最常用方法是收集带有描述性标题的图像集合。例如,下面的图片的标题为“一只橘猫坐在准备打包的手提箱里。” 这与典型的图像数据集不同,后者仅用一个名词来标记下面的图片,例如“猫”。因此,一种视觉语言数据集不仅可以教一个AI模型如何识别目标,而且还能使用动词和介词来告诉模型目标之间是如何相互影响和相互作用的。

但是制作这种数据集非常耗时。这就是为什么现有的视觉数据集如此微不足道。一个常用的纯文本数据集,如英文Wikipedia(实际上几乎包括所有英语Wikipedia条目),可能包含近30亿个单词。像MS COCO这样的视觉语言数据集仅包含700万。根本没有足够的数据来训练AI模型以提供有用的信息。

“Vokenization”解决了这个问题,它使用无监督学习方法将MS COCO中的少量数据缩放到英文Wikipedia的大小。在当今用于评估AI语言理解力最困难的测试中,经过该训练集训练的视觉语言模型优于目前最好的模型。

自然语言处理初创公司HuggingFace的联合创始人兼首席科学官托马斯·沃尔夫(Thomas Wolf)表示:“不进行大的变动,你无法在这些测试上超过最先进的水平。”“这不是简单的测试。这就是为什么这令人如此兴奋。”

从token到voken

首先让我们理清这些术语,究竟什么是voken?

在AI语言中,用于训练语言模型的单词称为标记(token)。因此,UNC研究人员决定将视觉语言模型中与每个标记相关的图像称为“voken”。为每个token查找voken的算法叫Vokenizer,整个过程称为vokenization。

这样做的目的不仅是为了显示AI研究人员有多喜欢编造单词。(他们的确如此)。这也有助于理解vokenization背后的基本思想。UNC研究人员不是从图像数据集开始并手动写句子作为标题(这是一个非常缓慢的过程),而是从语言数据集开始,并使用无监督学习来将每个单词与相关图像进行匹配(稍后会详细介绍)。这是一个高度可扩展的过程。

因此无监督学习技术才是本论文最大的贡献,即如何为每个单词找到相关图像。

Vokenization

让我们回到GPT-3。GPT-3是transformer语言模型家族的一员,2017年transformer的出现带了重大的突破,因为其将无监督学习应用到自然语言处理上。transformer通过观察词在上下文中的用法来学习人类语言的模式,然后根据该上下文为每个词创建数学表示,称为“词嵌入”。例如,“猫”一词的嵌入可能表明,它经常在“喵”和“橘”两词周围使用,而在“树皮”或“蓝色”等词周围较少使用。

这就是transformer如何近似的表达词的含义,以及GPT-3如何编写类似人类的句子。它部分地依靠这些嵌入来告诉它如何将单词组合成句子,将句子组合成段落。

有一种并行技术也可以用于图像。它不通过扫描文本来查找单词使用模式,而是扫描图像以查找视觉模式。比如说它列出了猫出现在床上而不是树上出现的频率,并利用该上下文信息创建了‘猫’嵌入。

UNC研究人员的想法是,他们应该在MS COCO上同时使用两种嵌入技术。他们将图像转换为视觉嵌入,将标题转换为词嵌入。这些嵌入的真正精巧之处在于可以将它们嵌入三维空间中,并直接看到它们之间的关系。与词嵌入紧密相关的视觉嵌入会在图中显示得更近。换句话说,视觉猫嵌入(理论上)应与基于文本的猫嵌入重叠。这很酷。

您应该可以看到下一步如何走。一旦将所有嵌入进行图形化表示并与其他嵌入进行比较和关联,就可以轻松地将图像(vokens)与单词(tokens)进行匹配。请记住,由于图像和单词是根据其嵌入进行匹配的,因此在上下文中他们也是匹配的。当一个词有完全不同的含义时,这会很有用。该技术通过为词的每个实例找到不同的voken来成功地解决这一问题。

例如:

Hereis hercontact.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201125A0B4Q100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券