首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【专家观点】肖涵:解读多模态AI的范式变革

 2022 年, AIGC成为人工智能最受瞩目的发展方向之一。AIGC全称为AI-Generated Content,即利用人工智能技术来生产内容,在创意、表现力、创作速度、迭代、 传播等方面都具有显著的技术优势,已经成为继PGC(专业生产内容)和UGC(用户生产内容)之后新型的内容创作方式。AIGC 的背后,是以人工智能技术为核心,多模态交互技术等多项关键技术共同整合加持而成。

在此背景下,云启种子被投「Jina AI」作为AIGC的先行者,Jina AI的产品已经囊括了跨模态、多模态、神经搜索和生成式 AI,涵盖了未来 AI 应用的很大一部分。其MLOps 平台帮助企业和开发者加速整个应用开发的过程,在这一范式转变中抢占先机,构建起着眼于未来的应用程序。

本文由 Jina AI 创始人肖涵为大家带来多模态 AI 技术的行业洞察分享。

|本文作者:肖涵博士,Jina AI 创始人兼 CEO

就在 2019 年的圣诞节前几天,我坐在一个狭小的会议室里,周围是我们种子风投公司的投资委员会。我们已经在办公室待了几个小时,来回地讨论。这是最后一轮令人紧张的路演,以确保我的神经搜索倡议获得所需的 200 万美元的孵化资金:Jina AI 的诞生就悬在一线,这是一个成败攸关的时刻。

其中一位从 2005 年就在纽约谷歌工作的合伙人问了我一个我永远不会忘记的问题:

"谁将是您最大的竞争者?"

“谷歌,Elastic,Algolia,……” 我自信地回答道,这是我早前准备过的问题。然后我咬紧牙关,只是等着他们问我那些无聊的陈词滥调的问题,比如“你怎么与谷歌竞争?”在他们回答之前,我补充说:“但更严峻的竞争可能来自一项不需要嵌入作为中间表示的技术 —— 一项端到端技术,它能直接返回您想要的结果。”

这项技术就是生成式人工智能,而神经搜索是判别式人工智能。

在那时,也就是在谷歌发布 BERT 的 15 个月后,生成式人工智能还不是可扩展且高质量搜索的答案。而神经搜索是一个灵活的框架,它可以轻松地使用密集的嵌入表示,并结合多个子任务,是当时搜索多模态数据的唯一现实的方法。

“人工智能已从单模态 AI 转向了多模态 AI”,这一点已成为行业共识,如下图所示:

在接下来的文章里,我们将回顾单模态 AI 的发展历程,看看这种范式转变是如何在我们眼下悄然发生的。

单模态人工智能

在计算机科学中,“模态”大致意思是“数据类型”。所谓的单模态 AI,就是将 AI 应用于一种特定类型的数据。这在早期的机器学习领域非常普遍。直至今日,你在看机器学习相关的论文时,单模态 AI 依然占据着半壁江山。

自然语言处理

我们从自然语言处理(NLP)开始回顾。早在 2010 年,我就发表了一篇关于 Latent Dirichlet Allocation(LDA)模型的改进 Gibbs sampling(吉布斯抽样)算法的论文。

Efficient Collapsed Gibbs Sampling For Latent Dirichlet Allocation, 2010

一些资深的机器学习研究人员可能还记得 LDA,这是一种用于建模文本语料库的参数贝叶斯模型。它将单词“聚类”成主题,并将每个文档表示为主题的组合。因此有人称其为“主题模型”。

从 2008 年到 2012 年,主题模型一直是 NLP 社区中最有效和最受欢迎的模型之一——它的火热程度相当于当时的 BERT/Transformer。每年在顶级 ML/NLP 会议上,许多论文都会扩展或改进原始模型。但今天回过头来看,它是一个相当 "浅层学习"的模型,采用的是一次性的语言建模方法。它假定单词是由多叉分布的混合物生成的。这对某些特定的任务来说是有意义的,但对其他任务、领域或模式来说却不够通用。

早在 2010-2020 年,像这样的一次性方法是 NLP 研究的常态。研究人员和工程师开发了专门的算法,每种算法虽然都擅长解决一项任务,但是也仅仅只能解决一项任务:

最常见的20种NLP任务

计算机视觉

相较于 NLP 领域,我进入计算机视觉 (CV) 领域要晚一些。2017 年在 Zalando 时,我发表了一篇关于 Fashion-MNIST 数据集的论文。该数据集是 Yann LeCun 1990 年原始 MNIST 数据集(一组简单的手写数字,用于对计算机视觉算法进行基准测试)的直接替代品。原始 MNIST 数据集对于许多算法来说过于简单 —— 逻辑回归、决策树等浅层学习算法树和支持向量机可以轻松达到 90% 的准确率,留给深度学习算法发挥的空间很小。

Fashion-mnist:用于基准机器学习算法的新型图像数据集示例,2017

Fashion-mnist:用于基准机器学习算法的新型图像数据集论文,2017

Fashion-MNIST 提供了一个更具挑战性的数据集,使研究人员能够探索、测试和衡量其算法。时至今日,超过 5,000 篇学术论文在分类、回归、去噪、生成等方面的研究中都还引用了 Fashion-MNIST,可见其价值所在。

但正如主题模型只适用于 NLP,Fashion-MNIST 也只适用于计算机视觉。它的缺陷在于,数据集中几乎没有任何信息可以用来研究其他模式。如果梳理2010-2020年间最常见的20个CV任务,你会发现,几乎所有任务都是单一模式的。同样的,它们每一个都涵盖了一个特定的任务,但也仅仅涉及一项任务:

语音和音频

针对语音和音频机器学习遵循相同的模式:算法是为围绕音频模态的临时任务而设计的。他们各自执行一项任务,而且只执行一项任务,但现在都在一起执行:

最常见的 20 项音频处理任务

我对多模态 AI 方面最早的尝试之一是我在 2010 年发表的一篇论文,当时我建立了一个贝叶斯模型,对视觉、文本和声音 3 种模态进行联合建模。经过训练后,它就能完成两项跨模式的检索任务:从声音片段中找到最匹配的图像,反之亦然。我给这两个任务起了一个很赛博朋克的名字:“Artificial Synesthesia,人机联觉”。

Toward Artificial Synesthesia: Linking Images and Sounds via Words, 2010

迈向多模态人工智能

从上面的例子中,我们可以看到所有的单模态 AI 算法都有两个共同的弊端:

任务只针对一种模态(例如文本、图像、音频等)。

知识只能从一种模态中学习,并应用在这一模式中(即视觉算法只能从图像中学习,并应用于图像)。

在上文中,我已经讨论了文本、图像、音频。还有其他模式,例如 3D、视频、时间序列,也应该被考虑在内。如果我们把来自不同模态的所有任务可视化,我们会得到一个下面立方体,其中各模态正交排列:

以一个立方体来表示单模态之间的关系,可以假定每个面代表一个单独模态的任务。

然而,多模态 AI 就像将这个立方体重新粘合成一个球体,最重要的不同点在于它抹去了不同模态之间的界限,其中:

任务在多种模式之间共享和传输(因此一种算法可以处理图像,文本和音频)

知识是从多种模式中学习并应用于多种模式(因此一个算法可以从文本数据中学习并将其应用于视觉数据。

多模态人工智能

多模态 AI 的崛起可归功于两种机器学习技术的进步:表征学习和迁移学习。

表征学习:让模型为所有模态创建通用的表征。

迁移学习:让模型首先学习基础知识,然后在特定领域进行微调。

如果没有表征学习和迁移学习的进步,想在通用数据类型上实行多模态是非常难以落地的,就像我 2010 年的那篇关于声音-图像的论文一样,一切都是纸上谈兵。

2021 年,我们看到了 CLIP,这是一个关联图像和文本之间对应关系的模型;2022 年,我们看到 DALL·E 2 和 Stable Diffusion,根据 prompts 文本生成对应高质量的图像。

由此可见,范式的转变已然开启:未来我们必将看到越来越多的AI应用将超越单个模态,发展为多模态,并巧妙利用不同模态之间的关系。随着模态之间的界限变得模糊,一次性的方法也不再适用了。

从单模态 AI 到多模态 AI 的范式转变

搜索和生成的二元性

搜索是过拟合的生成;生成是欠拟合的搜索

搜索和生成是多模态 AI 中的两项基本任务,那他们的关系究竟是什么?

搜索和生成是一枚硬币的两面,是一种二元性。

为了理解这一点,让我们以 text-to-image 和 image-to-image 为例,看看以下两个函数:

def foo(query: str) -> List[Image]:

...

def bar(query: Image) -> List[Image]:

...

那么,和是什么?

当它们是搜索时,  表示以文搜图(CBIR), 表示以图搜图。

当它们是生成时,  表示从文本提示 Prompt 到 AI 生成图像, 指的是从初始图片到 AI 生成图像。

那么,你能分辨下面的区别吗?搜索结果是哪个,AI 生成的结果是哪个?以及这真的重要吗?搜索是找到你需要的东西;AI 生成是制作你需要的东西。如果一个系统返回了你需要的结果,它是来自搜索还是 AI 生成,这真的重要呢?

"嗯,但是数据库的完整性确实很重要," 你可能会反驳。"因为我不想在我的商品搜索结果中看到虚构的商品图像。" 有时人们确实关心数据库的准确性,但解决它很容易,我们只需要过拟合一个生成式人工智能模型。我们可以让模型记住它在训练数据中看到的所有内容,失去所有普遍性和泛化能力。它只会返回训练数据中的内容。你看,这样你就拥有了一个可靠的搜索系统。

生成式人工智能会使这种压抑性限制得到缓解。让模型即兴创作,让我们拥抱随机性,让感觉胜过保真性。生成式 AI 只是一个欠拟合的搜索系统。

硬币不断旋转着,它最终会落在哪边?它还重要吗?

总结

我们正处于人工智能新时代的前沿,多模态学习将很快占据主导地位。这种类型的学习结合了多种数据类型和模态的学习,有可能彻底改变我们与机器互动的方式。到目前为止,多模态 AI 已经在计算机视觉和自然语言处理等领域取得了巨大成功。在未来,毋庸置疑的是,多模态 AI 将产生更大的影响。例如,开发能够理解人类交流的细微差别的系统,或创造更逼真的虚拟助手。总而言之,未来拥有万种可能,而我们才只接触到冰山一角!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20221220A06J1I00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券