专栏首页arxiv.org翻译专栏超越视觉-语言多任务学习的局限

超越视觉-语言多任务学习的局限

通过利用数百个实时电子商务网站收集的大量产品数据,我们构建了1000个独特的分类任务,这些任务共享类似结构的输入数据,包括文本和图像。这些分类任务的重点是学习不同电子商务网站的产品层次,导致很多电子商务网站之间存在关联。我们采用多模态变压器模型,利用多任务学习(MTL)协调解决这些任务。在最初的100个任务数据集上进行了广泛的实验,揭示了“大规模MTL”(即使用

≥100任务)。从这些实验中,我们得到了最终的统一方法,该方法由最佳实践和新的建议组成,例如DyPa(用于自动分配的简单启发式方法)

可以从额外容量中受益的任务的特定任务参数。使用我们的大规模MTL方法,我们成功地训练了一个单一的模型,在我们的数据集中的所有1000个任务

最小任务特定参数,从而表明,在当前MTL的努力之外,有可能扩展几个数量级。

Exceeding the Limits of Visual-Linguistic Multi-Task Learning

By leveraging large amounts of product data collected across hundreds of live e-commerce websites, we construct 1000 unique classification tasks that share similarly-structured input data, comprised of both text and images. These classification tasks focus on learning the product hierarchy of different e-commerce websites, causing many of them to be correlated. Adopting a multi-modal transformer model, we solve these tasks in unison using multi-task learning (MTL). Extensive experiments are presented over an initial 100-task dataset to reveal best practices for “large-scale MTL” (i.e., MTL with

≥ 100 tasks). From these experiments, a final, unified

methodology is derived, which is composed of both best practices and new proposals such as DyPa, a simple heuristic for automatically allocating

task-specific parameters to tasks that could benefit from extra capacity. Using our large-scale MTL methodology, we successfully train a single model across all 1000 tasks in our dataset while using

minimal task specific parameters, thereby showing that it is possible to extend several orders of magnitude beyond current efforts in MTL.

Cameron R. Wolfe, Keld T. Lundgaard

https://arxiv.org/pdf/2107.13054.pdf

原文链接:https://arxiv.org/pdf/2107.13054.pdf

原文作者:Cameron R. Wolfe, Keld T. Lundgaard

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Pythia:Facebook最新开源的视觉、语言多任务学习框架

    项目地址:https://github.com/facebookresearch/pythia

    机器之心
  • 业界 | Facebook开源视觉、语言多任务深度学习框架——Pythia

    AI 科技评论按:Facebook 人工智能研究院最近推出 Pythia ——一个深度学习框架,支持视觉和语言领域的多任务处理。其模块化的即插即用设计能够帮助使...

    AI科技评论
  • 商汤及联合实验室入选论文重点解读 | ECCV 2018

    9月8日-14日,备受瞩目的2018欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开, ECCV两年举办一次,与CVPR、ICCV共称为计算机视觉领域三...

    量子位
  • Transformer又来搞事情!百万像素高清图轻松合成,效果迷人

    你上一次听到用Transformer生成图像,应该还是iGPT刚问世的时候吧?当时OpenAI用GPT-2来分类和补全图像,取得了令人惊艳的成果。遗憾在于,iG...

    AI科技评论
  • 破局!Alan Yuille:深度学习关键在于克服组合爆炸

    自2011年AlexNet在ImageNet竞赛中“封神”以来,计算机视觉领域的所有突破几乎都来自深度神经网络。

    新智元
  • AI“读图会意”首超人类!阿里达摩院刷新全球机器视觉问题纪录

    给大家出一道视觉问答题:在下面这张图片中,根据有礼服装饰的小熊玩具照片推理出这些玩具用来做什么的?

    AI科技评论
  • ECCV 2020 | 腾讯 AI Lab 16篇入选论文解读

    来自Tencent AI实验室。本文主要介绍 ECCV 2020 中腾讯 AI Lab 16篇入选论文。

    深度学习技术前沿公众号博主
  • 【AAAI 2018】多种注意力机制互补完成VQA(视觉问答),清华大学、中国香港中文大学等团队最新工作

    【导读】近日,针对VQA领域中不同注意力机制(如基于自由区域的注意力和基于检测的注意力)各有利弊的现状,来自清华大学、香港中文大学和华东师范大学的学者发表论文提...

    WZEARW
  • ECCV 2018|商汤37篇论文入选,为你解读精选论文(附链接+开源资源)

    【导读】9 月 8 日-14 日,每两年举办一次的 2018 欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开,本次会议总共收到了 2439 篇有效的论...

    AI科技大本营
  • 深度学习计算机视觉极限将至,我们该如何找到突破口?

    研究人员表示,目前形式的深度神经网络似乎不太可能是未来建立通用智能机器或理解思维/人类大脑的最佳解决方案,但深度学习的很多机制在未来仍会继续存在。

    机器之心
  • 【AIDL专栏】罗杰波: Computer Vision ++: The Next Step Towards Big AI

    “人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对...

    马上科普尚尚
  • CVPR2019满分文章 | 强化跨模态匹配和自监督模仿学习(文末源码)

    首先,祝贺我党在3月成功举行了“两会”,希望我党越来越强大。在接下来将会有好几场关于IEEE会议,也会着重指向接下来人工智能的发展风向标,有兴趣的同学可以持续关...

    计算机视觉研究院
  • 深度学习计算机视觉极限将至,我们该如何找到突破口?

    本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载

    小小詹同学
  • 京东副总裁何晓冬:GPT-3后,人机对话与交互何去何从?| CCF-GAIR 2020

    8月7日-8月9日,2020年全球人工智能和机器人峰会(简称“CCF-GAIR 2020”)在深圳如期举办!CCF-GAIR由中国计算机学会(CCF)主办,香港...

    AI科技评论
  • 深度学习领域有哪些瓶颈

    深度学习是近年来人工智能热潮的原因,它的出现在很多方面都作出了突破,包括在图像、NLP以及语音等领域都有很多问题取得很大的突破,但它目前也存在一些问题和瓶颈需要...

    kbsc13
  • 2020年这10大ML、NLP研究最具影响力:为什么?接下来如何发展?

    2020 年因为新冠疫情,很多人不得不在家工作和学习,大量人工智能学术会议也转为线上。不过在去年我们仍然看到了很多 AI 技术领域的进展。DeepMind 研究...

    机器之心
  • DeepMind 开源感知器 IO,一种通用深度学习模型架构,可处理广泛的数据和任务

    最近DeepMind 开源了 Perceiver IO——一种通用的深度学习模型架构,可以处理许多不同类型的输入和输出。这种 Transformers 的“插入...

    代码医生工作室
  • 讨论 | Reddit热门话题:你是否也对NLP的现状感到失望?

    机器之心
  • 学前端格局要大,不能被限制在“前端”里

    前端确切的讲,只有html、css、javascript三部分,而且不管是实际工作岗位,还是培训机构,也确实是先学会这三种语言。但是一直以来关注我这个微信号的朋...

    web前端教室

扫码关注云+社区

领取腾讯云代金券