选自National Science Review 作者:张宇、杨强 机器之心编译 参与:Panda 多任务学习是一个很有前景的机器学习领域,相关的理论和实验研究成果以及应用也在不断涌现。近日,香港科技大学计算机科学与工程系的杨强教授和张宇助理教授在《国家科学评论(National Science Review)》2018 年 1 月份发布的「机器学习」专题期刊中发表了题为《An overview of multi-task learning》的概述论文,对多任务学习的现状进行了系统性的梳理和介绍。机器之心
现在大多数机器学习任务都是单任务学习。对于复杂的问题,也可以分解为简单且相互独立的子问题来单独解决,然后再合并结果,得到最初复杂问题的结果。这样做看似合理,其实是不正确的,因为现实世界中很多问题不能分解为一个一个独立的子问题,即使可以分解,各个子问题之间也是相互关联的,通过一些共享因素或共享表示(share representation)联系在一起。把现实问题当做一个个独立的单任务处理,忽略了问题之间所富含的丰富的关联信息。多任务学习就是为了解决这个问题而诞生的。把多个相关(related)的任务(task)放在一起学习。这样做真的有效吗?答案是肯定的。多个任务之间共享一些因素,它们可以在学习过程中,共享它们所学到的信息,这是单任务学习所具备的。相关联的多任务学习比单任务学习能去的更好的泛化(generalization)效果。
深度学习模型通常需要大量有标签数据才能训练出一个优良的分类器。但是,包括医学图像分析在内的一些应用无法满足这种数据要求,因为标注数据需要很多人力劳动。在这些情况下,多任务学习(MTL)可以通过使用来自其它相关学习任务的有用信息来帮助缓解这种数据稀疏问题。
编者按:《国家科学评论》于2018年1月发表“机器学习”特别专题,由周志华教授组织并撰写文章。专题内容还包括对AAAI前主席Tom Dietterich的访谈,徐宗本院士、杨强教授、朱军博士、李航博士、张坤博士和Bernhard Scholkopf等人的精彩文章。
以往多智能体多任务强化学习方法通常依赖多任务同时采样学习或迁移学习方法实现多智能体强化学习策略的多任务泛化能力,但该过程导致了大量的样本开销,且无法应对多智能体系统中随智能体数目和目标变化所导致的海量任务泛化问题。
基于神经网络的多任务学习已经过成功应用内许多现实应用中,比如说之前我们介绍的阿里巴巴基于多任务联合学习的 ESMM 算法,其利用多任务学习解决了 CVR 中样本选择偏差和样本稀疏这两大问题,并在实际应用场景中取得了不错的成绩。
在今年年初,微软发布了一个多任务自然语言理解模型,它在通用语言理解评估基准 GLUE 上取得了当时最好的效果:11 项 NLP 基准任务中有 9 项超过了 BERT。至此,各种 NLP 预训练方法都被提了出来,GLUE 基准也出现越来越多的新研究。
经过五个月的开发和场景打磨,孟子多任务模型正式开源,提供出色的 Zero-Shot 及 Few-Shot 能力,以 0.22B 的轻量化模型在零样本学习 ZeroCLUE 和小样本学习权威榜单 FewCLUE 榜单均排名第一,大家可通过 Hugging Face Model Hub 或 GitHub 下载使用(链接见下文)。
每天给你送来NLP技术干货! ---- 作者:frank 链接:https://zhuanlan.zhihu.com/p/439193124 多任务学习算法系列的主要内容是回顾和总结自己2019-2021间在深度学习多任务学习算法(multitask)的工业实践和遇到的常见问题,欢迎更多同学讨论和指正,同时也宣传一波我们组在推荐方向的工作成果——大规模推荐算法库PaddleRec(github.com/PaddlePaddle),欢迎大家点赞,关注和讨论。 第一章首先介绍多任务的基本概念和工业实践中的动
本文介绍的论文题目是:《Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts》 论
当然不仅仅是NLP和推荐系统,最近CV和强化学习使用多任务学习进行创新的研究也是非常多的,但由于笔者对于CV和强化学习的多任务学习理解太浅,本文在谈多任务学习的时候更多会用NLP和推荐系统中的模型来举例和分析。
深度学习算法在各个领域取得了巨大的成功,但在大多数情况下,我们只关注单个任务的解决方案。然而,在现实世界中,往往存在多个相关任务需要同时解决。多任务学习(Multi-task Learning)就是一种能够同时学习多个相关任务的深度学习方法,它可以通过共享模型参数来提高整体性能,并且在数据集有限的情况下能够更好地泛化。
今天跟大家聊一聊多任务学习。多任务学习目前已经成为很多场景的基础模型结构,从最开始谷歌提出的MMoE,到后续腾讯提出的PLE等,多任务学习网络结构的发展非常迅速。
今天分享的百度在SIGIR2021上中稿的一篇short paper,论文提出了结合门控机制的多任务学习模型(Gating-Enhanced Multi-Task Neural Networks,简称GemNN),一起来看一下。
提升模型性能的方法有很多,除了提出过硬的方法外,通过把神经网络加深加宽(深度学习),增加数据集数目(预训练模型)和增加目标函数(多任务学习)都是能用来提升效果的手段。(别名Joint Learning,Learning to learn,learning with auxiliary task....等)
大家在做模型的时候,往往关注一个特定指标的优化,如做点击率模型,就优化AUC,做二分类模型,就优化f-score。然而,这样忽视了模型通过学习其他任务所能带来的信息增益和效果上的提升。通过在不同的任务中共享向量表达,我们能够让模型在各个任务上的泛化效果大大提升。这个方法就是我们今天要谈论的主题-多任务学习(MTL)。
ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件,做了中文翻译和注释,并制作成了GIF动图!视频和课件等资料的获取方式见文末。
而不是以前将这些学习目标分离到不同网络模块中的方法。这种统一的方法不仅减少了对细致的经验结构设计的需求,而且显著增强了多任务网络的表示学习能力,因为整个模型能力都致力于同时优化这三个目标。 TaskPrompt引入了一种基于Cityscapes-3D数据集的新的多任务基准,该基准要求多任务模型同时生成单目3D车辆检测、语义分割和单目深度估计的预测。这些任务对于实现对视觉场景的2D-3D联合理解至关重要,特别是在自动驾驶系统的开发中。 在这个具有挑战性的基准上,与单任务最先进的方法相比,本文的多任务模型表现出了强大的性能,并在具有挑战性3D检测和深度估计任务上建立了新的最先进的结果。
WWW 2022已公布录用论文,接收323篇/投稿1822篇,录用率为17.7%,完整录用论文列表见https://www2022.thewebconf.org/accepted-papers/
代码链接:https://github.com/choosewhatulike/sparse-sharing
本文介绍的文章题目是:《Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks》
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
多任务学习(Multitask Learning)是迁移学习的一种方式,通过共享表示信息,同时学习多个相关任务,使这些任务取得比单独训练一个任务更好的效果,模型具有更好的泛化性。在深度学习模型中,多任务学习的最直接实现方法是多个Task共享底层的多层网络参数,同时在模型输出层针对不同任务配置基层Task-specific的参数。这样,底层网络可以在学习多个Task的过程中从不同角度提取样本信息。然而,这种Hard Parameter Sharing的方法,往往会出现跷跷板现象。不同任务之间虽然存在一定的关联,但是也可能存在冲突。联合训练导致不相关甚至冲突的任务之间出现负迁移的现象,影响最终效果。为了解决Hard Parameter Sharing的弊端,学术界涌现了如多专家网络(Multi-expert Network,MoE)等多种解决深度学习中多任务学习问题的方法,是学术界一直以来研究的热点,在工业界也有诸多应用。本文从最基础的多任务学习开始,梳理了近几年来7篇多任务学习顶会相关工作,包括Hard/Soft Parameter Sharing、参数共享+门控、学习参数共享方式等建模方式。
药物发现工作中可用于训练计算模型的数据集通常很少。标记数据的稀疏可用性是人工智能辅助药物发现的主要障碍。解决该问题的一种方法是开发可以处理相对异构和稀缺数据的算法。迁移学习是一种机器学习方法,可以利用其他相关任务中现有的,可推广的知识来学习带有少量数据的单独任务。深度迁移学习是药物发现领域最常用的迁移学习模型。本文概述了迄今为止转移学习和药物发现的相关应用。此外,它为药物发现转移学习的未来发展提供了前景。
距笔者上次提出NFwFM点击率预估模型,并覆盖美图秀秀、美拍等推荐场景已经过去半年。算法钻研如逆水行舟,不进则退。用户和公司越来越高的期望也要求我们不断进步。
来源:DeepHub IMBA本文约2600字,建议阅读5分钟本文介绍了多任务学习中的网络架构与梯队归一化。 在计算机视觉中的单任务学习已经取得了很大的成功。但是许多现实世界的问题本质上是多模态的。例如为了提供个性化的内容,智能广告系统应该能够识别使用的用户并确定他们的性别和年龄,跟踪他们在看什么,等等。多任务学习(Multi-Task Learning, MTL)可以实现这样的系统,其中一个模型在多个任务之间分配权重,并在一次正向传递中产生多个推理。 多任务学习中的优化 因为有多个任务同时运行所以M
本文为 TKDE2020 的文章《Multi-task Learning for Recommendation over Heterogeneous Information Network》前半部分的解读。
近期,随着特斯拉等一众智能车厂发力,智能驾驶已成为消费者在选购车型中重要的考量维度。在智能驾驶技术研发中,受到关注度最高的是远场感知系统,非常容易获取到相关的技术资料。相对而言,近场感知受到的关注少很多,但是技术复杂度并没有因此降低,尤其是在泊车场景,近场感知能力尤为重要。缘于此,笔者近期会分享关于环视近场感知技术的系列工作,希望对该领域的技术同僚有所帮助。
论文名称:Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
不能,因为之前所写的程序都是单任务的,也就是说一个函数或者方法执行完成另外一个函数或者方法才能执行,要想实现这种操作就需要使用多任务。 多任务的最大好处是充分利用CPU资源,提高程序的执行效率。
在计算机视觉中的单任务学习已经取得了很大的成功。但是许多现实世界的问题本质上是多模态的。例如为了提供个性化的内容,智能广告系统应该能够识别使用的用户并确定他们的性别和年龄,跟踪他们在看什么,等等。多任务学习(Multi-Task Learning, MTL)可以实现这样的系统,其中一个模型在多个任务之间分配权重,并在一次正向传递中产生多个推理。
论文标题: Adaptively Weighted Multi-task Deep Network for Person Attribute Classification
百度于今年早些时候发布了其最新的NLP架构ERNIE 2.0,在GLUE基准测试中的所有任务上得分均远高于XLNet和BERT。NLP的这一重大突破利用了一项被称为“连续增量式多任务学习”的创新技术。在本文中,我们将直观地解释“连续多任务学习”的概念,构建ERNIE 2.0模型,并解决有关ERNIE 2.0结果的疑虑。
统计学中最令人震惊的结论之一是 Stein 悖论。Stein(1956)认为,若要估计高斯随机变量,最好是从所有样本中估计三个或三个以上变量的均值,而不是分别单独进行估计,即使这些高斯分布是相互独立的。Stein 悖论是探索多任务学习(MTL)(Caruana,1997)的早期动机。多任务学习是一种学习范式,其中来自多任务的数据被用来获得优于独立学习每个任务的性能。MTL 的潜在优势超出了 Stein 悖论的直接含义,因为即便是真实世界中看似无关的任务也因数据共享的过程而存在很强的依赖性。例如,尽管自动驾驶和目标操纵看似无关,但相同的光学规律、材料属性以及动力学都对基础数据产生了影响。这启发人们在学习系统中使用多任务作为归纳偏好。
在多任务学习中,你开始就使用一个神经网络同时做几个任务,并且希望这些任务里的每一个都可以帮助到其他的任务。
---- 新智元报道 来源:Google AI 编辑:LRS 【新智元导读】对于多任务场景来说,最大的难点就在于如何找到多个任务之间相互关联的部分。Google Brain团队在NeurIPS 2021上发表了一篇论文,提出一个亲和力指标,能将训练速度提升32倍,直接少训练2000个小时,相当于省了6200美元! 通常情况下,一个机器学习模型一次学习过程中只针对一个任务进行训练。例如语言模型的训练只有一个任务,就是在给定单词的上下文来预测下一个单词的概率,目标检测的任务就是识别图像中所有可能存在的
最近归辰在多任务学习(Multi Task Learning, MTL)方面做了一些实质性的工作,就顺手整理了一下,希望大家感兴趣的可以看看,关于细节方面欢迎交流。
本期给大家介绍的是康奈尔大学Fei Wang教授课题组在AAAI-19上发表的一篇关于医学命名实体识别和标准化的文章。该文章提出了一种新的深层神经多任务学习框架,该框架采用显示反馈策略来联合建模医学命名实体识别和标准化,并将这两个分层任务转化为并行多任务,同时保持了任务之间的相互联系,使得实体识别和标准化模型的性能都得到了很大的提升。
随着预训练技术的到来,作为深度学习重要应用领域之一,自然语言处理也迎来了新的春天。通过使用预训练模型可以大大减少模型训练对数据的依赖,仅需要使用少量数据在下游任务中微调(Fine-tune),就可以获得效果非常优秀的模型。不过如果希望获得更好的效果,该怎么办呢?有人也许会说:多训练几个epoch嘛!但是对于这种单一任务且有监督学习的微调方式,单独增加训练epoch并不是一个好方法,过度的训练容易损害模型的泛化能力,发生过拟合现象。
本文介绍由Google Research和DeepMind合作发表于arXiv上的研究工作。尽管近年来多任务学习和迁移学习在自然语言处理(NLP)领域取得了成功,但很少有工作系统地研究在预训练期间扩大任务数量的效果。本文提出了一个由107个有监督NLP任务组成、跨越不同领域和任务族的庞大集合EXMIX(Extreme Mixture)。利用EXMIX,作者研究了迄今为止规模最大的多任务预训练的效果,并分析了常见任务族之间的协同训练迁移。分析表明,为多任务预训练手动策划一个理想的任务集并不简单,而且多任务扩展本身就能极大地改善模型。最后,作者提出了一个使用自监督C4和有监督EXMIX的多任务目标进行预训练的模型ExT5。广泛的实验表明,ExT5在SuperGLUE、GEM、Rainbow、Closed-Book QA任务和EXMIX以外的几个任务上都优于强大的T5基线,而且ExT5在预训练时也明显提高了采样效率。
我们平时做项目/竞赛的时候,一般都是单指标优化的问题,很多时候我们模型的评估指标也是单个指标,例如AUC, GAUC, FP等等。而我们在做此类问题的时候都是尽可能去直接优化这些指标,如果不行就会尝试着看能不能设计某种近似的优化函数来对其优化,最后再使用一堆模型的集成来达到我们的目的,一般这么做就可以带来非常好的效果。
文 | JayJay 前几天,JayJay刷到一篇NB的paper《Multitask Prompted Training Enables Zero-Shot Task Generalization》,共有42位作者参与,实属巨制: 这篇论文由Hugging Face牵头,如果用一连串数字来概括这篇论文,我们就会发现“大力真的可以创造奇迹”: 一共收集了171个多任务数据集,总共创建了1939个prompt,平均每个数据集有11.3个prompt; 共有来自8个国家、24家机构的36位人员贡献prompt
【导读】如今 ICML(International Conference on Machine Learning,国际机器学习大会)已经成为有巨大影响力的会议,每年都会为我们带来很多关于机器学习趋势与发展方向等有意义的分享。今年的 ICML 有三个讨论会都重点讨论了迁移学习和多任务学习。
BERT 通过改变 NLP 模型的训练方式迎来了 NLP 领域的 ImageNet 时刻。自此之后的预训练模型分别尝试从 mask 范围,多语言,下文预测,模型轻量化,预训练方式,模型大小,多任务等方向谋求新突破,有的效果明显,有的只是大成本小收益。
在SMP会议上,感觉到了迁移学习的前景很乐观,感觉这个也是以后必学的知识,所以这里小编先放了这篇文章,即使现在看不懂的,也可以收藏,反正以后必须要了解哒!
针对一个给定的任务,通常采取的步骤是:准确一定非规模的数据集,这些数据要和真实数据集的分布一致;然后设定一个优化目标和方法;然后在训练集上训练模型。
来源:DeepHub IMBA本文约4000字,建议阅读10+分钟本文与你讨论一种新的半监督,多任务医学成像方法。 在本文中,我将讨论一种新的半监督,多任务医学成像方法,称为Multimix,Ayana Haque(ME),Abdullah-Al-Zubaer Imran,Adam Wang、Demetri Terzopoulos。该论文被ISBI 2021收录,并于4月的会议上发表。 MultiMix通过采用基于置信的增强策略和新型桥模块来执行联合半监督分类和分割,该模块还为多任务提供了可解释性。在完全监
领取专属 10元无门槛券
手把手带您无忧上云