首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    arXiv | ExT5:利用大规模有监督多任务学习来改进NLP模型的自监督预训练策略

    本文介绍由Google Research和DeepMind合作发表于arXiv上的研究工作。尽管近年来多任务学习和迁移学习在自然语言处理(NLP)领域取得了成功,但很少有工作系统地研究在预训练期间扩大任务数量的效果。本文提出了一个由107个有监督NLP任务组成、跨越不同领域和任务族的庞大集合EXMIX(Extreme Mixture)。利用EXMIX,作者研究了迄今为止规模最大的多任务预训练的效果,并分析了常见任务族之间的协同训练迁移。分析表明,为多任务预训练手动策划一个理想的任务集并不简单,而且多任务扩展本身就能极大地改善模型。最后,作者提出了一个使用自监督C4和有监督EXMIX的多任务目标进行预训练的模型ExT5。广泛的实验表明,ExT5在SuperGLUE、GEM、Rainbow、Closed-Book QA任务和EXMIX以外的几个任务上都优于强大的T5基线,而且ExT5在预训练时也明显提高了采样效率。

    01

    MADlib——基于SQL的数据挖掘解决方案(21)——分类之KNN

    数据挖掘中分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。分类可描述如下:输入数据,或称训练集(Training Set),是由一条条数据库记录(Record)组成的。每一条记录包含若干个属性(Attribute),组成一个特征向量。训练集的每条记录还有一个特定的类标签(Class Label)与之对应。该类标签是系统的输入,通常是以往的一些经验数据。一个具体样本的形式可为样本向量:(v1,v2,...,vn;c),在这里vi表示字段值,c表示类别。分类的目的是:分析输入数据,通过在训练集中的数据表现出来的特征,为每一个类找到一种准确的描述或模型。由此生成的类描述用来对未来的测试数据进行分类。尽管这些测试数据的类标签是未知的,我们仍可以由此预测这些新数据所属的类。注意是预测,而不是肯定,因为分类的准确率不能达到百分之百。我们也可以由此对数据中的每一个类有更好的理解。也就是说:我们获得了对这个类的知识。

    03

    机器学习会议论文(三)StarGAN-VC实现非并行的语音音色转换

    2.The introduction starGAN-VC是将一篇语音方向的论文,在上一篇论文中我们介绍了starGAN的网络结构以及工作原理,以及starGAN是如何实现多域的图像风格迁移,但是starGAN-vc则是进行了领域的融合与迁移,vc是(voice conversion),也就是将图像领域的starGAN放入语音领域,进行语音的音色转换,在图像领域我们实现性别的转换,比如将一张male picture转换为female picture,当然指的是风格迁移。starGAN-VC则是将模型放入语音,将male voice转换为female voice。 3.The related work starGAN与StarGAN-vc的网络模型相似,变化不大,但是图像信号与语音信号的差别比较大,语音信号是典型的时序信号,可以理解为一个一维数组的数据,对于神经网络来说处理运算的是矩阵数据,所以需要对语音信号进行预处理,才能实现网络的可以接受的数据格式 (1)对于语音信号需要进行语音信号的特征提取——梅尔频率倒谱系数(MFCC) MFCC中包涵语音信号的特征,同时以矩阵的形式进行的存储, MFCC:Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。

    01
    领券