专栏首页量化投资与机器学习Two Sigma遴选:量化大佬都在看什么机器学习论文?

Two Sigma遴选:量化大佬都在看什么机器学习论文?

深度学习顶会:ICLR

ICLR全称为「International Conference on Learning Representations」(国际学习表征会议),2013 年由深度学习三座大山中的 Yoshua Bengio 和 Yann LeCun 牵头创办。众所周知,Yoshua Bengio 主管着蒙特利尔大学人工智能实验室,也就是 MILA,它是世界上最大的人工智能研究中心之一。Yann LeCun 是 Facebook 人工智能研究院的院长,被称为卷积神经网络之父。虽举办的年限比较短,但已经被学术研究者们广泛认可,被认为是深度学习的顶级会议。

在刚刚过去的ICLR2021年度会议中,有大量的机器学习的优秀论文。作为量化投资的大佬,Two Sigma的研究员对于其中十几篇的论文特别感兴趣。能够吸引量化大佬的论文到底在讲什么?

文中涉及的14篇论文,小编已经打包整理,欢迎各位小伙伴下载消化。

获取全部论文,详见文末

Learning without forgetting

理想情况下,模型应该能够从新的数据中学习而不会忘记旧的知识。人们观察到,神经网络在更新新任务时,会灾难性地遗忘旧任务。

Gradient Projection Memory for Continual Learning:作者引入了一种正交的梯度下降法方法,可以对新任务进行微调,同时减少先前任务的性能下降。这是通过对初始化任务重要梯度的方向的记忆,然后对其进行正交化,以便对新任务进行梯度更新来完成的。

Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models:作者提出了一种改进后的梯度投影的方法,将梯度的目标设置为余弦相似度。在多语言翻译的模型中,这里改进提高了翻译的效果。

Few-shot learning

Few-shot learning是一种训练制度,在这种制度下,研究人员只能获得少量(例如少于5个)的样本来建立模型。在很难获得标记训练样本的领域,如诊断医学成像,这是一个非常重要的问题。Few-shot learning通过使用目标域的数据来微调基于源域的现有的模型。下面的文章介绍了改进这种微调方法的新进展。

Self-training for Few-shot Transfer Across Extreme Task Differences: 作者提出了这样一种方法,当一个域只有少量的标注数据及大量的未标注数据时,可以在未标记样本上使用使用原始未调整的模型,并把模型结果的聚类作为这些为标注数据的标签。这可以在源域和目标域非常不同的情况下提高微调性能。

Free Lunch for Few-shot Learning: Distribution Calibration: 使用少量的新数据对于预训练模型进行微调会存在严重过拟合的风险。作者的方法是从已有的训练模型类中找出最相似的模型,并用它们作为新类的附加训练样本。

Robust optimization

神经网络容易学习数据中存在的虚假的关系。这可能导致模型对样本外的数据表现不佳,并容易受到敌对性攻击。在ICLR2021年会议上提交的几篇论文探讨了这些关于模型健壮性挑战。

Sharpness-aware Minimization for Efficiently Improving Generalization (SAM):作者引入了一个新的惩罚项,用于模型更容易收敛于平坦的区域。作者方法的一个特别有趣的方面是,在梯度下降时,只需要在相反的方向前进一小步,然后在那里重新计算梯度,再向前走一大步跨过附近最坏的区域。实际上,这就像是先退后一步,然后再向前走。这种方法相对简单但是有效,它提高了模型的鲁棒性。

Systematic Generalisation with Group Invariant Predictions:通过分布的偏移提高模型对于复杂但有意义的特征依赖,而不是对于简单但无意义的特征的依赖。比如,这种模型可以训练一个识别数字的神经网络,这个网络不会因为数字颜色的变化而受影响,主要依据字符的形状识别数字。

How Does Mixup Help With Robustness and Generalization? :Mixup是一种非常流行的数据增强的方法,作者在文章中提供了理论的分析,解释为什么Mixup能够隐性的减少对抗损失及隐性的采用了数据自适应的正则化。

Post-deployment robustness

深层神经网络在训练集和测试集采样于同一分布时具有较高的精度。然而,在实践中,由于研究或部署约束,生产可能需要对来自不同分布的样本进行模型推断。这些论文提出了通过在线更新模型来提高健壮性的方法。

Tent: Fully Test-Time Adaptation by Entropy Minimization : 提出了一种以最小化熵为目标,通过估计归一化统计量和优化转换参数进行特征在线转换的方法。结果表明,当采用该方法降低熵值时,损失也相应减小。该方法以CIFAR-100-C和CIFAR-10-C为基准,达到了最先进的性能。

Self-Supervised Policy Adaptation During Deployment (PAD) :试图通过在部署后不使用任何奖励来提高增强学习模型的稳健性。作者采用的方法是增加一个额外的目标,即观察帧被旋转的角度。作者表明,使用PAD的模型对于颜色、光线及材质的变化,表现得更稳健。

Improving transformer runtime

Transformers是序列建模任务中最先进的模型,从语言建模到图像分类再到蛋白质序列建模。Transformers的一个关键要素是注意机制,其运行时的复杂度为序列长度二次。这些论文的目的是提高运行时的复杂性,这对于长序列来说是无法实现的。ICLR上不止一篇论文都在讨论这个具体问题,这说明了这个问题的重要性。

Random Feature Attention:提出用随机特征注意模块代替传统的注意模块,该模块使用随机特征来逼近softmax,而不是直接计算序列中每个元素的softmax。这使得注意力运行时间在序列长度上呈线性,而不牺牲准确性,对于长序列尤其有利。对于超过1000的序列,随机特征注意提供比softmax多5倍的加速。

Rethinking Attention with Performers:提出了一种新的方法,称为快速正交随机特征注意力(FAVOR),利用随机特征将注意力运行时间从二次时间提高到线性时间。这种方法可以用来加速任何可内核化的注意力函数——不仅仅是softmax——而不会丢失准确性。FAVOR在各种序列建模任务(包括像素预测、文本建模和蛋白质序列建模)中都具有强大的性能。

Convolutional neural networks/computer vision

最先进的卷积神经网络(CNNs)继续改进计算机视觉任务。ICLR 2021的以下论文广泛讨论了在图像数据集上训练卷积神经网络时的学习和表示问题。

Mind the Pad —CNNs can Develop Blind Spots:作者探讨了卷积滤波器中的零填充如何导致空间偏差,从而抑制性能,尤其是在检测小对象时。这是因为有时填充应用不均匀,导致不对称的核函数的权重和盲点。作者展示了如何通过使用镜像填充或圆形填充来减轻这种影响。零填充长期以来一直是CNN设计的标准,但这篇论文表明,即使在AlexNet开创性的深度学习工作10年后,计算机视觉社区对这些模型如何工作的理解仍在以有意义的方式继续演变。

Why Are Convolutional Nets More Sample-Efficient than Fully-Connected Nets? 表明,对于全连通网络,泛化所需的样本数与输入规模成二次函数关系。相比之下,cnn的缩放与输入大小无关。

The Intrinsic Dimension of Images and Its Impact on Learning:采用维数估计技术来确定像ImageNet这样的标准图像数据集具有低维结构。本文还发现,在低内在维数数据集上训练的模型收敛速度更快,对不可见数据的泛化效果更好。作者通过明确地控制生成图像的尺寸,使用GANs来验证这一发现。令人欣慰的是,根据人类感知保持维度的转换,比如提升图像,似乎也能被深度学习模型以同样的方式“理解”。

论文下载

后台回复(注意大小写)

Two Sigma ICLR 2021

量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业20W+关注者,连续2年被腾讯云+社区评选为“年度最佳作者”。

本文分享自微信公众号 - 量化投资与机器学习(Lhtz_Jqxx),作者:全网Quant都在看

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-06-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 高盛COO在夜店当DJ,Domingos加入了DE Shaw

    据《纽约时报》披露,D.J. D-Sol在纽约、迈阿密和巴哈马进行过现场表演,那些渴望进高盛同学们,可以多多关注大佬的Instagram,下次去夜店、沙滩的时候...

    量化投资与机器学习微信公众号
  • 【译】走进Two Sigma,科学家帮你挑选股票

    大数据文摘
  • 最新!全球顶级对冲基金持仓公布,文艺复兴规模超1600亿美元

    公众号根据全球各地对冲基金公司向美国证监会(SEC)提交了其13F报告。对其持仓做了全面的分析。所有数据都是根据最新编写。希望大家有所收获!

    量化投资与机器学习微信公众号
  • 机器学习(8) -- 降维

    Content 10. Dimensionality Reduction   10.1 Motivation     10.1.1 Motivation on...

    昱良
  • 有人说:机器学习应用量化投资没啥用,给你看看有用的!

    想必很多人还不知道Numerai吧,有志于从事量化方向的同学可以重点关注下。Numerai 是一家初创公司,以举办专业数据锦标赛(类似kaggle)为其对冲基金...

    量化投资与机器学习微信公众号
  • [译]投资银行如何利用大数据预测行情

    大数据文摘
  • Stanford机器学习笔记-10. 降维(Dimensionality Reduction)

    10. Dimensionality Reduction Content  10. Dimensionality Reduction   10.1 Mot...

    llhthinker
  • 有人手写实现李航《统计学习方法》书中全部算法

    不管你是学习CV,还是NLP,或者其他方向,应该都多多少少看过或者听过李航教授的《统计学习方法》这本书。Amusi 认为这是一本超级棒的AI入门,再具体一点机器...

    Amusi
  • 遗传算法(1)

    与其说遗传算法是一个算法,不如说是一种处理问题的思想方式更为恰当,因为遗传算法整个体系说来说去都是在说对于一种问题处理的思路和原则,而不是一个具体的代码编写过...

    刀刀老高
  • 深度学习多目标优化的多个loss应该如何权衡

    本文介绍了一篇关于多任务学习的综述,详细介绍了文章中关于多任务学习的两个主要研究方向:task balancing和其他。

    计算机视觉
  • 别再看 GitHub 的 Star 数了,这个数字更能反映项目流行趋势

    如果你想找找有哪些开源项目正在流行,就会发现,无论 GitHub 官方提供的趋势,还是第三方制作的榜单,都是以 Star 数为标准。

    HelloGitHub
  • 基于奇异值分解(SVD)的图片压缩实践

    数字图片在计算机中是以矩阵形式存储的。所以可以通过矩阵理论和矩阵算法对数字图像进行分析和处理。本文通过对图片进行SVD压缩,对不同的参数下的压缩效果进行对比。

    Michael阿明
  • Quant在纽约:如何赚大钱?

    如果你是一名量化分析师,在2020年想在纽约有一份薪酬较高的工作,看看下面的内容:

    量化投资与机器学习微信公众号
  • ​清华&中国工程院联合发布:人工智能全球2000位最具影响力学者

    今天上午,清华和中国工程院知识智能联合研究中心在清华大学联合发布《人工智能全球2000位最具影响力学者》,通过AMiner学术数据在全球范围内遴选出了2000位...

    大数据文摘
  • 谷歌开放TPU!与Tensorflow软硬联合,或将占独家地势

    大数据文摘
  • 连线:人工智能和比特币推动对冲基金发展新浪潮

    Jeffrey Tarrant是一名华尔街投资人。在过去三十年里,他一直投资于新创立的对冲基金。作为Protege Partners的创始人兼首席执行官,他将...

    点滴科技资讯
  • Alpha来自哪里?

    Warren Buffett(巴菲特), George Soros(索罗斯)和Ray Dalio(达利奥)他们之间是不能很好地完成彼此的工作滴。

    量化投资与机器学习微信公众号
  • 孙正义曾喊出“百亿机器人论”,人类将如何生存?

    现在,机器人以及人工智能已经越来越不容忽视,针对这种情况,多位大佬发声,其中既有支持者,也有反对者。 软银集团董事长、总裁孙正义是人工智能的拥护者,曾喊出“百...

    机器人网
  • 脑机头条 第11期| 清华和中国工程院联合发布"AI 2000人工智能全球最具影响力学者"

    AI 2000 人工智能全球最具影响力学者榜单(以下称为 AI 2000)旨在未来10年通过AMiner学术数据在全球范围内遴选2000位人工智能学科最有影响力...

    脑机接口社区

扫码关注云+社区

领取腾讯云代金券