专栏首页机器之心SIGIR 2018 | 大会最佳短论文:利用对抗学习的跨域正则化

SIGIR 2018 | 大会最佳短论文:利用对抗学习的跨域正则化

选自arXiv

作者:Daniel Cohen等

机器之心编译

参与:路、李泽南

ACM 国际信息检索研究与发展会议 SIGIR 2018 近日于美国密歇根州 Ann Arbor 举行。目前,大会已公布最佳论文等奖项,马德里自治大学(Universidad Autónoma de Madrid)的论文《Should I Follow the Crowd? A Probabilistic Analysis of the Effectiveness of Popularity in Recommender Systems》获得了最佳论文奖,微软与马萨诸塞大学阿姆赫斯特分校合作论文《Cross-Domain Regularization for Neural Ranking Models Using Adversarial Learning》获得最佳短论文奖。本文将对最佳短论文进行简要介绍。

1 引言

近期学界有多个神经排序模型被提出,这些模型通过考虑原始查询-文档文本(query-document text)[14]、基于确切的查询词项匹配文档的模式 [5],或结合二者 [10] 来估计文档与查询之间的相关性。这些模型通常通过在训练过程中观察大量相关和不相关的样本,来学习区分对应相关查询-文档对和相关性较低的查询-文档对的输入特征分布。与依赖人工制作特征的传统学习排序(LTR)模型不同,这些深度神经模型直接从数据中学习可用于目标任务的更高级别表征。它们从训练数据中学习特征的能力是一个强大的属性,使之有潜力发现手动制作特征没有捕获的新关系。

但是,正如 Mitra 和 Craswell [9] 所讨论的那样,学习新特征的能力可能以在训练过程未涉及域上的较差泛化能力和性能为代价。例如,模型可能观察到某一对短语在训练语料库中同时出现的频率比其他短语高,如「Theresa May」和「Prime Minister」。或者,模型可能基于短语在训练查询中共现的相对频率,推断得到学习「Theresa May」的优秀表征比学习「John Major」的表征更加重要。尽管要想在单个域中取得最佳性能这些相关性和分布很重要,但是如果我们更关心模型在未见过域上的性能,那么模型必须学习对未见域具备更强的鲁棒性。与之相反,传统的检索模型(如 BM25 [12])和 LTR 模型通常在跨域性能方面展示出较强的鲁棒性。

本研究的目标是训练从数据中学习有用表征的深度神经排序模型,且不会与训练域的分布产生「过拟合」。近期,对抗学习已经被证实是一个适合分类任务的有效跨域正则化项 [3, 17]。本论文研究者对此进行调整,提出一种类似策略,可使神经排序模型学习对不同域具备更强鲁棒性的表征。研究者在小型域集合上训练神经排序模型,并在留出域上评估模型性能。训练过程中,研究者结合神经排序模型和对抗判别器,后者尝试基于排序模型学习到的表征预测训练样本的域。当反向传播通过排序模型的层时,对抗判别器的梯度被逆转。这向排序模型提供了负反馈,阻止它学习仅对特定域有意义的表征。实验证明该对抗训练在留出域上的排序性能有一致的改进,有时甚至实现高达 30% 的 precision@1 改进。

3 利用对抗学习的跨域正则化

对抗判别器的动机是使神经模型学习独立于域的特征,这些特征有助于估计相关性。传统神经排序模型的训练目的仅仅是优化相关性评估,无视内部学到的特征的本质。本论文研究者提出使用对抗智能体,通过在流形上域特定空间上调整模型参数方向(至相反方向)来使排序模型学到的特征独立于域。这种通过域混淆(domain confusion)[17] 的跨域正则化可以用以下联合损失函数来表示:

其中 L_rel 是基于损失函数的相关性,L_adv 是对抗判别器损失。q、docr 和 docnr 分别是查询、相关文档和无关文档。最后,θ_rel 和 θ_D 分别是相关性模型和对抗模型的参数。λ 决定域混淆损失对优化过程的影响程度。研究者将其作为训练过程中的一个超参数。排序模型在多个训练域 D_train = {d_1, . . . ,d_k } 上进行训练,在留出域 D_test = {d_k+1 , . . . ,d_n } 上进行评估。

判别器是检查排序模型隐藏层输出的分类器,且尝试预测训练样本的域 d_true ∈ D_train。判别器使用标准交叉熵损失进行训练。

梯度更新通过在所有后续层上的反向传播来执行,包括属于排序模型的层。但是,研究者利用了梯度逆转层(gradient reversal layer,Ganin et al. [3])。该层将标准梯度

转换成其加法逆元(additive inverse)

。这导致 θ_rel 最大化域识别损失(domain identification loss),同时仍然允许 θ_D 学习判别域。尽管并未直接进行优化,但这可以视为通过 L_adv 的正负变换(sign change)对 (1) 进行修正。

行人检索模型。研究者在行人检索任务上评估了该对抗学习方法。他们使用 Tan 等人 [16] 提出的神经排序模型(下文中用 CosSim 指代)和 Duet 模型 [10] 作为基线模型。本论文重点是学习独立于域的文本表征。因此,与 Zamani et al. [20] 类似,本研究仅考虑 Duet 模型的分布式子网络。

CosSim 模型是一个基于 LSTM 的交互作用架构。研究者使用 [16] 的方法训练 CosSim 模型,得到了比 hinge 损失函数高出 0.2 的结果。按照 [10] 提出的方法,通过最大化正确行人的对数似然来训练 Duet-distributed 模型。与 [11] 类似,研究者调整 Duet 模型的超参数,以适应行人检索任务。经过最大池化表征,哈达玛积(Hadamard product)的输出被显著降低,查询长度从 8 个 token 扩展到 20 个,最大文档长度从初始的 1000 个 token 减少到 300。

与之前使用对抗方法的研究 [3, 6, 17] 不同,排序需要建模查询和文档之间的互动。如图 1a 所示,在该设置中,对抗判别器检查神经排序模型学到的查询-文档联合表征。对于更深的架构,如 Duet-distributed 模型,研究者允许判别器在排序模型中检查额外的层,如图 1b 所示。

图 1:两个基线模型(CosSim 和 Duet-distributed)使用对抗判别器的跨域正则化。判别器检查排序模型学到的表征,并对任意帮助域判别的表征提供负反馈信号。

5 结果和讨论

表 1:模型在 L4 topics 上的表现,每个集合下的度量指标表示在其他两个集合上训练的模型的性能。All*指整个 L4 集合(删除了目标话题)。† 表示相比非对抗模型的显著性能提升(p < 0.05,Wilcoxon 检验)。

表 2:跨集合的性能,每个集合下的性能代表在其他两个集合上训练的模型的性能。† 表示相比非对抗模型的显著性能提升(即 p<0.05,Wilcoxon 检验)

论文:Cross Domain Regularization for Neural Ranking Models Using Adversarial Learning

论文链接:https://arxiv.org/abs/1805.03403

摘要:与传统学习排序模型依赖于手动制作特征的情况不同,神经表征学习模型通过在大型数据集上的训练,为排序任务学习更高级别的特征。然而,这种直接从数据中学习新特征的能力可能得付出代价。在没有任何特殊监督的情况下,这些模型可以学到仅在训练数据采样领域中存在的关系,却很难泛化至训练期间未观察到的领域。我们在排序任务上研究了将对抗学习作为跨域正则化项的有效性。我们使用对抗判别器在少量域上训练我们的神经排序模型,判别器提供负反馈信号以阻止模型学习域特定的表征。我们的实验表明,在使用对抗判别器时,模型在留出域上的表现始终更好——有时甚至实现高达 30% 的 precision@1 改进。

本文为机器之心编译,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 业界首个视频识别与定位工具集PaddleVideo重磅更新,前沿视频模型等你用

    PaddleVideo 在实际工业界可以形成很多具体应用,包括:视频精彩片段预测、关键镜头定位、视频剪辑等任务,例如定位 NBA 篮球赛视频中扣篮镜头,电视剧中...

    机器之心
  • 分析了自家150个ML模型之后,这家全球最大的旅行网站得出了6条经验教训

    「150 successful Machine Learning models: 6 lessons learned at Booking.com」是一篇绝佳的...

    机器之心
  • 学界 | 优于VAE,为万能近似器高斯混合模型加入Wasserstein距离

    使用生成式隐变量模型的无监督学习提供了一种强大且通用的方法来从大型无标签数据集中学习潜在的低维结构。通常训练该模型的两种最常见的技术是变分自编码器(VAE)[1...

    机器之心
  • 黑客视角:避免神经网络训练失败,需要注意什么?

    确保网络正常运行的关键因素之一是网络的配置。正如机器学习大师 Jason Brownle 所说,「深度学习神经网络已经变得易于定义和拟合,但仍然难以配置。」

    AI研习社
  • Python:使用sklearn进行集成学习

    ---- 1 前言 2 集成学习是什么? 3 偏差和方差   3.1 模型的偏差和方差是什么?   3.2 bagging的偏差和方差 ...

    机器学习AI算法工程
  • 一文看尽飞桨PaddlePaddle最新升级:5大优势,更低门槛使用深度学习

    从Paddle Fluid v1.0以来,飞桨致力于打造更好的用户体验,趁着百度开发者大会,也为用户精心准备了一份大礼,在开发、训练及部署全流程上进行了全新升级...

    量子位
  • 美团搜索广告排序推荐,从机器学习到深度学习的模型实践

    机器学习AI算法工程
  • 数学建模如何诱骗了华尔街

    现实世界——从种族隔离制度到金融市场——一直在警示我们:那些试图通过科技来掌握复杂人类行为的做法会使我们误入歧途。 无论是在科学领域,还是在日常生活中,我们都...

    钱塘数据
  • 【教程】利用Tensorflow目标检测API确定图像中目标的位置

    深度学习提供了另一种解决“Wally在哪儿”(美国漫画)问题的方法。与传统的图像处理计算机视觉方法不同的是,它只使用了少量的标记出Wally位置的示例。 在我的...

    AiTechYun
  • 请谨慎使用预训练的深度学习模型

    看起来使用这些预训练的模型已经成为行业最佳实践的新标准。毕竟,有一个经过大量数据和计算训练的模型,你为什么不利用呢?

    AI算法与图像处理

扫码关注云+社区

领取腾讯云代金券