文献链接:https://arxiv.org/pdf/2005.10545v1.pdf
这一篇文章是阿里提出的另一篇推荐系统的文章,思路上而言多少是接续了之前的ESMM这篇文章的,多少算是其后续的一个优化方法。
关于ESMM这个工作,相信大家基本也都了解,我之前也写过一篇小文章(文献阅读:Entire Space Multi-Task Model:An Effective Approach for Estimating Post-Click Conversion Rate)对其进行过内容整理,其针对的问题是关于SSB(Sample Selection Bias)以及DS(Data Sparsity)的,即数据选择偏差以及数据的稀疏性问题。
不过相较于ESMM模型仅仅针对CVR问题进行了一个针对性的建模与优化,而这一篇文章当中提出的ESAM方法则更加普适,可以用于各类SSB以及DS问题。
文章最为核心的思路还是在训练过程中加入那些长尾的数据,让模型可以见到更多的数据,进而从中学到有效的信息。
但是,不同于之前的ESMM工作当中使用隐式概率传递关系进行信号学习的方式,这里的信号学习是通过正则项的方式进行学习的。
我们首先给出模型的结构以及其对应的loss function如下:
定性来说,文中也给出了各个正则项对于训练的一个比较直观的结果示意图:
这篇文献首先在两个公开数据集上进行考察,发现ESAM策略在两个任务上都是有效的。
此外,对于冷启动的情况,ESAM策略同样可以获得收益。
文中同样进行了消解实验来考察各个正则项对于结果的影响,具体结果如下表所示:
可以看到,所有的正则项对结果都是产生了增益的,且其效果是可以相互兼容的。
我们对于计算得到的embedding结果进行可视化呈现,得到结果如下图所示:
可以看到:
结论而言,事实上这篇文章的核心点还是在于如何在训练过程中加入更多的数据从而优化SSB的问题。
只是,不同于ESMM的链式关系,这篇文章采用的方式是通过正则项进行优化,但是本质上而言,还是为了在训练模型过程当中更有效地利用长尾数据中隐藏的信息。
个人认为上述方式是非常有借鉴意义的,可以适用于其他不少的场景当中,可以mark一下,然后做点实验,也许可以有一定的性能增益。