前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Factorization Machine模型的各种变式

Factorization Machine模型的各种变式

作者头像
用户3578099
发布2020-09-29 17:13:13
6090
发布2020-09-29 17:13:13
举报
文章被收录于专栏:AI科技时讯AI科技时讯

设为星标,第一时间获取更多干货

FM模型最早由Steffen Rendle在2010年提出,解决了稀疏数据场景下的特征组合问题,在广告、推荐等领域被广泛使用。FM模型简单而且效果好,可以作为业务初期快速取得收益,为后续持续迭代提供一个较强的baseline。FM模型从首次提出到现在已经过去七八年时间,这期间的研究进展如何呢?比如:

  • FM类模型有哪些改进?
  • 哪些模型或者应用引入了FM思想?
  • 近期的顶会针对FM有哪些改进工作?
  • 工业界大规模数据场景下如何分布式训练FM模型?

这一连串的问题代表了学术界和工业界对FM模型关于如何优化和实际应用的深入思考。带着这些问题,下文中笔者根据自己的理解将从不同方面对FM模型的演进进行介绍。文中涉及到的公式进行统一表示来方便读者理解,并为读者提供了参考文献的链接。

一、区别特征交互作用

这部分模型的演进思路就是根据假设来增加参数量(即模型复杂度)来提高模型表达能力。FFM模型参数量太大,一则容易过拟合,二则不利于线上大规模部署(内存压力)。笔者更倾向于Field-weighted FM,简单有效,在效果和实际应用上做了很好的tradeoff。

  • FM

文章链接:csie.ntu.edu.tw/~b97053

  • Field-aware FM

文章链接:csie.ntu.edu.tw/~r01922

FM中一个特征只对应一个向量,而在实际场景中特征和不同field的特征交互时应该使用不同的向量,这就是Field-aware FM(FFM)的提出动机。FFM最早由阮毓钦提出,最早在kaggle上大放异彩,现在在业界也有一定使用。

  • Attentional FM

文章链接:Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks

这篇文章发表在IJCAI 2017。区分不同特征相互作用的方式不再像ffm那么笨重,而且用一个神经网络学习得到参数

,总体参数量增加不明显。

  • Field-weighted FM

文章链接:[1806.03514] Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising

这篇文章发表在WWW 2018。区分不同特征相互作用非常简单直接。具体方法是针对每两个特征增加一个参数,这样相对FM模型只增加

个参数(k是field数目)。

二、和深度学习结合

这部分模型的思路,特别是DeepFM,已经被工业界快速跟进和借鉴到推荐、搜索等业务场景。

  • DeepFM

文章链接:DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

这篇发表在IJCAI 2017。DeepFM主要是基于Wide&Deep框架改进,将其中wide部分换成fm进行二阶交叉。

  • NFM

文章链接:Neural Factorization Machines for Sparse Predictive Analytics

这篇发表在SIGIR 2017。FM最终二阶交叉相加后得到k维的向量,NFM是将该k维的向量输入给全连接,而不是像FM直接加起来作为最终结果。可以认为FM模型是NFM的一个子集。

三、和Learning to Rank结合

这部分和工业界中的排序场景联系紧密,可做参考。

  • Pairwise FM

文章链接:Exploiting ranking factorization machines for microblog retrieval

这篇文章发表在CIKM 2013。LTR中的pairwise是挑选一个正负样本对作为一个新的样本,具体就是

。如果

,则就是PairWise FM。那如果

则就是很有名的RANKSVM。

  • Lambda FM

文章链接:LambdaFM

这篇文章发表在CIKM 2016。主要贡献是将LambdaRank的思想加入到Pairwise FM中。github上有个开源实现CastellanZhang/lambdaFM,支持FTRL优化,支持单机多线程。

四、分布式训练

在实际应用中,一旦训练数据量上升到大几百G或者1T以上的级别,即使采用单机多线程训练,也会严重阻碍模型调研的速度。所以说在工业界做模型的分布式训练是有真实的业务需求驱动,相信大厂都有成熟的基于ps的FM轮子。对于大规模分布式机器学习感兴趣的读者建议细读下面两篇文章。

  • DiFacto

文章链接:cs.cmu.edu/~muli/file/d

这篇发表在WSDM 2016。主要针对FM算法,基于Parameter Server进行梯度的异步更新。在github上也有开源,但是后面不怎么维护了。

  • F2M

文章链接:net.pku.edu.cn/vc/paper

这篇发表在NIPS 2016。这篇文章主要是提出了基于Ps架构的FFM算法。

五、更高阶特征交叉

  • High-Order FM

文章链接:Higher-Order Factorization Machines

这篇文章发表在NIPS 2016。传统意义上讲FM都是二阶交叉,计算复杂度可通过数学变换将时间复杂度改进到线性时间,在实际应用中一般也只用到二阶交叉。这篇文章解决了三阶甚至更高阶的特征交叉问题。

六、其他变种

  • Robust FM

文章链接:Robust Factorization Machines for User Response Prediction

这篇发表在WWW 2018。文章引入了robust optimization的思想,增加

分别在一次项和二次项的时候表示噪声。

  • Discrete FM

文章链接:[1805.02232] Discrete Factorization Machines for Fast Feature-based Recommendation

这篇发表在IJCAI 2018。这篇文章主要解决FM在一些特殊场景下模型容量和计算耗时偏大的问题。FM中隐向量

,每个元素是实数值,而在Discrete FM中,隐向量

。最终模型效果相对FM有下降,但是效率大大提升。

  • SFTRL FM

文章链接:Sketched Follow-The-Regularized-Leader for Online Factorization Machine

https://zhuanlan.zhihu.com/p/52877868

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技时讯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
联邦学习
联邦学习(Federated Learning,FELE)是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果实现联合建模。该产品兼顾AI应用与隐私保护,开放合作,协同性高,充分释放大数据生产力,广泛适用于金融、消费互联网等行业的业务创新场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档