专栏首页机器之心仅需少量视频观看数据,即可精准推断用户习惯:腾讯、谷歌、中科大团队提出迁移学习架构PeterRec

仅需少量视频观看数据,即可精准推断用户习惯:腾讯、谷歌、中科大团队提出迁移学习架构PeterRec

机器之心发布

机器之心编辑部

仅从一个人的抖音、快手、腾讯视频的观看记录里,我们能发现什么?近日,腾讯看点研发团队、Google London 和中科大的研究工作首次证实,仅依靠用户视频新闻观看记录,就可以精确地推测出用户的各种个人信息信息,包括但不限于用户年龄段、性别、喜好、人生状况(例如单身/已婚/怀孕等)、职业、学历等信息,甚至是否有心理抑郁暴力倾向。目前,这篇论文已经被信息检索领域顶级国际会议 SIGIR 接受为长文章。

推导迁移学习对计算机视觉和 NLP 领域产生了重大影响,但尚未在推荐系统广泛使用。虽然大量的研究根据建模的用户-物品交互序列生成推荐,但很少有研究尝试表征和迁移这些模型从而用于下游任务(数据样本通常非常有限)。

在本文中,研究者深入研究了通过学习单一用户表征各种不同的下游任务,包括跨域推荐和用户画像预测。优化一个大型预训练网络并将其适配到下游任务是解决此类问题的有效方法。但是,微调通常要重新训练整个网络,并优化大量的模型参数,因此从参数量角度微调是非常低效的。为了克服这个问题,研究者开发了一种参数高效的迁移学习架构「PeterRec」。

论文链接:https://arxiv.org/pdf/2001.04253.pdf

PeterRec 可以快速动态地配置成各种下游任务。具体来说,PeterRec 通过注入一些小型但是极具表达力的神经网络,使得预训练参数在微调过程中保持不变。研究者进行了大量的实验和对比测试,展示学习到的用户表征在五个下游任务中是有效的。此外,PeterRec 在多个领域进行高效的迁移学习时,可与微调所有参数时所呈现的性能相当,甚至更好。

这一客观发现和研究方法将有利于改进现有的一些公共服务质量,提供相关辅助依据实现更为精准的政府决策,也可以为商家和广告商等带来更大的利润,同时也会进一步推动隐私保护的相关研究和相关法案(可以想像以抖音快手这种短视频 APP 为例,每天每个常规用户可以产生数百乃至数千的点击记录,如此巨大的用户行为数据潜在地包含了我们无法想象的个人隐私数据)。

从数据收集到用户推荐

在过去的十年中,社交媒体平台和电子商务系统(例如抖音、Amazon 或 Netflix)在人们生活中的使用频率变得越来越高。因此这些系统中也产生了大量的点击、购买互动以及其他用户反馈。以抖音为例,常规用户在每个周可能观看成百上千个短视频。与此同时,大量的研究表明这些用户交互行为可以用来建模用户对于物品的喜好。比较有代表性的深度学习模型,例如 GRU4Rec 和 NextItNet 在时序推荐系统任务中都取得了较大的成功。然而绝大多数已有工作仅仅研究推荐任务在同一平台的场景,很少的工作尝试学习一个通用用户表征,并且将该用户表征应用到下游任务中,例如冷启动用户场景和用户画像预测等。

为了解决这个挑战,本文尝试以一种无监督训练方式预训练一个神经网络,然后将此神经网络迁移到下游任务中。为此,论文需要至少解决三个问题:

  1. 构造一个有效的预训练模型,能够建模超长用户点击序列;
  2. 设计一种微调策略,能够将预训练网络适配到下游任务。目前为止,没有相关文献证实这种无监督学习的用户表征是否对其他场景有帮助;
  3. 设计一个适配方法,能够使得不同任务都能充分利用预训练网络参数,从而不需要微调整个网络,达到更加高效的迁移学习方式。

图 1: PeterRec 进行用户画像预测示意图。注意:PeterRec 不需要借助于任何图像和文本特征,仅需要用户点击物品 ID 即可。中间网络为大量堆叠的空洞卷积网络。

为了达到以上目标,研究者提出采用空洞卷积神经网络构建大型的预训练模型,采用一定空洞率设置的多层卷积网络可以实现可视域指数级增长,从而捕获和建模超长的用户点击行为,这一优势是目前很多时序网络难以达到的,例如经典的 RNN 网络建模长序列时通常会遇到梯度消失和爆炸问题,并且并行训练低效,Transformer 等知名 NLP 网络对显存需求和复杂度也会随着序列长度以二次方的级别增加。同时为了实现对预训练网络参数的最大化共享,论文提出了一种模型补丁方式,类似于植物嫁接技术,只需要在预训练网络插入数个的模型补丁网络,既可以实现预训练网络的快速迁移,效果甚至好于对整个模型全部微调。

这篇论文值得关注的研究贡献有:

  • 提出了一种通用用户表征学习架构,首次证实采用无监督或者自监督的预训练网路学习用户点击行为可以内用来推测用户的属性信息。这一发现将有望改进很多公共服务,带来更大的商业利润,同时也会引发甚至推动对于隐私保护的相关问题的研究;
  • 提出了一种非常有效的模型补丁网络,网络相对于原来的空洞卷积层参数量更小,但是具有同等表达能力;
  • 提出了两种模型补丁的插入方式,并行插入和串行插入;
  • 提出了很多趋势洞察,可能会成为该领域未来的一些研究方向;
  • 后续将会开源代码和一些高质量的数据集,从而推动推荐系统领域迁移学习的研究,建立相关基准。

方法介绍

图 1: PeterRec 预训练网络(a)和微调网络(b)的参数分布。

本研究预训练网络采用空洞卷积网络,每层空洞因子以 2^n 增加,通过叠加空洞卷积层达到可视域指数级的增加,这一设计主要遵循时序模型 NextItNet [1],如图 1 所示。在预训练优化方式上,本文采用了两种自监督方式,分别是单向自回归方式 [1] 以及双向遮掩法 [2],分别对应因果卷积和非因果卷积网络,如图 2 所示。

图 2: 采用空洞卷积网络的几种微调策略。(a)(b) 为因果卷机,(c)(d) 为非因果卷积。

本文的微调方式非常简单,采用直接移除预训练 softmax 层,然后添加新任务的分类层,另外,本文的主要贡献是在预训练的残差块(图 3(a))插入了模型补丁网络,每个模型补丁有一个瓶颈结构的残差块构成,如图 3(f)所示。本研究提出了几种可选择的插入方式,如图 3(b)(c)(d)。注意(e)的设计效果非常差,文章分析很可能是因为模型补丁的和操作,并行插入的和操作与原始残差网络的和操作夹杂在一起,影响最终优化效果。另外文中给出分析,通常模型补丁的参数量仅有原始空洞卷积的不到十分之一,但是可以达到与所有参数一起优化类似或者更好的效果。

图 3:(a)为原始残差块;(b)(c)(d)(e)为插入模型补丁后的微调残差块;(f)为模型补丁。

实验

这项研究包含了大量的实验,代码和相关脱敏后的数据集后续将会开源。

实验 1

论文首次证实采用无监督预训练方式非常有效,论文对比 PeterRec 的两种设置,有无预训练下的实验效果,如图 4 中所示 PeterRec 大幅度超越 PeterZero,证实了本研究预训练的有效性。

(a)冷用户推荐对比(b)人生状态预测

图 4 PeterRec 在有无预训练下的预测效果。PeterZero 为无预训练初始化的 PeterRec

实验 2

以下是几种微调方式比较,如图 5 所示。图中证实 PeterRec 仅仅微调模型补丁和 softmax 层参数达到了跟微调所有参数一样的效果,但是由于仅有少数参数参与优化,可以很好的抗过拟合现象。

(a)冷用户推荐对比(b)年龄状态预测

图 5 各种微调方式。FineAll 微调所有参数,FineCLS 只微调最后 softmax 层,FineLast1 微调最后一个空洞卷积层,FineLast2 微调最后两个空洞卷积层。

实验 3

这一实验将 PeterRec 与常规的比较知名的 baseline 进行比较,包括冷启动推荐效果和用户画像预测效果。具体分析可参见原文分析。

实验 4

在少量标签有效的情况下 PeterRec 效果。可以发现 PeterRec 不仅超过 FineAll,而且相对于 FineAll 微调过程几乎不会出现过拟合现象。

图 6:少量 target 数据标签下 PeterRec vs. FineAll

研究团队同时也提到,PeterRec 不仅可用于户论文中的实验,还能应用在很多领域,比如用来提前感知青少年心理健康。举个例子,通过 PeterRec,仅需要知道少量青少年每天观看浏览视频的标签数据,就可以预测出该少年是否心理健康,是否存在暴力倾向阴郁等问题,从而提前告知父母以便提前采取措施。

参考链接:

[1] A simple convolutional generative network for next item recommendation. Yuan, Fajie and Karatzoglou, Alexandros and Arapakis, Ioannis and Jose, Joemon M and He, Xiangnan, WSDM2019. [2] Future Data Helps Training: Modeling Future Contexts for Session-based Recommendation. Yuan, Fajie and He, Xiangnan and Jiang, Haochuan and Guo, Guibing and Xiong, Jian and Xu, Zhezhao and Xiong, Yilin. WWW2020

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-05-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 观点 | 增加深度,加速神经网络优化?这是一份反直觉的实验结果

    选自offconvex 作者:Nadav Cohen 机器之心编译 参与:晏奇、黄小天 深度学习的根本理论问题之一是「深度有何作用」?虽然增加神经网络的层数可...

    机器之心
  • 搞事!ICLR 2018七篇对抗样本防御论文被新研究攻破,Goodfellow论战

    机器之心
  • 联邦学习 OR 迁移学习?No,我们需要联邦迁移学习

    海量训练数据是现代机器学习算法、人工智能技术在各个领域中应用获得成功的重要条件。例如,计算机视觉和电子商务推荐系统中的 AI 算法都依赖于大规模的标记良好的数据...

    机器之心
  • 仅需少量视频观看记录,就可以精准推断你的习惯

    ? 本文转载自机器之心 仅从一个人的抖音、快手、腾讯视频的观看记录里,我们能发现什么?这篇被信息检索领域顶级国际会议 SIGIR 接受为长文章的论文可以告诉你...

    腾讯技术工程官方号
  • “搞垮” 微博服务器?每天上亿条用户推送是如何做到的

    想必国内绝大多数网民都有新浪微博的用户账号。据最新数据显示,2018 年第四季度财报,微博月活跃用户突破 4.62 亿,连续三年增长 7000 万 +;微博垂直...

    AI科技大本营
  • 大疆无人机通过发送特殊命令开启FCC教程

    说明:一般开启FCC除了修改配置文件外,还可以使用一些特殊命令使mavic pro或p4pv2强制开启FCC(如fcc、boost、强制使用2.3G频段或强制使...

    砸漏
  • PostgreSQL远程连接配置管理/账号密码分配 转

    说明:这个是由于没有配置远程访问且认证方式没改造成的,只需要更改使用账号密码认证即可。

    双面人
  • iPhone蓝牙流量被指在某些情况下泄露用户电话号码

    安全研究员表示他们能够在某些操作中从iPhone 智能手机的蓝牙流量中提取用户的手机号码。

    FB客服
  • 【ResNet何凯明】深度残差网络从100层到1001层(89PPT)

    【新智元导读】层数越多的神经网络越难以训练。当层数超过一定数量后,传统的深度网络就会因优化问题而出现欠拟合(underfitting)的情况。ResNet 作者...

    新智元
  • 让内容恰好占一屏,适配各种尺寸的设备的实现

    有时候我们会有让内容恰好占一屏,并且适配各种尺寸的设备的需求。我们先不谈这样做会导致在一些设备上的显示不尽人意,直接谈如何实现。

    Joel

扫码关注云+社区

领取腾讯云代金券