专栏首页AI科技评论KDD 2019 | 腾讯广告算法团队关于库存预估的一作论文被 KDD 2019 录用

KDD 2019 | 腾讯广告算法团队关于库存预估的一作论文被 KDD 2019 录用

导语:腾讯广告算法团队关于库存预估的论文《 Large-scale User Visits Understanding and Forecasting with Deep Spatial-Temporal Tensor Factorization Framework》被CCF A类学术会议KDD2019录用。论文提出了一种适用于大规模广告库存预估的深度学习算法,对交叉特征以及时间特征进行建模,从而对广告库存进行精确的预估。

介绍

腾讯广告算法团队关于库存预估的论文《 Large-scale User Visits Understanding and Forecasting with Deep Spatial-Temporal Tensor Factorization Framework》被CCF A类学术会议KDD2019录用。论文提出了一种适用于大规模广告库存预估的深度学习算法,对交叉特征以及时间特征进行建模,从而对广告库存进行精确的预估。

1.背景

目前互联网服务中心最主要的商业模式仍然是广告业务,服务方需要提前预知用户的访问量来保证广告的销售,这就需要理解和预测广告库存量。目前使用广泛的预测模型可以大致分为两类:1)利用传统的时间预测模型(ARIMA,GARCH,TBATS等),这些模型在处理大规模的时间序列模型上就显得十分的低效;2)基于深度学习的预测模型(ST-RESNET, TRMF等),已经可以很好的处高维时间序列预测任务,但是这些模型大多只关注时间特征,而忽略的属性组合特征等。为了更好的进行广告库存的时间预测,我们需要解决如下问题:

  • 属性组合数目巨大,并且可能随时改变。我们通常用几个特征组合来描述用户的访问,比如地域、平台、年龄、性别等。随着特征的增多,这些特征组合数目的增长是指数级别的,所以我们需要一个高效易扩展的模型。
  • 属性组合之间的关联性,不同的属性组合我们不能等同的对待。比如年龄和平台具有强相关性,但是年龄和内容的相关性就比较弱。
  • 广告库存同时具有长周期特征和短周期特征,长周期比如每年的春节、暑假等,短周期则多为周级别的特征,算法需要同时兼顾两者的特征。

图1:问题概览

2.模型简介

为了解决上述问题,我们提出来一个DEEP SPATIAL-TEMPORAL FACTORIZATION FRAMEWORK,同时对时间特征和属性组合特征进行建模,并且能够充分利用长周期数据。基本的设计思路来源于张量分解,从图1中可以看出,我们数据可以表示为一个张量(Year,Attribute,Time), 我们需要预估的即图中标记为红色的部分。大致框架如下图表示:

图2:3rd-order张量分解

其中

表示我们的库存文件,

是属性组合的总数目,

表示时间跨度,

表示多年历史数据。基于PVD(population Value Decomposition)模型,我们可以将张量U分解为

,

和一个核心张量

,

,

分别表示属性组合特征,时间序列特征和长周期特征。我们用

表示U的一个元素,那么我们可以通过

来计算。所以,对于未知的

(图中红色部分), 我们需要通过优化如下损失函数来进行求解:

其中Ω表示所有已知元素的集合,和已知的基于矩阵分解方法(比如TRMF)相比,我们加入了年这一维度,考虑了历史同期的规律对于当前预估的影响,这不仅使得模型框架更加通用,并且可以很好的结合历史长周期的数据进行预测。

图3:Deep spatial-temporal tensor factorization forecastingframework

我们将以上张量分解模作为我们的主体框架,我们将我们的模型设计如图3所示,其中包含三个主要部分:

  • Spatial Model: 该部分用以提取属性组合特征。对于输入的属性组合,我们首先利用Attention Embedding提取相同类别属性中不同值之间的相互关系,该机制的存在可以使得我们更加关注关键的输入部分。当获得所有属性的编码之后,我们将其拼接作为DeepCross网络的输入,用以提取不同类别属性之间的关联关系。对于DeepCross网络,通常初始化输入记作

,第 g 层则可以递归的表示为

,其中

是神经网络的参数。

  • Temporal Feature Modeling:受启发于CLDNN,我们将CNN,RNN进行结合用以提取历史数据的时序特征。首先利用CNN进行浅层特征的提取,然后将该特征作为RNN的输入,获得时序特征。其中

表示所有已知年份的M天的历史数据,该部分用以提取时序特征和周期特征,

该部分表示历史同期数据,用以提取长周期特征。

  • Multi-task: 如图3所示,我们有两个任务:1)利用自编码器重构历史数据;2)利用张量分解预估未来的广告库存。我们通过如下公式最小化两者的损失函数:

, 其用来权衡两个任务的权重。通常来说,我们设置η < 0.5,因为我们的主要任务是用来做预测。Multi-task的设计有如下优点:1)最小化信息损失(自编码器);2)共享CNN、RNN等网络层,减少模型复杂度;3)提高预估准确率。

3.实验结果

3.1 参数和时间

传统的时间序列模型比如TBATS或者ARIMA需要对每一个时间序列进行单独的模型预测,所以需要极大的时间,我们在这里不做对比。由于multi-task共享参数的设计导致参数数目的降低,具体数据如下图所示:

表1:参数数目以及训练时间

3.2 实验结果

我们在两个真实的数据集上做了验证实验(腾讯视频前贴片以及PEMS-SF),评价标准我们选择Normalized deviation(ND)和normalized root mean square error (NRMSE),定义如下:

实验结果如下图所示:

图4:28-days 平均ND以及28-days 平均NRMSE

可以看出,ST-TF模型在ND和NRMSE上均获得了最好的表现,分别为0.179和1.093。在腾讯视频前贴片上,ST-TF相对于CNN获得了8.7%的提升,相对于TRMF获得了5.8%的提升。而在PEMS-SF上我们同样获得了最好的表现,相对于CNN和TRMF分别提升9.8%和7.6%。这些提升主要来源于更好的属性组合特征提取的设计以及multi-task等。

4.总结

腾讯广告算法团队的论文《Large-scale User Visits Understanding and Forecasting with Deep Spatial-Temporal Tensor Factorization Framework》引入了张量分解结合深度学习的设计,取得了较好的预估结果。在未来的工作中,我们会不断增强对业务的理解,探索更加准确有效的模型,支撑业务的发展。感谢腾讯品牌广告算法团队和中科大计算机学院下一代移动计算与数据创新实验室的建议和贡献。

2019 全球人工智能与机器人峰会

由中国计算机学会主办、雷锋网和香港中文大学(深圳)联合承办的 2019 全球人工智能与机器人峰会( CCF-GAIR 2019),将于 2019 年 7 月 12 日至 14 日在深圳举行。

届时,诺贝尔奖得主JamesJ. Heckman、中外院士、世界顶会主席、知名Fellow,多位重磅嘉宾将亲自坐阵,一起探讨人工智能和机器人领域学、产、投等复杂的生存态势。

点击阅读原文,加入 KDD 顶会交流小组与同行切磋、交流

本文分享自微信公众号 - AI科技评论(aitechtalk)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 系列 | OpenVINO视觉加速库使用三

    OpenVINO除了可以集成OpenCV DNN一起使用之外,其本身也提供了一套开发接口(SDK),可以不依赖于其他任何第三方库实现对模型的加速推断运行。

    OpenCV学堂
  • Selective Search算法与演示

    在对象检测RCNN模型中使用了SS(Selective Search)进行区域推荐,改进了传统图像检测进行全局开窗检测的高计算消耗,典型的对象检测网络RCNN的...

    OpenCV学堂
  • 数据科学的下一个「超能力」:模型可解释性

    在过去的 10 年间,我采访了许多数据科学家,模型的可解释性是我最喜欢的主题,我用它来区分最好的数据科学家和一般的数据科学家。

    机器之心
  • FoveaBox:目标检测新纪元,无Anchor时代来临!

    目标检测的任务是“分类”并从图像中“定位”出物体,但长久以来,该领域的工作大多是这样:生成可能包含目标的区域,然后在该区域提取特征并分类。

    OpenCV学堂
  • MIT本科学神重启基于能量的生成模型,新框架堪比GAN

    值得注意的是,一作 Yilun Du 还是 MIT 的大四本科生,他从 15 年大一开始就发过 ECCV 16、NIPS 18 等多个大会和 Workshop ...

    机器之心
  • DeepMind深度学习高级课程,视频已全部放出

    课号COMPGI22,名叫高级深度学习和强化学习 (Advanced Deep Learning and Reinforcement Learning) ,是今...

    量子位
  • 零基础ML建模,自动机器学习平台R2 Learn开放免费试用

    在数据的世界中,机器学习已经成为不可或缺的工具。机器学习可以帮助发现隐藏在大量数据中的特定知识。很多时候,这些知识都不是人类能轻易分析得出的,它展示了大量事实之...

    机器之心
  • 一张照片获得3D人体信息,云从科技提出新型DenseBody框架

    多年以来,如何从单一图像估计人体的姿势和形状是多项应用都在研究的问题。研究者提出不同的方法,试图部分或者联合地解决此问题。本文将介绍一种端到端的方法,使用 CN...

    机器之心
  • 四块GPU即可训练BigGAN:「官方版」PyTorch实现出炉

    项目链接:https://github.com/ajbrock/BigGAN-PyTorch 该项目一出即引发了人们的广泛关注,有的人表示不敢相信,也有人哭晕...

    机器之心
  • HOG特征详解与行人检测

    HOG(Histogram of Oriented Gradient)特征在对象检测与模式匹配中是一种常见的特征提取算法,是基于本地像素块进行特征直方图提取的一...

    OpenCV学堂

扫码关注云+社区

领取腾讯云代金券