前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯 | ADSNet:基于自适应孪生网络的广告跨域LTV预测

腾讯 | ADSNet:基于自适应孪生网络的广告跨域LTV预测

作者头像
秋枫学习笔记
发布2024-07-25 15:59:55
510
发布2024-07-25 15:59:55
举报
文章被收录于专栏:秋枫学习笔记

1 引言

准确的LTV预估对于广告系统的准确性和有效性有重要意义,真实环境中的LTV数据稀疏性较大,使得模型预估LTV值时面临巨大挑战,这极大的限制了LTV预估模型的能力。因此本文提出以下观点:利用广告平台外的外部数据来扩充样本,增强LTV模型的预测能力。同时为解决外部数据与内部数据之间分布差异的问题,提出了自适应差异孪生网络(ADSNet),采用跨域迁移学习来防止负迁移现象。

具体地,ADSNet的设计初衷是学习外部样本中对目标域有益的信息,方法上引入了增益评估策略来计算信息增益,帮助模型学习对目标域有益的信息同时提供拒绝噪声样本的能力,从而避免域变化引起的负迁移问题,此外还设计了域自适应模块作为桥梁来连接不同的域,减少跨域的分布距离,增强空间分布表征的一致性

2 方法

如上图(a)所示,先前大多数的工作通过多域联合学习来改进模型,整合来自源域的知识,尽管这些多域学习方法有许多变式,但有个共同点是未充分研究由于域变化引起的负迁移问题,为解决这个,本文提出的方法ADSNet,如上图2(b)和下图所示。利用伪孪生网络来评估信息增益,支持学习对目标域有益的信息,并拒绝噪声样本,通过增益评估策略,此外引入了域自适应模块作为桥梁来连接不同的域。

2.1 LTV预测基础模型

为了更好地适应显示广告场景中LTV的复杂分布,本文构造了一个深度神经网络(DNN),以有序分类作为LTV预测的基础模型,包括编码层,专家层和塔层。

2.1.1 编码层

根据特征的含义将输入特征分类到不同的特征域,例如用户的基本档案属性,如年龄、性别和地区构成一个特征域,而不同的用户行为序列形成另一个特征域,给定输入特征,将不同域的特征编码成embedding向量并使用特征域加权因子机制(FwFM)来建模不同域的不同特征交互,所有域的emb向量拼接成最终的emb表征。值得注意的是,自动编码方式也可以用来替换FwFM, 如Deep Cross Network(DCN), Learning Hidden Unit Contributions(LHUC), Transformer等

2.1.2 专家层

专家层旨在通过整合多个专家网络来学习和表征不同视角下的输入特征,以捕获数据中的特定模式或特征。受到混合专家结构(MoE)的启发,本文使用PLE作为专家层,由一组专家网络和一个门控网络组成。每个专家网络是一个多层感知机(MLP),门控网络负责确定每个专家对最终输出的贡献。给定编码层的输出表征。将其喂入每个专家网络并获得各自的输出,其中K代表专家数。门控网络同样是MLP结果加上softmax函数,接受同样的输入并得到权重与每个专家网络输出对应,最终输出为加权和

2.1.2 塔层

塔层接收专家网络的输出并生成最终的LTV预测,游戏中客户的LTV数据通常表现出两个显著特征:1) 长尾分布:大部分为0;2) 多峰分布:由于购买金额的标准化(例如:6美元、30美元、98美元和198美元),购买金额呈现多峰分布。为此本文衍生出一个多粒度预测模块,改模块包含两个部分:粗粒度的购买概率预测和细粒度的购买金额预测

购买概率预测:定义二分类模型,由MLP加上sigmoid激活函数构建分类器,损失函数使用交叉熵损失:

其中I代表指示函数

购买金额预测:基于ZILN的通常使用ZILN损失来近似复杂购买分布的均值和方差,与之不同的是,本文开发了一个具有序数分类的多分类模块,将LTV分布划分为几个子分布,并在每个子分布上使用多个二元分类器进行预测。有助于模型学习购买类别的又序性质,并允许直接建模购买金额的累积分布函数,更符合购买金额的固有顺序。将连续的购买标签转换为一组二元分类标签以反映排名信息,具体地,原始LTV标签被分配到一个段,该段表示LTV排序层级的段标签。这些段标签通过等频的方式划分,以保持各段样本大小相对平衡。然后每段标签拓展为k-1个二元类标签其中表示是否超过排名。每个二元分类器使用sigmoid函数激活,表示第k个二元分类器的购买概率,在推理阶段,预测的LTV计算为:

其中表示购买概率,表示第k段的平均ltv值,表示第k段的购买概率

在此阶段,采用二元交叉熵损失对购买金额进行序数分类,定义为:

于是,总的loss定义为:

2.2 差异伪孪生网络

孪生网络是一种典型的深度学习结构,它包含两个具有相同结构的分支,并使用相似或不相似的对来学习相似性。相比之下,伪孪生网络比孪生网络提供更多的灵活性,因为它允许不同的结构接受来自各种模态的输入,借鉴这些框架,本文利用伪孪生网络来评估信息增益,支持从源域(例如广告平台之外的外部数据)学习对目标域有益的信息,并拒绝噪声样本,这种选择性转移能力在实际场景中至关重要。

具体而言,伪孪生网络由一个普通网络和一个增益网络组成。这两个网络基于上节中描述的LTV预测基础模型。增益网络接受来自外部和内部样本的输入,而普通网络仅接受内部样本。在训练过程中,两个网络将更新参数。这种并行参数更新允许每个网络从其各自的数据流中学习,增益网络调整外部和内部通道样本的细微差别,而普通网络则单独的细化理解内部数据。这个过程使伪孪生网络能够有效地区分和整合来自不同数据源的相关信息的关键。在训练过程中,按照的计算方式,定义由增益网络通过外部数据计算的损失为和通过内部数据计算的损失为,普通网络通过内部数据计算的损失为

2.3 增益评估策略

利用伪孪生架构,可以建立度量标准来对比两个网络之间的差异,从而计算输入数据对网络性能的贡献:

其中Score是增益度量函数,在本文中,使用这种方法检查两个网络在内部样本上计算的损失差异,来量化外部数据对增益网络提供的增益,表示为:

如果增益大于0,意味着对内部域有正增益。值得注意的是,除了上述方法,还可以扩展使用强化学习,通过定义与业务目标相关的度量标准。这些度量标准的差可以作为奖励信号,通过对抗性奖励学习来训练网络

2.4 域自适应模块

域自适应模块充当增益网络和普通网络之间的桥梁,减少域分布之间的差异。为此在塔模块的底部集成了一个适配器层,实现为MLP。首先增益网络中的适配器层被用来估计外部数据的重要性,计算为:

然后我们考虑两层的分布差异,包括底层嵌入层和高层塔层。使用均方误差(MSE)通过只是蒸馏来约束分布:

其中EV和EG分别为普通网络和增益网络的嵌入表征输入,HV和HG表示给自的输出,域自适应的损失则是他们的和

2.5 训练过程

训练的整体loss为:其中加入超参来控制各个loss之间的平衡,其中增益网络的损失定义为:

模型训练过程

3 实验结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 秋枫学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 引言
  • 2 方法
    • 2.1 LTV预测基础模型
      • 2.1.1 编码层
      • 2.1.2 专家层
      • 2.1.2 塔层
    • 2.2 差异伪孪生网络
      • 2.3 增益评估策略
        • 2.4 域自适应模块
          • 2.5 训练过程
          • 3 实验结果
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档