学习
实践
活动
专区
工具
TVP
写文章

CTR 预估候选集选择方案

最近一段日子,怎么在一个大的新闻候选集合(假设有10w条新闻)选出用来做 CTR 预估的小集合(假设是100条新闻)困扰我们已久,昨夜我夜观星象,突来灵感,遂有此文。 废话,不选个小集合 CTR 预估怎么算得过来。好,那么目的一便是确定一个精简的集合以使 CTR 预估能在线上实时响应。再进一步思考,这100条新闻要是怎么样的新闻? 准确率高:具体指这100条新闻的每一条新闻都有一个相比于普通新闻更容易被点击的理由 覆盖率高:具体指100条新闻要覆盖绝大部分上面一点所说的理由(假设有若干个理由),以减小容易被点击新闻没有进入 CTR 预估流程的概率 顺着这样的思路,我整理出如下图的候选集触发方案: ? 方案分两部分,分别是候选集触发和融合&过滤。下面分别进行介绍: 候选集触发 在此候选集触发方案中,不仅满足上述 “准确率高” 和 “覆盖率高” 两原则,并且各个方案之间可以弥补各自的缺陷。

32620
  • 广告
    关闭

    热门业务场景教学

    个人网站、项目部署、开发环境、游戏服务器、图床、渲染训练等免费搭建教程,多款云服务器20元起。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    SIGIR 2021 | 广告系统位置偏差的CTR模型优化方案

    在之前分享的《KDD Cup 2020 Debiasing比赛冠军技术方案与广告业务应用》一文[4]中,团队分享了在KDD Cup比赛中取得冠军的选择性偏差以及流行度偏差的解决方案,同时也分享了在广告业务上偏差优化的技术框架 本文基于这一技术框架进行继续介绍,聚焦于位置偏差问题的最新进展,并详细地介绍团队在美团广告取得显著业务效果的位置偏差CTR模型优化方案,以该方案为基础形成的论文《Deep Position-wise Interaction 因此,解决好位置偏差问题不仅能够提升广告系统的效果,而且还能平衡广告系统的生态,促进系统的公平性。 ? 同时本文还在线上部署了A/B Test,验证了DPIN与高度优化的已有基线相比有显著提升。 2. 最终,相较于我们的线上基线模型DIN+PosInWide,DPIN取得了2.98%的AUC增益和1.07%的PAUC增益,这在我们的业务场景中是一次极大的AUC和PAUC提升

    41810

    计算广告——平滑CTR

    3、广告点击率(CTR) 广告点击率CTR是度量一个用户对于一个广告的行为的最好的度量方法,广告点击率可以定义为:对于一个广告的被点击(click)的次数于被展示(impression)的次数的比值。 CTR=#click#impression CTR=\frac{\#\; click}{\#\; impression} 广告点击率对于在线广告有着重要的作用,在网络中,对于有限的流量,通常要选择出最优质的广告进行投放 ,此时,CTR可以作为选择广告和确定广告顺序的一个重要的标准。 但是在计算CTR时,由于数据的稀疏性,利用上述的计算方法得到的CTR通常具有较大的偏差,这样的偏差主要表现在如下的两种情况: 1、例如展示impression的次数很小,如11次,其中,点击的次数也很小 (这里的很小是指数值很小),如11,按照上述的CTR的计算方法,其CTR为11,此时的点击率就被我们估计高了; 2、例如展示的次数很大,但是点击的次数很小,此时,利用上述的方法求得的CTR就会比实际的CTR

    88620

    计算广告——平滑CTR

    这里便出现了一个重要的概念,便是广告点击率(the click-through rate, CTR)。 3、广告点击率(CTR) 广告点击率CTR是度量一个用户对于一个广告的行为的最好的度量方法,广告点击率可以定义为:对于一个广告的被点击(click)的次数于被展示(impression)的次数的比值。 但是在计算CTR时,由于数据的稀疏性,利用上述的计算方法得到的CTR通常具有较大的偏差,这样的偏差主要表现在如下的两种情况: 1、例如展示impression的次数很小,如11次,其中,点击的次数也很小 (这里的很小是指数值很小),如11,按照上述的CTR的计算方法,其CTR为11,此时的点击率就被我们估计高了; 2、例如展示的次数很大,但是点击的次数很小,此时,利用上述的方法求得的CTR就会比实际的CTR 二、CTR的平滑方法 1、数据的层次结构——贝叶斯平滑 image.png 其对应的概率图模型为: ?

    1.4K120

    深度网络CTR建模

    概述 CTR预估是现如今的搜索、推荐以及广告中必不可少的一部分,CTR预估的目标是预估用户点击给定item的概率。 经过这么多年的发展,CTR预估算法得到了较大的改进,从开始的线性模型LR,发展到带有特征交叉的FM算法,随着深度网络的发展,CTR预估也逐渐发展到如今的基于深度模型的CTR预估,期间出现了较大一批成功在业界得到广泛应用的算法模型 在CTR预估方面,相比较于NLP和CV领域,其特征相对是大规模的,且是稀疏的,为了能够使用深度网络对CTR数据建模,需要在结构上做相应的调整,使得数据能够适应深度网络模型。 2. 深度CTR模型在问题求解上的发展 参考[4]中给出了近年来深度CTR模型本身的发展,详细介绍了每一个模型在先前工作上的一些改进,下面是我在阅读一些文章后,结合参考[4]给出的深度CTR模型在问题求解思路上的发展 总结 深度学习模型在CTR问题上的探索还在继续,在CTR建模上也有更多更复杂的模型出现,在模型迭代的过程中,挖掘出更多有用的特征也是一条不断探索的道路。

    9620

    深度网络CTR建模

    概述CTR预估是现如今的搜索、推荐以及广告中必不可少的一部分,CTR预估的目标是预估用户点击给定item的概率。 经过这么多年的发展,CTR预估算法得到了较大的改进,从开始的线性模型LR,发展到带有特征交叉的FM算法,随着深度网络的发展,CTR预估也逐渐发展到如今的基于深度模型的CTR预估,期间出现了较大一批成功在业界得到广泛应用的算法模型 在CTR预估方面,相比较于NLP和CV领域,其特征相对是大规模的,且是稀疏的,为了能够使用深度网络对CTR数据建模,需要在结构上做相应的调整,使得数据能够适应深度网络模型。2. 深度CTR模型在问题求解上的发展参考[4]中给出了近年来深度CTR模型本身的发展,详细介绍了每一个模型在先前工作上的一些改进,下面是我在阅读一些文章后,结合参考[4]给出的深度CTR模型在问题求解思路上的发展 总结深度学习模型在CTR问题上的探索还在继续,在CTR建模上也有更多更复杂的模型出现,在模型迭代的过程中,挖掘出更多有用的特征也是一条不断探索的道路。

    7910

    CTR学习笔记&代码实现5-深度ctr模型 DeepCrossing -> DCN

    DeepCrossing是最早在CTR模型中使用ResNet的前辈,DCN在ResNet上进一步创新,为高阶特征交互提供了新的方法并支持任意阶数的特征交叉。 那把ResNet放到CTR模型里又有什么特殊的优势呢?老实说感觉像是把那个时期比较牛的框架直接拿来用。。。 DCN已经很优秀,只能想到可以吐槽的点 对记忆信息的学习可能会有不足,虽然有ResNet但输入已经是Embedding特征,多少已经是泛化后的特征表达,不知道再加入Wide部分是不是会有提升CTR学习笔记&代码实现1-深度学习的前奏LR->FFM CTR学习笔记&代码实现2-深度ctr模型 MLP->Wide&Deep CTR学习笔记&代码实现3-深度ctr模型 FNN->PNN->DeepFM CTR学习笔记&代码实现4-深度ctr模型 NFM/AFM ---- 资料 Gang Fu,Mingliang Wang, 2017, Deep & Cross Network for Ad Click

    961111

    CTR 预估模型的进化之路

    梯度提升(Gradient Boosting):每次建树是在之前建树损失函数的梯度下降方向上进行优化,因为梯度方向(求导) 是函数变化最陡的方向。不断优化之前的弱分类器,得到更强的分类器。 有如下改进方案供读者参考: 方案一:GBDT 训练除 id 类特征以外的所有特征,其他 id 类特征在 LR 阶段再加入。 目前工业界方案是 FNN4,即用 FM 做 Embedding,DNN 做训练。 6.1 优缺点 优点:MLR 通过先验知识对样本空间的划分可以有效提升 LR 对非线性的拟合能力,比较适合于电商场景,如 3C 类和服装类不需要分别训练各自不同的 LR 模型,学生人群和上班族也不需要单独训练各自的 online 算法其实并不复杂,batch 算法需要遍历所有样本才能进行一轮参数的迭代求解(如随机梯度下降),而 online 算法可以每取一个训练样本,就对参数进行一次更新,大大提升了效率。

    3K82

    让开发效率提升的跨端方案

    在这些多种多样的跨端诉求基础上,相对应的,是百花齐放的跨端方案。主流跨端开发方案跨端方案或多或少都能过起到研发降本增效的作用,方案各自有其优劣势。 目前市面上主流跨端开发方案有以下4种:1、以 Web 为基础的 H5 Hybrid 方案这类方案简单来说就是用网页来跨端。 但从前端开发视角看,Flutter更像是一个Native开发方案而非跨端方案(虽然其实是跨 Android/iOS 的)。 4、小程序运行时方案这个方案可以说是笔者认为目前性价比最高的方案,没有之一。 跨端开发的本质是实现降本增效,在对于业务支撑做新的技术方案选型的同时,更重要的是如何让这种提效真的长治久安,让我们的提效不会变成从一个新方案跳到另外一个新方案

    10620

    WSDM23 | CL4CTR:用于CTR预测的对比学习框架

    关注我们,一起学习~ 标题:CL4CTR: A Contrastive Learning Framework for CTR Prediction 地址:https://arxiv.org/pdf/2212.00522 .pdf 代码:https://github.com/cl4ctr/cl4ctr 会议:WSDM 2023 学校,公司:复旦,微软 1. 本文引入了自监督学习来直接生成高质量的特征表征,并提出了一个模型不可知的CTR对比学习(CL4CTR)框架,该框架由三个自监督学习信号组成,以规范特征表征学习:对比损失、特征对齐和域一致性。 CL4CTR image.png 2.1 CTR预测任务 CTR预测是一项二分类任务。 在CTR预测任务中,发现同一域的特征类似于正样本对,而不同场的特征则类似于负样本对。因此,本文提出了CTR预测中对比学习的两个新特性,即特征对齐和场均匀性,它们可以在训练过程中正则化特征表征。

    8430

    Google 最新的性能优化方案,LCP 提升30%!

    网页的性能,大部分情况下是影响用户使用体验的第一要素,特别是对于很多电商、金融网站,可能几秒的性能提升就意味着更大的转化率和收益。 所以优化网页的性能,一直是前端工程师最热衷的工作之一。 数据预取 那么, 如果可以预取网页上所需的资源文件,也就是在用户访问这些页面之前就获取它们,这将给网页带来巨大的性能提升。 数据预取后,网页在可以正常显示之前只剩下了评估、布局和渲染工作了。 私有预取代理方案 为了实现更安全隐私的数据预取,Google 提出了一种新的数据预取方案:Private prefetch proxy(私有预取代理),Google Search 已经实施了这项方案,导航的 LCP 预计有 20%-30% 的提升! 目前,Chrome 会限制只有用户没有 Cookie 或其他本地状态的网站才能使用私有预取代理方案

    41210

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 声音工坊

      声音工坊

      声音工坊( TTSW )提供定制音色的能力,满足客户定制化需求。通过先进的深度学习技术,根据客户实际业务情况,提供不同的定制方案,从而更有效、更专业地服务实际业务需求。普遍适用于智能客服、智能硬件、在线教育、有声阅读、新闻播报等场景,通过训练专属业务音色,从而更好的服务业务场景,提升交互体验。

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券