专栏首页arxiv.org翻译专栏无需探索实时出价的最佳出价策略(CS.LG)
原创

无需探索实时出价的最佳出价策略(CS.LG)

在预算约束下使效用最大化是广告商在实时出价(RTB)系统中的主要目标。使效用最大化的策略称为最佳出价策略。较早的最优竞标策略研究采用了基于模型的批量强化学习方法,该方法无法推广到未知的预算和时间约束。此外,广告商观察到审查的市场价格,这使得在批处理测试数据集上无法进行直接评估。先前的作品忽略了失败的拍卖,以减轻被审查国家的困难。从而显着修改测试分布。我们解决了缺乏清晰的评估程序以及RTB系统中通过分批强化学习方法传播的错误的挑战。我们在顺序竞标过程中利用了两个条件独立性结构,这些结构使我们能够使用最大熵原理提出一个新颖的实用框架,以模仿实时流量中观察到的真实分布的行为。此外,该框架允许我们训练一个模型,该模型可以推广到看不见的预算状况,而不仅限于历史上观察到的状况。我们在具有多个基准的两个真实世界实时出价数据集上比较了我们的方法,并证明了在各种预算设置下的性能显着提高。

原文标题:Optimal Bidding Strategy without Exploration in Real-time Bidding

原文:Maximizing utility with a budget constraint is the primary goal for advertisers in real-time bidding (RTB) systems. The policy maximizing the utility is referred to as the optimal bidding strategy. Earlier works on optimal bidding strategy apply model-based batch reinforcement learning methods which can not generalize to unknown budget and time constraint. Further, the advertiser observes a censored market price which makes direct evaluation infeasible on batch test datasets. Previous works ignore the losing auctions to alleviate the difficulty with censored states; thus significantly modifying the test distribution. We address the challenge of lacking a clear evaluation procedure as well as the error propagated through batch reinforcement learning methods in RTB systems. We exploit two conditional independence structures in the sequential bidding process that allow us to propose a novel practical framework using the maximum entropy principle to imitate the behavior of the true distribution observed in real-time traffic. Moreover, the framework allows us to train a model that can generalize to the unseen budget conditions than limit only to those observed in history. We compare our methods on two real-world RTB datasets with several baselines and demonstrate significantly improved performance under various budget settings.

原文作者:Davide Abati, Jakub Tomczak, Tijmen Blankevoort, Simone Calderara, Rita Cucchiara, Babak Ehteshami Bejnordi

原文地址:https://arxiv.org/abs/2004.00070

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 多语言姿态检测:加泰罗尼亚独立语料库(CS.CL)

    姿态检测旨在确定给定文本相对于特定主题或主张的态度。尽管最近几年对姿势检测进行了很好的研究,但大多数工作都集中在英语上。这主要是由于其他语言中相对缺少带注释的数...

    蔡小雪7100294
  • 姿势指导可见部分匹配的被遮挡人ReID (CS.CV)

    由于外观因各种障碍而变化很大,特别是在人群场景中,对人员进行重新识别是一项艰巨的任务。为了解决这个问题,我们提出了一种姿势指导的可见零件匹配(PVPM)方法,该...

    蔡小雪7100294
  • NetDP:用于蚂蚁信用支付中的默认预测的工业规模分布式网络表示框架(CS.LG)

    蚂蚁信用支付是蚂蚁商业风险组中的消费信贷服务。与信用卡类似,贷款违约是该信贷产品的主要风险之一。因此,有效的违约预测算法是公司减少损失和增加利润的关键。但是,我...

    蔡小雪7100294
  • 情绪可控聊天机器人的研究(CS)

    传统的seq2seq聊天机器人模型只在输入序列的条件下寻找概率最高的句子,而不考虑输出句子的情绪。本文以seq2seq模型为基础,研究了基于人物的模型、强化学习...

    N乳酸菌
  • HDUOJ-------2493Timer(数学 2008北京现场赛H题)

    Timer Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Jav...

    Gxjun
  • Android init language与init.rc初始化脚本

    参考: android源码目录里的system/core/init/readme.txt.

    morixinguan
  • 如何根据GSE/SRA/SRR号进行原始的数据下载

    (最近在准备托福考试,出现的英文比较多,纯手打,为了训练一下,祝我好运呀~) ----------------------------------------...

    liu_ll
  • Linux命令行基础

    AT&T公司于20世纪70年代发布了UNIX系统。经过多年的发展,Unix不再是某一个具体操作系统的名称,而是对遵循Unix规范、设计和哲学的一类操作系统的统称...

    雪飞鸿
  • WashU EpiGenome Browser使用教程

    WashU EpiGenome Browser 是我用过最赞的浏览器,没有之一。希望大伙跟着教程好好学习下! 还有更多教程见:http://epigenomeg...

    生信技能树
  • 使用深度强化学习测试三消游戏(CS AI)

    测试视频游戏是制作过程中的关键步骤,需要花费大量时间和资源。一些软件公司正试图使用​​人工智能来替代能够使用人工代理的系统来减少对人力资源的需求。我们研究了使用...

    刘子蔚

扫码关注云+社区

领取腾讯云代金券