跟你想的不同!Look-alike用户行为模拟建模背后的科学分析

译者注:

Look-alike模型是我们关心的领域。

做数字营销的朋友们,希望打破流量的铁律——随着流量数量的增大,流量的质量必然会逐步下降。流量质量下降的原因,本质上就是因为随着流量数量的增加,人群的聚焦性也必然逐步降低,寻找目标人群的难度加大,致使非目标人群的比例也随着流量的增加而增加。因此我们也都知道,质和量无法兼得,智能平衡。

Look-alike是一个有可能打破流量铁律的方法,它的思想是在流量扩张的同时,确保增量流量背后的人群与最初高质量流量的人群具有相同的特征。

Look-alike一定都是基于一个基础的算法,普遍理解的方法是归纳高质量人群的人口特征,然后在更大的流量范围内找具有类似人口特征的人。但是,这个方法实际上操作起来的难度很大,原因种种。那么,是不是可以用其他的方法?这篇文章阐述了另一种更可行的方法,即,通过行为(而非人口属性)的归纳,加上监督学习,实现更合理的look-alike。

被吹嘘的Look-alike模型和基于行为特征的Look-alike

我之前曾在博客里为“大数据”大唱赞歌。我们曾经讨论过最优化算法和可以利用大数据来揭示的洞见。我一次又一次听到的问题是“首先,你是否能把这些洞见变为可实施的方案计划?”“其次,这真的管用么?”。

不要对“用户look-alike模型”买账,除非……

在我的观念里,look-alike模型是一个养兵千日用兵一时的东西,是一个我们把科学按照可以衡量的方式变为行动的好东西。好的模型应该建立在成功的数字媒体基础之上。老生常谈地说,look-alike中有很多“黑箱”。这些行为模拟模型经常被售卖仿佛是因为其复杂性是一个关键的益处,而不是一种障碍似的。我的建议是媒介策划者应该从两方面来看待这种模型(尽管这可以应用在任何人买任何东西上):

  1. 不要买任何你不懂的东西;
  2. 如果一个东西你无法知道是否会起作用,不要购买;

关心一个机器学习驱动的神经网络学研究,并带有判别分析?

基于拟合的模型有什么问题?

没有哪一个宣称可以削减费用的方式是令人耳目一新的。这些方法的大部分都是建立在社会学或者自然科学之上。唯一的改变是数据的体量和处理这些数据的速度。重要的是,不管你是在处理线性回归,神经网络学,或者什么完全不一样的东西,你都是在做同一件事情。你是在和一群人讨论多样性特征并且试图找出适合他们共性特征的最佳拟合。这就是基于拟合的模型。所有东西都同等的情况下,你囊括的变量越多,那么你的拟合就越好。很多人宣称他们的模型里有几十甚至上百个变量。但事实上,这并没有使他们的模型变的更好,如果有任何作用,只是让他们的模型变的更差了。

以下是解释:大多数行为模拟模型都在试图描绘理想用户,然后扩大他们的目标人群,使更多的用户可以被囊括在其中。 Tribal Fusion的look-alike模型则不是这样工作的。和寻找理想用户不一样的是,我们在寻找的是理想行为。

从一个理想用户开始

以下是是一些图片可以帮我更好的解释这个问题,假设这个图标上的每一个点都可以代表一个有着独特特征的用户。

红线代表了一个公式,或者说,一种模型来描述用户。离线越近的点对用户特征的描述就越准确。但是,你注意到这条线只径直穿过了一个点,另有其他几个点只是碰触到了线。这条线描述了理想的用户,但是真正的理想用户其实很少。在很多案例中都是这样,因为模型为了更好的拟合而太过细化。如果你的典型用户只有不多的特征符合这些变量,那即使有200多个变量,在真实世界中不会给你什么好处。

所以应该怎么做呢?大多数媒体会放宽这个模型的拟合条件。他们会设置一个数据阈值,比如说10%-15%的容差。他们中的一部分甚至会根据他们想要覆盖的用户数量凭空改变拟合。换句话说他们是在根据想要为你投放的广告数量来定义模型的。

如上面的图解所示,广告会被两条虚线中间区域的用户看到。这涵盖了更多的用户。然而,这些用户中有的离原始模型很近,有的则离得很远。导致的结果是,广告的表现可能变好或者变坏,取决于广告收看者离最佳拟合线(理想用户)的远近。 当你依据拟合度搭建模型然后在现实世界用之来选定投放对象时,你能到达目标利润很可能会有所偏离。

从用户行为开始?

Tribal Fusion则会采取一个不同的方式。我们承认在开始的时候一个用户在其画像中会有五个或者五百个行为。作为结果,我们不会尝试去描述一个理想型用户。我们会找到对于广告表现最有指示意义的属性。这是一个基于提升度的模型。

在Tribal Fusion的系统中我们有超过15,000个用户属性,但是我们的目标不是用尽可能多的属性。我们过滤出那些影响广告表现的置信度至少为90%的变量。然后就是把它们分级并消除重复项。那些很可能创造转化的行为通常非常具体,所以都只有很低的覆盖率。举例而言,对于一个欧洲航线,那些乘坐前往卢森堡的旅客大概会比一般的互联网用户的转化率高出40倍,但是他们是很小的一个团体。所以我们从一个行为开始,我们会从想要往卢森堡的用户群中选取0.001%的人,然后把他们搁置在一边。

然后我们来看下一个最佳用户行为。这一般是与之前考察行为有联系的行为,比如说,在卢森堡旅馆中住宿的人。因为这两部分用户基数有一些交集,所以我们可以略微提升我们可覆盖的人群,同时聚合提升度就必然会下降,然后我们再寻找下一个最佳行为,然后是再下一个最佳行为。从图形上看,我们的模型是这样的:

曲线上的每一个点都代表了一种我们可以定为目标的行为。从定义上说,曲线上每个行为/点作为广告主的营销目标都是同等有效的,因为这些行为/点都代表了覆盖率和广告表现的平衡状态。为客户工作的时候,我们经常会为客户的营销目的选择正确的行为截点。通常我们会从平均转化率5倍的点开始讨论,然后从这里向上或向下发展。取决于曲线的陡峭程度,比如说你也许会覆盖到那个提升度水平下我们人群库里10%的人群。这会在广告表现和人群覆盖之间达到一个好的平衡。想要覆盖更多的人?我们可以把覆盖率提高20%,但是这会导致聚合提升度下降到3x的水平。

有什么差别?

依据用户行为特征搭建模型比起依靠虚构的完美用户搭建的模型有如下三个好处:

  1. Tribal Fusion依据广告表现来定义我们的模型,并且告诉你有多少人会在这个前提限制下被覆盖。作为结果,你知道应该期待什么。这与基于合适度的模型有很大不同,在拟合度模型中,你先描述你的用户,然后希望能在真实世界中希望有个好结果。
  2. 这个模型独立于数据深度就可以起效,我们关注单个的高提升度用户行为,而非试图在模型中找到具有全部特征的用户。
  3. 这个模型透明可见,不只是告诉你模型中的单个的行为组分,我们也为你提供工具方便你查阅。Tribal Fusion的模型为所有人敞开,你可以查看 <Deep Dive, our audience diagnostics tool for advertisers and agencies>

总结下来,媒介策划者不应该购买无法证明其有效性或者他们不懂的模拟模型。所以如果你是一个媒介购买者而且还不太清楚关于上文中任何一个地方,来联系我们吧。

原文发布于微信公众号 - 互联网数据官(internetcdo)

原文发表时间:2016-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

深度 | 生产级深度学习的开发经验分享:数据集的构建和提升是关键

本文从生产层面强调了深度学习项目开发中需要更加重视数据集的构建,并以作者本人的亲身开发经验为例子,分享了几个简单实用的建议,涉及了数据集特性、迁移学习、指标以及...

1090
来自专栏IT大咖说

游戏AI领域,机器人技术的研究与应用

内容来源:2018 年1月5日,深奇智慧联合创始人高扬在“2018移动技术创新大会”进行《游戏机器人的研究与应用》演讲分享。IT 大咖说(微信id:itdaka...

2037
来自专栏AI科技大本营的专栏

干货 | 1400篇机器学习的文章中,这10篇是最棒的!

【导读】在过去的一个月中, 作者从近 1400 篇有关机器学习的文章中挑选了最有可能帮助职业生涯发展的 10 篇推荐给大家(入选比率为0.7%)。

1022
来自专栏数据的力量

干货 | 从定义到应用,数据挖掘的一次权威定义之旅

1544
来自专栏人工智能头条

干货 | 1400篇机器学习的文章中,这10篇是最棒的!

【导读】在过去的一个月中, 作者从近 1400 篇有关机器学习的文章中挑选了最有可能帮助职业生涯发展的 10 篇推荐给大家(入选比率为0.7%)。

1324
来自专栏AI研习社

博客 | 一个项目的经验教训:关于打乱和拆分数据

最近因为某事要准备一点材料,刚好前段时间给导师做项目的时候遇到一个大坑,浪费了很多时间,所以就着这个问题顺便做点总结。

1652
来自专栏数据派THU

独家 | 如何改善你的训练数据集?(附案例)

这张幻灯片是Andrej Karpathy 在Train AI 演讲的一部分,我很赞同它表达的观点。它充分体现了深度学习在研究和应用上的差异。学术论文几乎全部集...

1024
来自专栏量子位

连AI都在看《英雄联盟》游戏直播

原作:Robert Hunt(FormDs创始人) 李林 问耕 编译整理 量子位 出品 | 公众号 QbitAI 打游戏和看人打游戏,都是一种乐趣。 最近,吃鸡...

3668
来自专栏人工智能头条

算法、应用与计算平台,讯飞百度阿里360的深度学习经

2594
来自专栏SIGAI学习与实践平台

人工智能非技术从业者必知的十件事

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。

1201

扫码关注云+社区

领取腾讯云代金券