使用归因模型前,要先填上这8个坑!

仲志成,iCDO原创志愿者

在互联网数据领域,归因模型常被提及。如何用对数据,如何真正让归因模型产生价值,作者为我们总结了8个坑。让我们一起来看看自己有没有落入某个坑中~

台上一分钟台下十年功,准备的充分不一定能成功,但准备的不充分没多大可能成功!

使用归因模型前,要做好哪些准备工作呢?笔者总结出了8个,并不是这8个中的每一条都适用于每一个人,但每个人应该都会从这个8条中找到自己适用的部分。

先简单介绍一下归因模型。

在互联网数据领域,归因模型主要是指:一种、一组规则或算法,用于确定用户通过多个渠道访问时,将业绩功劳分配给哪一个渠道。每款归因模型都有各自适用的场景,应用中通常结合业务,来找到最合适的那款。希望了解主流归因模型的同学可以查看我们互联网数据官2016年12月发布的《【分析方法】十一种营销归因模型大诠释》这篇文章。戳一下链接: 查看!

进入正题,8个坑挨个说。

第1坑:数据分析的前提是有数据:该监控的没监控或者监控错了,那就不要再琢磨什么归因了!

在笔者接的几十个网站和APP数据监控项目和私活里,有接近一半会问归因的事。但领笔者惊讶的是:他们居然全部中枪,每一个存在数据没监控或者监控错了的情况!

数据分析的前提是有数据:该监控的没监控或者监控错了,那就不要再琢磨什么归因了,对不对!

网站、HTML5还好说,小步快跑,快速迭代,立即修改,就好了嘛。

可是APP咋办啊?之前常见的方法是:版本更新的时候,补、修正监控。可是这种方法存在两个问题:

  • 问题1:一些用户并不会更新版本或者说更新版本比较慢,这就导致你补、修的数据变得正常要一段时间之后,这期间数据还是漏的或者错的;再想一想那些跨版本更新(例如,1.2050版本后一直没更新,直到3.0488版本才更新)的用户,这数据还能看了吗?想想就觉得头疼。
  • 问题2:这次的更新照样可能遗漏或者出错。╮(╯▽╰)╭!这就导致了APP的数据如果开始没规划好,后面就乱的一B。不要说归因了,分析都不靠谱。

万幸,某度的移动统计和某IO的无埋点(或者叫可视化埋点),让APP也能小步快跑,快速迭代,立即修改!

这里给APP监控的朋友一个建议:选择监控工具的时候,为了能归因,先看它能不能让你“小步快跑,快速迭代,立即修改”,如果答案是否定的,最好别选!

第2坑:程序化广告到底投在了哪里:广告在哪里都不知道,归的哪门子因啊!

在如今的程序化广告优化师圈子里,流行这么一种观点:再精准的人群定向,也比不上好物料和好文案;再好的物料和文案,也比不上一组黑名单列表。(在程序化广告里,黑名单是指:你不希望你的广告出现的地方)你说连广告到底出现在哪里都TM不知道,你能归的哪门子因啊!

在2016年底、2017年初的一个项目里,一个从事数字广告16年的资深顾问对笔者说:“我从来没见过百度网盟能有这么好的效果,这么高的转化率,这么低的CPA(每次转化的成本)······”然后,这位大佬头头是道的分析了效果这么好的原因。笔者只是给他截了下面这张图:

上面的截图是4万个黑名单列表。有些同学可能会觉得是4万这个数字,量变引发质变了。但笔者告诉你,4万仅仅是百度网盟资源总量的2%左右。

由于这才是这位大佬16年数字广告经验中唯一的变量,所以他也只好赞同:黑名单列表是最重要的了。

下面笔者以百度网盟为例,简单和大家说明:如何把广告具体出现在哪里和最终的转化穿起来!

如果使用百度统计,那没的说——无缝对接;但不没用百度统计咋办呢?

最佳解决方案:直接装一个百度统计呗,这有啥说的啊!

有些同学会想:我希望在其它工具里能看到百度网盟的广告到底投放到了哪里?其实很简单,只要在监控工具广告标记的来源字段里,调用公开接口(URL通配符){placement}即可!举个例子,utm标记里这么做:utm_source={placement}就OK了。想知道更多百度广告公开接口的同学,可以百度:百度商业开发者中心,或者戳此链接:http://t.cn/R6mTW4n

提醒一下使用广告监控工具的同学,这类公开接口必须放在程序化广告平台端(即:包含广告标记字段的着陆页链接必须直接作为推广链接),经过程序化广告平台的数据库,才会获取到对应的真实来源。没看懂的同学,请看下面的示意图:

PS:即使这么做了,还是有些“小网盟”到底把广告投在了哪里,我们不知道!因为这些小网盟,并没有把广告到底投放到哪里“告诉”百度网盟,所以百度网盟也没办法告诉我们,这在程序化广告领域是个比较常见的现象。笔者作为代运营人员采取的应对手段是:预算有限,这些“小网盟”直接不投;预算富余,测试投放!如果你是收返点的代理,直接当我没说怎么应对哈。

第3坑:一人多设备,手机+电脑+pad,成了3个人:不跨屏,无归因!

现在,一个人同时使用手机+电脑+pad访问同一个公司的网站和APP是很常见的一个现象。这时候,算几个人呢?如果不跨域,至少算3个人,数都数不准的话,还能指望归因有用吗?跨屏是必须做的,笔者在这里和大家聊一聊常见跨屏技术的优劣。常见的跨域手段是3种:

  1. UID(一般是注册名)强账号体系。老流氓腾讯之所以会被一些人说成BAT最后剩下的那个,就是因为它有这个东西。腾讯在这方面的布局可谓精心,一些小网站直接是QQ或者微信号注册。这种方法的优点是:简单粗暴,行之有效!成本低、好实现、准确度高(已知的最低准确率是80%,最高的超过95%)。缺点是:像腾讯这么广阔用户群的公司比较少,UID的覆盖率比较低,接近50%的就是极其高了,多数是三分之一左右。
  2. 大数据方法。对于这个被说烂了的词,咱们直接说优缺点。优点:大多数人都可以识别。缺点:成本高、不容易实现,已知比较高的准确率是80%,数据不能冷启动(开始没数据的时候,跨不了屏)。
  3. 前两种方法结合。这个好理解,直接上优缺点。优点:覆盖面最大,准确度最高。缺点:成本最高,最不容易实现。

总结至如下表格:

序号

方法

优点

缺点

1

UID

成本低、易实现、精度高

不登录,不跨屏覆盖率低

2

大数据

大多数屏可跨

成本高、难实现、精度有限、数据不能冷启动

3

UID+大数据

覆盖面最大,精度最高

成本最高,最不易实现

认真看并且思考的朋友这个时候可能意识到了:既不登陆,也没多少数据的人,跨不了屏!所以说,由于有些屏是跨不了的,有些因就是没法归的。

第4坑:公司好几个域名,数据全乱套了:域都不跨,还想归因?!

坑2提到的项目里,投了SEM、程序化、信息流,还做了软文和SEO,并且都添加了广告识别标记。但是电商订单的来源只有3个:直接、微信和品牌站。到网站看了看发现,该公司有两个域名:一个是官网品牌站,一个是官方商城。笔者接手前,没做跨域,数据就成这样了。

这样与实际情况不符的数据,不会有人认为它能做归因吧。

笔者果断做了跨域,由于不同工具有差别,这里就不说如何实现的了。

第5坑:网站流量统计工具的第一方cookie行吗?:人都不认识,还能归因吗?

笔者和老婆经常使用的设备是:3台电脑、1个ipad mini、2个红米、2个华为、1个VIVO、1个魅族和1个OPPO。(作为一个做数字广告的人,别和我说你不知道为什么这么多东西)笔者和老婆会用这11个设备访问京东,3台电脑是访问京东的网站,8个移动设备是访问京东APP或者在微信里访问京东。除了买礼物会开小号外(要有惊喜对不对),一般是用笔者的老号。

一个有趣的问题出现了,2个人,11个设备,至少19个User Agent(电脑每个浏览器算一个User Agent、移动设备APP算一个、微信里算一个),3个平台:网站、APP、微信,一个账号,一个公司;京东到底会算成几个UV?(唯一身份用户)

按照绝大多数流量统计工具计算方法:不登录的情况下,一个User Agent算一个UV,至少19个UV;登录情况下,基于UID的强账号体系是1个UV;基于算法的话常见的是1-至少19个UV;UID+算法是1-2个UV。

开篇讲归因模型概念的时候,有提到过归因是基于用户的。如果连用户到底有几个都识别不出来,那么归因纯粹是扯了!一些朋友可能会觉得这个坑和跨屏的坑很像,为什么不是坑4。笔者刻意把它放在跨域这个坑后面,是因为此处笔者要说的是,既跨屏,又跨域的场景。

大家试想一下,笔者坑4里笔者提到的场景:品牌站、电商站两个域名;同时,笔者用百度PC和手百都访问过网站,数据的混乱程度是坑3+坑4。此时,任何仅仅基于第一方cookie作为用户唯一身份标识符的网站流量统计工具都没有办法应对了。

在这个业务场景中,笔者并没有看到特别好的解决方法,只把现在正在使用的一些解决方法说给大家听一听。

  • 方法1:使用先进的第三方广告监测工具。广告监测工具的用户唯一身份标识符是第三方cookie(第一方cookie是指:与域名绑定的cookie;第三方cookie是指:与第三方服务器绑定的cookie),不存在跨域的问题,同时结合坑3的解决方法即可。坑3的缺点这个方法都要承受,同时还要承受第三方cookie高丢失率(>30%,第三方cookie丢失率高的一个原因是清理浏览器cookie时,默认保留第一方cookie)。
  • 方法2:在数据生态圈内。主要是指3家:百度、腾讯、谷歌。百度统计推广版的用户唯一身份标识符计算时是会把百度广告端的第三方cookie考虑进来的,这甚至是比方法一更好的。腾讯这个老流氓的强账号体系太强了,用户基数基本覆盖全中国,同时基本大家是会登录的,腾讯的产品又基本不存在域名这件事,所以它也可以解决这个问题。谷歌通过adid(可以理解为在谷歌的广告体系内不会被用户删除的第三方cookie)把自己的广告体系整合起来,也可以达到百度统计推广版的效果。但它们的通病是:只能在自己的体系内解决该问题,假设广告主同时投放:百度、腾讯、谷歌、头条、品友,它们就都无奈了。
  • 方法3:广告主的DMP系统。从技术上来讲,这3个方法的基础原理其实是一样的。区别在于:数据能够覆盖的范围。毫无疑问,这个方法覆盖的范围是最小的。但出于数据隐私的考虑,有实力的公司,还是会选择这条路。

第6坑:你的流量分析不错,但是它和生意有什么直接关系吗:一切没有财务数据的数据分析都是耍流氓!没有财务数据就别TM归因了,行不行啊!

笔者在工作中,经常遇到如下这类场景。

渠道

访问量

转化率

A

1,189

4.49%

B

1,100

1.47%

这时,大多数人判定A渠道的价值更高。但当我们加入另外一个变量成本数据后,会发生什么呢?

渠道

访问量

转化率

CPS(RMB)

A

1,189

4.49%

14.48

B

1,100

1.47%

3.43

现在,你觉得那个渠道价值更高呢?再把收入数据加上呢?

你和你老板说,A渠道转化率是B的3倍,他恐怕不会有什么反应。但你和他说,A渠道的成本是B渠道的4倍,他很可能会皱一下眉。要是你能再告诉他,A渠道赚的钱是B渠道的5倍,相信他会确定A渠道比B渠道好。

上面这个场景只是基础的数据分析,但你应该能感受到,不考虑财务数据的分析,其实没有什么价值。任何一个财务数据的加入,都可能改变最终的分析结果。科学实验、市场调研除外,其它任何不考虑财务数据的数据分析都是在搞笑,结论很可能是站不住脚的。归因是一种分析广告效果的数据分析思想,毫无疑问,不考虑财务数据的归因统统都是在耍流氓!

第7坑:线上线下,数据割裂:不整合,咋归因?

以汽车品牌站为例,网站的转化一般就是预约试驾,那么最终成单数据呢?

首先,这种分销模式下,数据的及时汇总统计,不现实。

其次,中间的影响因素太多,比如,销售的水平。

再次,对于汽车企业来讲,网站只是一个载体而已,不是生意的全部。

最后,目前这个问题,没有解决方案,或者说没有哪个厂商有资格说自己有解决方案。

以上4点,其它行业也可能会面对,尤其是第2点和第4点,基本上是共性问题。

笔者认为,当下不推荐通过整合线上线下数据进行归因,更加推荐按照网站销售线索单价为基准进行归因,或者不进行归因。目前,整合线上线下数据进行归因的难题是属于科学家的。

第8坑:你这个归因方法是怎么来的:模型都不对,纯粹瞎归因!

开篇介绍归因模型时,有提到过不同归因模型有不同的适用场景,开篇推荐的文章里介绍了这部分,笔者就不赘述了。

笔者在这里和大家聊一聊那些所谓的高级归因模型——以数据为依据的归因模型。这种模型有3类:

  • 第一类:用一个玄而又玄的算法,建立模型,可以自动调参,号称可以应对所有场景。
  • 第二类:用好几个算法,各自建立模型,每个算法对应不同的应用场景,并且可以自动调参,需要人工选择此时应该用哪个模型。
  • 第三类:用好几个算法,各自建立模型,每个算法对应不同的应用场景,并且可以自动调参,同时有个场景识别算法,自动判定此时应该用哪个模型。

显而易见,第一类最不靠谱,笔者就不点名了,只告诉你这是家在大数据领域学术不端行为屡屡被发现的世界知名互联网公司干的;第三类最靠谱,同样不点名,只告诉大家是2016年上市的中国大数据公司。

最后,告诉大家,如果你们公司没有特别强的实力,就别考虑以数据为依据的归因模型了。直接采购也好,自己开发也罢,成本都太高了。另外,如果你的流量比较小,也别考虑以数据为依据的归因模型,正如坑3中提到的,数据是不能冷启动的,流量小这种模型都不能运转。

总结一下归因8坑:

  1. 监控失误
  2. 不知道广告到底投放在了哪里
  3. 不跨屏
  4. 不跨域
  5. 既没跨屏又没跨域
  6. 没有财务数据
  7. 没有线下数据
  8. 归因模型本身不对

希望笔者在自己工作经验中,总结出来的归因8坑,对各位看官能有所帮助,谢谢大家!

数据本身毫无价值,有价值的是能用对数据的人。持续关注互联网数据官,让自己成为能用对数据的人。

原文发布于微信公众号 - 互联网数据官(internetcdo)

原文发表时间:2017-04-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | ARM推出新一代移动端CPU和GPU:提升机器学习效率

选自anandtech 机器之心编译 参与:吴攀、蒋思源 在 PC 制造商展示最新和最好的英特尔 CPU 计算机的 2017 台北国际电脑展(Computex...

2195
来自专栏奇点大数据

大数据变现十日谈之七:AB测试

AB测试在很多互联网产品中都很常用,甚至有很多老牌的软件企业也从这种方式中汲取经验。 AB测试指的是什么呢? 在我看来,AB测试是一种评价体系的核心思想。大致的...

3466
来自专栏用户3246163的专栏

[脑书1]-《搞定》第1章 新情况 新做法

《搞定(Get Things Done)》这本书其实我在2007年就已经读过了,也是在我工作生涯早期对我影响很重要的一本书。

1334
来自专栏数据和云

蝴蝶效应、严寒以及数据库容灾备份

2016年1月11日张小龙在微信公开课谈到微信传播事件的“蝴蝶效应”: 很多人都在朋友圈里晒出了自己的第一个好友,发了多少红包这样一个数据...却导致了一连串事...

3924
来自专栏区块链

保证数字标牌系统和数据安全的这几种办法,你必须知道!

有时候,需要一个令人震惊的事件来提醒我们数字网络存在的漏洞。但到目前为止,你可能已经听说过或者看到过有关黑客入侵交通标示网络的报道,这导致去年五月在华盛顿特区联...

20210
来自专栏java一日一条

Java:过去、未来的互联网编程之王

Java对你而言是什么?一门你大学里学过的语言?一个IT行业的通用语言?你相信Java已经为下一次互联网爆炸做好了准备么?Java 一方面为嵌入式计算做了增强,...

1152
来自专栏大数据文摘

大数据安全分析(理念篇)

3147
来自专栏互联网数据官iCDO

App的情势越来越悲观——谁动了我的奶酪?

编者注:随着移动设备的普及,移动化的大浪潮席卷整个互联网。众多品牌主争相开发自己独立的App,为此不惜在投入大量营销费用。而App-Install ads(移动...

3425
来自专栏编程软文

人脸识别到底怎么用

前段时间和第三方人脸识别供应商对接,写了一个demo,主要功能是人脸识别准确率,增加底库,删除底库,人脸比对等等。让我对人脸识别有了一个新的意识。后来公司需...

4411
来自专栏AI-vell

汽车黑客手册-THE CAR HACKER’S HANDBOOK

这个世界需要更多的黑客,并且需要更多的汽车黑客。汽车技术正在变得更加复杂更加互联。因此在汽车安全领域需要得到更高的关注度,以及需要更多有天赋的人去关注汽车安全。

60614

扫码关注云+社区

领取腾讯云代金券