“忘掉大数据”之“建模术”:数据挖掘还原用户的生活场景

建模无疑是大数据里面最艺术的部分,也是最令大数据从业者痴迷、得意的领域,一个好的模型就是一篇作品,是一首诗,令人心旷神怡。建模、模型并不是什么新鲜事物,它们早已出现在很多场合,譬如"产品模型"、"推荐模型"、"营销模型"、"挖掘模型”等等。但,它们有什么不同?

建模的幻影有千万种,有些人做过,有些人没做过,我们该如何看待?建模是不是需具备很多专业知识,非专业人士无法掌握?小白杨的所思所想,都在下面的文字。

一、建模并不神秘:让数据产生新的数据

一些建模的观点已在前面的道与法两篇体现,归纳如下:

建模的本质就是让数据产生新的数据。人类、智能体的认知、行动需要用到不同的数据(Know->行动),如果这个数据没有被直接掌握,那就要基于已知的事实数据推测,这个过程就是“建模”,得到的结果就是一个新的“数据”。

建模就是在做侦探,都是利用已掌握的大量的、不完整的、不一定可信的事实数据推导还原事实的全部。几乎所有的领域都涉及建模。

模型分三大类,但万变不离其宗。

  • 第一类,利用已知的事实数据计算推测相关联的其它事实数据,譬如应用人的属性、行为数据推测它的消费需求;
  • 第二类,利用已知的事实数据计算推测规律性的数据,譬如基于历史的购买记录分析商品的销售趋势、细分比较等;
  • 第三类,利用已知的细节事实数据组合建立对事实全局的认识(数据),譬如从生效时间、适用区域及客户群、定价等维度建立产品模型,其实就是综合这些细节数据形成了一个“产品”的“数据”。

对“新”的数据的认识不要拘泥于一定要和以前的数据不一样,多个数据组合形成新的含义也是一种新的数据。

数据是人类对世界的观测,把客观世界抽样、采集到数字世界里面,建模就是要在数字世界里面把客观事实还原回来、预测它的发展。有趣的是,在数字世界里面,可以打破客观物质的当前认知局限,任意交叉组合,从而有无限创新的可能。

总结一下,建模本质就是对已知数据的组合、简单或者复杂的计算处理,最终转换成一个新的数据,从而影响行动。

不同类型建模差别很大,接下来我们将聚焦到数据营销领域来探讨,部分观点不具备普适性。

二、建模的六大误区

误区一:会用工具等于会建模?数据挖掘大多遵循CRISP-DM流程,弄来很多的数据维度(有甚者上百种),选取某一种算法,找来训练集训练出一堆莫名其妙的规则,输出的目标用户特征谁也说不清楚,只能告诉你支持度、置信度多少。这个过程本来是没有问题的,前提条件是有明确的挖掘方向。但是很多人都错把业务目标当挖掘方向了。

真正的建模应该从业务目标开始,先基于业务目标理解客户分解挖掘方向(特征明显的群体),再找数据用算法关联推导。懂工具能很好的完成挖掘方向到目标结果的过程,但业务目标到挖掘方向这个过程就不是只掌握工具就能够胜任的了。锐的洞察挖掘方向、正确的数据选取是建摸的核心能力,比掌握工具更加重要!

误区二:建模不与实际销售场景相结合!某央企(莫乱猜)各省公司大数据成功案例满天飞,模型成功率动辄30-40%。笔者看到的时候自惭形愧,也一直很纳闷,做了这么多年精准营销,大部分模型的营销成功率都是几个百分点,两位数以上的凤毛麟角,怎么别人的水平都已经赶超美帝了!后来终于搞明白,原来他们的目标客户在各种渠道成功下单都算,不管是否施加了营销动作,而我们只统计针对目标用户采取营销动作的直接转化下单。他们得意于挖出目标用户的精准,其实,这些模型的高成功率只能说明这批用户自然转化率高,找出这些用户并无实质意义,因为不施加任何动作用户就已经购买了,挖它出来干嘛?

建模必须与实际销售场景结合,要么找出自然转化率高的用户采取更低成本的接触方式转化,要么找出一批用户施加营销动作后较自然转化大大提升!

误区三:盲目使用、过度依赖训练集!训练集是个双刃剑,正确使用能充分发挥技术算法的价值,而滥用则陷入误区。前面说的某央企案例,其实训练那些模型并不困难,不就把各渠道成功下单用户作为训练集嘛,掌握工具的新手都能做出来。训练集要与准备施加的营销动作一致的才有意义。

训练集还要有代表性,譬如历史的数据是和大客户谈妥对其所有员工批量转化的,以这些数据为训练集就没有任何意义。营销场景初始往往没有训练集,必须跳出“训练集”局限。

误区四:要相关不要因果!《大数据时代》作者提出这个观点的时候,其实并不是要放弃追求因果,而是找出相关关系后,更迫切的是接下来怎么做,因果关系可以慢慢研究。这一点被很多人误读,世间没有无缘无故的爱,也没有无缘无故的恨,两个事物相关度很高,背后必定有一串的因果链条,如果找不到,那可能是因为训练集的问题导致伪相关,我们就要警惕了。

误区五:过于迷信算法!大道至简,有效的东西一定是简单的。非要复杂,那一定是因为没找到或者没掌握关联度更高的原始数据。算法并不能解决所有问题,没有好的数据基础,它无能为力。建模涉及到很多关键要素,比拼的是综合实力,在同等条件下,努力提升算法才是有意义的。

误区六:盲目追求数据精度!高的精度意味着更高的成本,对应更少的数据规模,如何取舍就要运用“法”篇说的ROI原则了。

三、建模七术

1、场景驱动

建模的第一件事情是搞清楚应用场景,提炼卖点、利益点,哪些是能打动用户的关键要素。从“命中目标”和“命中营销特性”这两个方面去思考我们要找什么样的用户,匹配什么样的关键特征。

2、迭代建模

建模要用互联网思维“小步快跑,快速迭代”,快速对消费者需求做出反应,否则数据会失去时效。因此我们应从简单开始入手,采用简单算法快速输出数据,后续在实战中不断检验、修正、迭代优化,不断提升数据的精准性。

3、场景还原

确定业务目标后,还原用户的生活场景,设想用户的需求场景,再考察数据能否关联。理解生活,数据挖掘会很简单。商业最终解决的是人们的物质文化需求,你想挖掘什么样的群体,先从生活中去理解它,它在什么场景下需要这些产品,有什么行为习惯,在我们的数据中留下了哪些蛛丝马迹?譬如“外围女”这个群体,你too simple对她们一无所知,就很难把她们找出来。为了挖掘“工业区人群”,我们特地组织前往厂区调研他们购买手机、上网、生活习惯等情况,为了挖掘“出租车司机”,我们打车的时候对他们进行了访谈。

五个方面理解还原。

  • 身份属性:譬如商务精英消费能力高使用Iphone手机比例高
  • 状态变化:譬如夜间位置变换,推测用户搬家了有宽带需求
  • 行为表达:譬如在社交网络、搜索引擎等互联网上表达了对目标商品的关注
  • 习惯偏好:譬如喜欢日本料理、西餐厅的人群超60%使用Iphone手机
  • 关系推测:譬如和快递员交互的用户,我们推测它是一个电商消费者

对于任何一个业务目标,都可以从上述五个方面还原与业务目标相关联的场景,还原足够多的场景,就可以挖掘出足够规模的用户数据。

4、找数据关联

还原出场景后,就要找数据进行关联。有些我们可以基于直接数据进行输出,没有直接的数据,则找间接数据选取算法进行推导,而间接数据的选取,可继续应用上述五个方面场景还原的方法。至于具体如何清洗数据、缺省异常值处理、算法选取、误差分析等等那些实操细节,文章很多。

5、快速收敛

建模是人与机器协作的结果,核心参与者是人,建模方向由人来确定,数据维度的选取主要是人(机器辅助验证),算法也是人设计的,机器所起的所用是训练迭代,而机器储存的数据相对人脑太单一,人对数据结果、应用结果进行解读,及时输入一些理解能加快收敛的速度。

6、少即是多

挖掘的目标不仅仅是“有需求”,而是“能转化”,因为好的营销场景、文案,能激发那些原来看起来没有需求的用户的购买欲望,而即使是有需求的用户,如果不能直击它的痛点、愉悦点,也难以转化。

好的模型应尽量简单,很多复杂规则的模型有可能命中率高,但实际营销应用的时候,往往难以与营销特性相匹配,效果不一定好;而简单模型特征明显,全力聚焦用户特性策划营销动作,更能引起用户共鸣,产生兴趣进而购买。

7、高质量的数据才是硬道理

正是因为我们没有直接数据,所以我们只能找其它数据间接推导,如果我们掌握的数据与目标关联度很高,那么算法可以很简单,否则无论算法多么的先进,效果也是有一个瓶颈的。

与其花大力气建模,笔者更愿意前瞻性的解决数据源问题,收集更多更有效的数据。笔者更愿意当一个数据架构师,也一直自命数据架构师。

最后总结一下,建模其实并不神秘,本质上是让数据产生新的数据。而建模关键是要还原用户的生活场景,找准方向,找到合适的数据关联推导,快速校验迭代收敛。

声明:本文系网络转载,版权归原作者所有。如涉及版权,请联系删除!

原文发布于微信公众号 - 智能算法(AI_Algorithm)

原文发表时间:2016-12-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

聚焦CSDN技术主题月:深度学习框架的重构与思考专场回顾

1565
来自专栏灯塔大数据

原创译文 | 数据科学家告诉你:深度学习和机器学习不同

导读:上一期介绍了无人驾驶的发展现状,今天我们来了解一下深度学习和机器学习的不同实践和运用(文末更多往期译文推荐) ? GoodData数据科学和机器学习高级总...

3295
来自专栏AI研习社

数据科学、机器学习、人工智能,都有哪些区别?

当我向别人介绍我是数据科学家时,我常常被问到“数据科学和机器学习有什么区别”或者“这是否意味着你在从事人工智能工作?”类似问题我已经回答过很多次,答案可以总结成...

3939
来自专栏CSDN技术头条

【BDTC 2015】推荐系统分论坛:百度、微博、京东推荐系统架构和实现

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,...

22610
来自专栏数据科学与人工智能

【机器学习】机器学习正在五个方面重塑我们的世界

机器学习的技术越来越成熟,与大数据结合在一起为我们的世界带来了巨大的变化。对此,大数据专家Bernard Marr总结了机器学习在听、说、读、写、看五个方面如何...

2398
来自专栏人工智能快报

剑桥科学家用两百万段视频教会人工智能预测未来

人工智能系统可以预测场景如何展开,也可以设想不久的将来。 对于静止画面,深度学习算法生成的微视频可以预测接下来可能发生的场景。例如,如果展示的是一幅火车站的场景...

3707
来自专栏企鹅号快讯

深度学习软件开放平台TensorFlow可以用来做什么

文/腾讯《一线》薛芳 1月19号在北京开幕的极客公园创新者大会上。Google Brain首席工程师陈智峰发表了《寻找答案从定义问题开始——TensorFlow...

22110
来自专栏大数据文摘

大咖 | 《深度学习革命》作者:人们对AI概念的理解存在偏差

对基本概念的误解必然导致对人工智能的错误解读。因此“杀手AI”、“机器人使我们过时”等话题便应运而生。

902
来自专栏AI科技大本营的专栏

你天天叫的外卖,你知道这里面深度学习的水有多深吗

很多人以为外卖不过是下单、送餐,不需要什么技术含量。这种理解其实很片面,外卖业务不仅需要技术,它高度个性化、精细化的需求,是要用深度学习技术来解决的。 本文以...

3044
来自专栏AI科技评论

论文 | 百度「一次包会」模型:「一次性」教会Agent认新事物

百度 Research 在近日发表了一篇博文,介绍了通过交互式对话来教 AI 智能体学会语言和一次性实现主动概念学习的方法。

1352

扫码关注云+社区