超越咨询顾问的算力,在BI:大数据改变管理咨询

消费品企业应该如何使用内部产生以及外部采集的数据,像互联网公司一样建立用户画像与会员体系,以数据驱动的方式进行精细化的生产、运营和销售?

传统的管理咨询公司,虽然有无数顶尖的大脑,但是他们的大脑只靠Excel等简单工具的辅助,这样的算力,能不能满足上述的需求?

在2015年上半年,数据冰山团队有幸为国内一家时尚消费品行业的龙头公司进行数据平台的建设,历时半年,完成了内部数据的打通和洞察,用户画像,会员体系的搭建,以及外部数据获取与跟踪。在这里和大家分享我们的一些体会,希望更多的消费品企业可以用数据驱动的方式来进行精细化的运作。

其实作为龙头消费品企业,其数据生产能力与中等规模的互联网公司不相上下,支撑日常业务的IT系统大大小小共有十余个,比如:

1)分销系统: 支撑全国上千家线下门店每日的销售配货,每日订单量在数十万量级;

2)电商订单系统: 负责处理十余个主流电商(京东,天猫,唯品会,一号店,聚美,亚马逊,当当网,有赞等)的订单管理与客服;

3)仓库管理系统,负责全国各大区域的仓储物流,数千个SKU的备货情况;

4)BI系统: 负责各主要业务系统的数据聚合,制成日常统计报表;外加大大小小的财务系统,人力系统,绩效系统,品牌/分公司订货系统等,每日产生的数据维度以及量级其实已经相当庞大。

但和互联网公司相比,消费品企业的数据消费,数据分析能力存在明显的短板。越来越多的管理层也十分希望像互联网公司一样管理用户和数据,使用数据驱动他们的决策。

面对这样庞杂而分散的数据以及对快速实时产生数据的渴求,不仅传统企业的IT及经营分析部门束手无策,再高端的管理咨询公司也只能挠挠头说“臣妾做不到呀”,实在是超越了这群聪明人大脑的算力。

接下来会从三个角度分享如何为传统行业搭建数据平台,首先介绍大数据(数据科学)与商业智能(BI)在消费品领域的应用,然后详细讲解用户画像与用户体系搭建,最后分享如何利用外部数据(电商,社交媒体)对行业趋势与其他企业的运营进行监控。

在这里面所用到的数据相关的技术,已经大大超越管理咨询顾问的算力。如同封面图中的《魔戒》水晶球Palantiri,它如同数据技术赋予了人类及精灵看到任何地方的能力。而传统的人类,无论如何提高人肉的眼力,也只能到目力所及的有限范围。

1大数据和商业智能(BI)

我们很少说自己是一家大数据公司,因为大数据这三个字的意义更多是指一种概念和思维方式,并没有什么具体的含义,既不是一种工作也不是一种技术,可能勉强算得上是一些门槛稍高的,和数据科学有关的算法,技术以及工具的统一称谓,比如数据挖掘(聚类,关联),机器学习(逻辑回归,神经网络),比如自然语言处理,比如分布式运算(Hadoop, Spark)。但在服务具体企业的时候,我们难免会被套上大数据的壳子,毕竟大家都在找能做“大数据”的公司。

相比大数据,Business Inteligence(BI)的历史就要久远许多,在各大软件厂商的不断教育下,大中型公司几乎都采购了BI软件。其实BI也是一个比较宽泛的概念,和大数据一样包含了许许多多的技术和工具,像是数据仓库,OLAP cubes,Data Mart,Star schema,数据挖掘等等。那么他们究竟是不是同一个东西呢?

1.1 商业智能(BI)

其实软件厂商所提供的BI软件与广义的BI概念还是有很大程度的区别。

为了追求高度的抽象化与通用性,BI软件大部分时间所承担的责任是一家公司的各类报表应用:将各个IT系统的数据聚合至BI,然后进行统计汇总,并统一在前端通过BI portal呈现出图表与数值,便于业务人员了解日常数据和运营情况。

所以除了ETL部分以外,BI软件绝大多数的功能都是通用性极强的,跨行业,非定制化。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。其实传统的消费品企业面对零散的数据库,特别需要ETL的服务。

ETL看似低端,其实当今的大数据顶尖企业Palantir,在最初为CIA服务的时候,也是从ETL开始的,让美帝特工不用在分散的多个数据库上分别做一次查询。Palantir的故事点击这里。

这也就决定了BI软件的sweet spot在于监控和绘制通用性的统计报表,比如时间序列统计,分布统计,分段统计等等。

图1展示了这家消费品企业两年间平均价格变动与总销量的时间序列,可以看出销量两年来稳步增长,有小周期性(一二月份卖得少,换季的月份卖得多),而卖出商品的价格两年保持基本一致,并呈明显周期性变化(对于时尚消费品,冬款的造价自然要高出夏款许多)。

图2展示了集团旗下各品牌的销量分布和占比,可见此集团有一个相当强悍的主品牌,以及2-3个在垂直领域表现不菲的子品牌,定期输出销量分布,可以监控各品牌的发展情况并衡量品牌策略是否成功。

BI软件的强项是将这些业务数据汇总起来,无需编程即可绘制出可供长期监控的可视化报表,同时实现随时更新,而不是传统管理咨询的一份静态报告。传统咨询提供的报告,往往在出炉的第一天就过时了。

1.2 数据科学

反观数据科学,如果站在一个数据工程师的立场上,BI软件做的事情其实也属于数据分析的范畴,任何数据洞察,数据挖掘工作都需要涉及到这些通用维度的基本统计。但在这种浅层分析的基础之上,数据科学家可以通过带入较强的人为干预和行业性输入,做到许多高于BI的数据洞察。而将这些洞察落地,运用至具体产品设计,营销方案,会员体系和售后服务中,便可以像互联网公司一样,实现以数据驱动业务。

举一个实际的例子,图3是用户重复购买间隔的CDF曲线(Cumulative distribution function)。横坐标代表天数,纵坐标代表百分比。数据显示,有37%的用户在第一次购买后的一个月(30天)内会进行第二次购买,而45%的用户在第二次购买后的一个月内进行了第三次购买,51%的用户在第三次购买后的一个月内进行了第四次购买。随着购买次数的增加,CDF曲线向左倾斜,也就意味着用户在建立了品牌认知后,购买频率显著增高,两次购买之间的间隔明显缩短。

因此,诱发新用户建立品牌意识,进行二次购买的窗口为3-4个月的换季档,而对老客户的消费唤醒窗口期则更短,以1-2个月为最优。这是一个很典型的数据工程师利用自己的行业知识和经验来实现数据洞察的例子,也是BI软件无法做到的。首先研究复购间隔是消费品行业独有的场景,更重要的是想要完成这个洞察,其中所涉及的统计工作具有很强的定制性,也较为复杂,需要编写统计脚本或是使用多条复合SQL来实现,数据工程师的价值也在此有了体现。

除了复杂和高定制性的统计逻辑外,对于非结构化数据的处理和挖掘也并非BI软件的强项。对于大型消费品公司来说,全电商渠道的运营已经成了常态,每日来自京东,天猫,唯品会,一号店,聚美这些大型电商平台的订单数高达数万个。而这些订单中的邮寄地址里包含了巨大的信息量,比如用户所在的城市,地理位置,甚至是身份,职业,消费能力等等。通过程序和地图API将这些邮寄地址转化为经纬度后,可以对用户群做大量的精细研究。

图4便是我们利用送货地址做的用户群分布的热力图,以北京的海淀区为例,大量的用户密集集中在中关村周边,其次便是各大高校宿舍聚集的区域,如五道口,知春路等地。红色标签为品牌线下店铺位置,可见门店已经覆盖了中关村,北京大学和五道口等地,但对于知春路片区,以及用户相对集中的牡丹园并未开设分店。相比之下安贞里分店四周并没有特别多的目标用户群出没。于是有了图4的用户分布及店铺选址。

热力图这样的算力往往超过了管理咨询公司的能力范围,然而对于用户的选址却是很有价值。

对于一些并无日常监控必要的统计,有时也会贡献许多有价值的洞察。

图5展示了线上用户购买时间的分布情况。可以看得出,周末线上购物的时间十分均匀,除了半夜之外大部分时间段都有网购发生。相比之下工作日的线上购物时间分布就变得十分有趣,大量的订单集中产生在早上九点和十点之间,也就是说大量的时尚白领在上班途中,或是步入办公室后的第一件事便是败一件自己心仪的宝贝,然后才能心情舒畅地开始一天的工作。

那么不管是自营电商促销,短信推广,还是各宣传阵地的推送,工作日早上8点至10点都是一个不错的窗口。

和图5类似,图6将线上用户的购买数据按照一周七天进行分布统计,也会出现一些有意思的现象,比如周六周日上网买东西的用户极少,每周网购的高峰出现在周一和周二。或许上班族们都是通过线上血拼来抚慰自己,治愈周一综合征的。而越临近周末,大家在线买东西的热情也就越低。

像图5,图6这样的数据洞察往往也是BI软件无法捕捉到的。数据工程师们可以将这些没有长期监控的意义的指标转化成拥有商业价值的洞察。同时这又是传统的管理咨询公司无法做到的,因为他们缺乏能力整合如此海量的数据并按天甚至按小时进行实时输出。

个人认为,数据科学(大数据)和广义的商业智能原本没有本质区别,两者都涵盖了非常广泛的内容,并且两者的核心都是通过数据处理和分析的方式,提升业务表现。

但我们平时所谈论的“BI”很多时候其实指是软件厂商所提供的BI软件/套件,用于实现业务报表和统计监控的功能。暂且不提厂商们是否有故意偷换概念的嫌疑,BI软件和数据科学还是有着比较大的差异。可以说BI软件通过高度抽象的方法,提供了一种非常便利的数据汇总,统计,可视化的工具,从而完成了数据科学的一部分工作,而许多深层次的,带有行业性的,高于BI软件的分析与洞察,仍然需要数据工程师的参与,以及特定数据系统的支撑来共同完成。

·总结

与传统的管理咨询公司相比,在BI层面,大数据的相关技术胜在算力:数据整合能力、实时处理能力以及呈现能力。

这一期只是小小的开胃菜,而在后续的章节(关于建立用户画像和利用外部数据理解行业及趋势),大数据的相关技术将进一步将算力的差距拉得更大,让传统的脑力无法追赶。

原文发布于微信公众号 - 数据冰山(shujubingshan)

原文发表时间:2016-02-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据科学】数据科学的整合与细分

自从大数据这个词出来以后,数据已经成为一个非常明确的科学领域。在这当中很少有人详细地探讨数据科学的结构和它面临的问题,包括我们行业面临的问题。 数据科学有三个非...

2778
来自专栏新智元

谷歌宣告“云1.0 时代”终结,机器学习会让它称霸智能云市场?

【新智元导读】日前谷歌云服务负责人称 “云 1.0 时代”已结束,由机器学习驱动的“云 2.0” 正向我们走来。在云市场只能算新玩家的谷歌,真能凭其领先的机器学...

3134
来自专栏量子位

重大里程碑:顶级科学家达成23条人工智能发展原则!

作者 | 量子位 李林 今天AI领域都在谈论一件事。DeepMind表示,很自豪成为Asilomar人工智能原则的签署者,这是一个AI和伦理方面的重大进步。而硅...

37410
来自专栏孟永辉

猜想:今日头条收购Flipagram的背后

3177
来自专栏大数据文摘

CB Insights | 2017年人工智能十大趋势

2007
来自专栏机器人网

不容乐观!机器人技术仍面临十大挑战

随处可见的机器人很容易让我们产生一个错觉:机器人已经进入千家万户,在我们的生活中无处不在。然而,现实就是,机器人的普及仍然面临重重障碍,近日,《科学机器人》(S...

2904
来自专栏腾讯大讲堂的专栏

你现在的焦虑,可能真的不是因为没钱

1733
来自专栏数据猿

【案例】恒丰银行——基于大数据技术的信用风险预警系统

数据猿导读 恒丰银行基于大数据技术构建的信用风险预警系统,通过整合行内外数据形成统一的行业、地域、客户风险视图,加强风险监测、审查的全面性、准确性、及时性,强化...

4325
来自专栏BestSDK

百度开放定制化训练平台EasyDL,不懂代码也能玩转AI

百度对人工智能战略的重视程度无需多说,在AI时代里,百度的愿景是希望每家企业都能轻松接入AI,每个人都能实打实的用上AI。为实现这一目标,百度除了忙着在与知名企...

1366
来自专栏用户3254834的专栏

定制狮打造第三个“1”,全面解码男士西装定制

本文由齿轮易创原创,首发于齿轮易创微信公众号,更多产品、技术干货、精彩案例尽在齿轮易创微信公众号。转载投稿等事宜请私信联系,未经许可禁止转载。

962

扫码关注云+社区

领取腾讯云代金券