【独家】1号店电商大数据挖掘实践

大数据这个词为什么现在这么火,个人的理解是用一个新瓶装了很多旧酒,也就是说之前的很多技术,概念或者应用现在都可以往大数据这个词里放,比如分布式处理,数据挖掘,机器学习,文本处理,语音/图像处理,个性化推荐,知识图谱,当然也包括传统的一些BI分析系统等等,因为这些技术存在的时间已经不短,而且之前在很多行业都或多或少得到了一些应用。

但随着互联网的发展,数据采集能力和数据处理能力的飞快提升,这些相关的技术和应用得到进一步发展和融合,进而进化出了更多更丰富的数据应用。不管大数据的应用是什么,一般的处理手段无外乎先收集到你可能收集的各种源数据,经过数据清洗结构化等进行存储,在之上做特征工程,做机器学习数据挖掘算法,最后挖出一些基本的规律来,大多有事物之间的相似度,关联度,事物之间的结构关系比如层级,时序性等。然后,我们可以在这些规律的基础上做大数据服务,比如用来预测,用来给人提供决策建议,决策支撑,甚至通过系统化来使得整个决策自动化和大规模化,还可以使系统具有学习更新的能力来达到工业级的智能应用。最终可以为企业,或者面向用户的app提供真实的价值。

对电商行业来说,本身属于互联网领域内,所以如何有效的挖掘数据,利用数据对自身而言是个非常重要的战略方向。比较而言,个性化推荐/精准营销是已经在业界广泛验证和实现层相对成熟的应用之一,但因为其架构和算法的复杂度依旧相对较高,离真正的成熟还有很远距离,比如我们能看到国外主要是亚马逊几年前公开过自己销售靠推荐而来的占比,从国内的实践来看,大型电商也基本都是从11/12年开始启动这方面的技术探索,而且不同的公司因为考虑对自身的价值从而所做的投入也不尽相同。

另外,大数据挖掘在电商的应用还有销量预测,品类管理和动态定价,这三个方面也有相互关联,在电商时代,销量预测可以突破仅仅靠历史销售数据来建模的限制,用户的各种行为数据,比如浏览,搜索,收藏,购物车等等都可以输入预测模型,可以利用的数据甚至还有竞争对手可以获取的数据,当然建模系统要能够规模化来处理大量多样的数据源。类似比如自动化的品类管理,以及利用站内站外数据进行系统化建模来自动定价。对于电商其他的核心系统,比如仓储管理,物流,大数据同样有着重要的意义,比如利用某个区域的用户在网站上的实时行为数据,来对某个区域仓储做商品需求预测,可以提前一步运货到最后一公里,极大的提升物流效率。

接下来的部分着重阐述一下1号店在个性化方面的一些实践,从个性化对电商意义来讲,无疑要从用户体验和商业价值两个角度来看,而且不少场景下因为两者之间的矛盾,如何平衡是个相当复杂的问题。

1号店经过将近两年的研发,目前已经建立起相对完善的个性化精准平台,而且在用户各种购物流程,各个触点,以及对CRM,广告,市场活动等业务产生了根本的重构和变革。

目前为止,个性精准化平台也为1号店业务在各个指标上有较大的提升

这里列举一些基本的推荐栏位截图示例

搭配推荐是我们主要的推荐产品之一,在13年5月份第一次上线就在各个指标上比之前人工维护获得极大提升,值得一提的是不仅仅是覆盖度,点击率和转化率也提升了将近一倍,充分证明了算法的有效性。但不可避免的是,算法和数据相互依赖,对于13年初的小品类因为当时数据量不够,导致效果不明显,但整体上来说都是成倍的提升。

对于搭配推荐这个case, 我们从多个角度来进一步阐述:比如:

最早上线了基本的关联挖掘,只是利用了订单数据,效果明显;

然后在第二阶段我们利用了更多的数据比如购物车,数据量暴增,促使我们利用更有效并且能处理更大数据量的分布式FPgrowth算法;

到了第三个阶段,面对产品上继续存在的问题,我们继续利用更多数据比如同session浏览,并且为了解决时间序列和属性搭配等问题,进一步把时序挖掘和改造的泛化关联挖掘整合到fpgrowth里,进行算法的进一步创新,同时也解决了产品上的一些痛点,也使得业务指标得到进一步提升;通过这个例子,我们充分在实践中理解了产品,算法,数据联动的重要性,并获得深刻的感性认识。

这里再列举两个通过个性化推荐使得业务明显提升的例子,一个是首页topN推荐列表和限时抢购的ctr比较,一个是我们团购个性化排序线上A/B测试相对非个性化转化率提升的实践。

正如前面所提到的,我们目前已经建立起相对完善的用户画像平台,这里跟传统CRM的用户视图做一个对比,可以这么理解:传统CRM主要通过分析用户生命周期,客户级别和RMF值等维度来了解自己的顾客,但最大的缺失是不知道下一步如何take action, 或者说无法设计出有效的action, 那么精准化正是解决了这个问题,通过我们描绘出用户的兴趣图谱,购物类型等等维度,系统可以全面的了解每个顾客从而提供千人千面的服务,不管是主站首页,app各个路径,或者是EDM,短信/微信等触点来充分的关怀用户,给每个用户VIP级别的1对1服务。目前1号店的用户画像系统利用实时大数据平台已经可以在毫秒级更新每一个人的兴趣图谱,最及时的捕捉每个顾客及时需求。

最近,我们又研发出了基于上下文的推荐产品,通过大数据挖掘的手段来分析不同商圈/小区,不同季节,用户使用的不同场景(比如工作时段,上下班,晚上临睡前等等)下的偏好特征,结合其个人用户画像来为顾客提供更加精准有效的个性化服务。并在一定程度上解决用户数据稀疏,冷启动等推荐领域一直比较头痛的问题。

总的来说,虽然在1号店我们在个性化推荐方向已经取得一定的进展,但毫无疑问未来需要探索尝试的依旧很多,大数据挖掘是个值得长期投入并持续优化的领域。到目前为止,1号店技术部已经建立起将近30人的算法架构团队来负责个性化推荐核心系统的研发,如果加上相关的应用团队,整体会超过50人。

从团队建设来看,这个方向当前在大型电商有过真正实践经验的人并不多,所以我们主要是招有较好的算法架构背景的同学,然后以内部培养为主。感兴趣的朋友欢迎发简历到zhongxiaodong@yhd.com,谢谢!

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-08-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

VR+大数据:感知大数据,绽放新智慧

从技术的观点来看,大数据的全生命周期大致可以分为数据采集、数据存储、数据处理、数据分析、数据可视化、数据决策及数据服务七个阶段(见下图)。

9420
来自专栏逸鹏说道

架构漫谈(五):什么是软件

前面通过四篇文章,把什么是架构,如何做好架构等必要的概念澄清了一下。这些概念对于在各种不同的领域都应该也是有用的,需要读者自行思考,并应用到自己所在的领域中。在...

26070
来自专栏CDA数据分析师

你以为自己真的了解用户画像?其实猫腻可多了

作者 CDA 数据分析师 背景 刘路老师之前主要是做政府数据分析,目前主要服务企业。他认为政府和企业的数据分析没有本质区别,都是有目的的进行收集、整理、加工...

23860
来自专栏Miguel三先生

互联网金融公司需要项目经理吗?

20290
来自专栏WeTest质量开放平台团队的专栏

[ 一个名字换一块表 ] WeTest征名送AppleWatch

? ? 征名背景 本着开放、共赢的腾讯精神,将内部沉淀10年、历经上千款游戏的优秀测试工具陆续开放给外部开发者使用,由此为伊始,腾讯游戏官方推出了WeTest...

12330
来自专栏非著名程序员

怎样才能做一款好的App,即做app时最需要注意的六个因素

移动互联网时代,app已经成为了我们生活中不可或缺的一部分了。根据当前情况来看,app在未来几年内,至少两年内,还将会有新一波的火爆增长时期。尤其是我们中国市场...

19760
来自专栏企鹅号快讯

人工智能的认知层面大家都在关注什么?

从AI的认知层来看“自然语言处理、语义网与知识图谱”算是关键技术。我们按照这些关键词提取36Kr、品玩与虎嗅的相关新闻共计803篇,构建新闻相似度网络,进行聚类...

27300
来自专栏华章科技

数据挖掘典型应用:关联分析

而第二个指标提高Basket size,就是让客户从以前只购买一件产品的转换到现在购买多件产品,从而提高整个购物篮的销售金额,最大限度地实现销售增长。但是如何挑...

9420
来自专栏镁客网

吴恩达:现在很多所谓的AI公司,其实都不是AI公司

21300
来自专栏PPV课数据科学社区

面向IT专业人员的8个新兴AI工作

如果你正在观察人工智能对IT组织的影响,那你可能会先从自己的工作开始。机器人能做你现在正在做的事吗?人工智能创造了什么样的IT角色?我们和AI和IT职业专家进行...

32680

扫码关注云+社区

领取腾讯云代金券