首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何用数据科学进行商业推估?围观两个商业实例

前言

数据科学作为一门新兴学科,其数据来源不仅有传统的结构化数据,也包括了非传统的数据,例如网页、文本、图像、视频、语音等。而数据科学的应用更是覆盖了各行各业,例如天气预测、人口统计和商业分析等。本节课程主要讨论的,便是如何应用数据科学的建模和评估方法,解决实际商业中的推估问题。

商业实际案例的推估与建模是建立在一套完整的框架之上的:

定义商业问题 (Business Understanding)

定义分析数据 (Data Understanding)

数据预处理 (Data Preparation)

建立模型 (Modeling)

评估模型 (Evaluation)

应用模型 (Deployment)

最基础也是最重要的一步,便是定义商业问题。数据科学方法论的不断演进和改善,其实都是服务于实际商业中的问题。数据模型的构建如何评判优劣,标准在于能否为该问题提供有效的数据推测,从而得到实际解决方案。我们只有清晰的知道我们确切需要解决的问题,才能相应构建起适合的模型予以分析。此处切记的是,不要用固有的一种模型套用所有问题,这样是无法解决任何问题的。

推估与预估的区别

推估,是指在数值空间中找出连续的点以形成一条线、平面或曲面,使所有真实数值与之最为贴近,并求出对应的概率分布。常见的推估,涉及到回归、神经网络、时间序列等算法知识。

需要注意的是,推估 (Estimation) 不一定具有预测 (Forecast) 功能。预测首先要有明确的因果关系,而推估并没有清晰的时间先后及因果联系。

例如,美国曾有媒体研究报道房价与肥胖间的关系,认为居住在房价高的地区的人群最不容易肥胖,反之亦然。这个推估显然无法描述确切的前因后果,即到底是因为房价高而导致居住在此的人更瘦,还是因为瘦而导致该地区房价高呢?这两者属于同时性的问题,到底谁影响谁,大家并不清楚。这实际是根据某些现况,去推测同一时间内的另一个现况,而非用因去推到果。

建模时容易出现的误区:

1.Regression Fallacy:是指由于非线性而造成的误差。若一组数据中有较高与较低值,若以一条直线进行回归,所有数据则会被拉至中间值,而这其实不符合任何一条数据的真实情况。

2.Interaction Effect:是指为了使误差最小而得到中间结果的情况(同样偏离了真实情况)。由于两个变量之间的交错会有不同的走势,因此如果进行线性回归,很可能不符合任何一种走势。

3.Outlier & Inlier:是指由于outlier的存在是线性回归出现偏差的情况。我们将不在线上的点看作是outlier,在soft margin内的都是inlier(95%的信心水准)。Outlier会到来偏差,如下图所示:

我们可以发现,因为outlier的存在使整条直线上升;若去除outlier,其他点便能回归到正常直线上。在实际操作中,我们可以利用多组模型,决定outlier然后再排除掉,重复2轮左右便能排除掉大部分outliers。

排除outlier的步骤十分重要,这也是data cleansing(数据清理)的一个环节。我们需要剔除不适用的dirty data,保证所使用的数据对问题的解决都有效,所构建的推估模型才能更精准。

在了解以上关于推估问题的基本知识和方法后,我们用此来分析两个商业应用中的实际案例。

商业案例一:

作为电商品牌,如何推估每个客户未来一季的消费金额(期间可能包括双十一)

推估商业问题最重要的是know-how,即不要脱离产业知识。通常,我们习惯于收集所有历史数据,建立时间序列然后用以预测下一季度的销售收入。但我们必须清楚,消费金额不是线性的。顾客每个月消费的金额也许差异很大,并且不是所有顾客每个月都会到你的品牌店进行消费。因此问题的本身有很多前提,不能把问题简单化。

这里,我们可以考虑几个因素,再把问题进行拆解:

1.预测一篮子人的数值比预测一个人的数值更精确。我们无法精确地统计每个人的数据,但是我们可以划定范围人群进行预测。在预测时,我们把着眼点放到一群顾客,从而再将数值平均值每个顾客。

2.预测相对值更预测绝对值更精确。绝对值常常发生变动,而相对值则能因时而变。我们可以首先预测顾客的消费分位(该顾客的消费水平在所有顾客消费水平中的排位),在将其分配至消费金额绝对值,这样较有可操作性。

3.预测线性比预测非线性更精确。我们或者把其转成线性问题,或者把其拆解成线性问题。

通过以上几点因素的考虑,我们可以构建这样一个模型框架:

我们设置两个阶段的预测:根据顾客 下季度是否会到店里消费,把其分成会交易和不会交易2种情况。

对于将不发生交易的人,我们的预测值可能是一个固定的数值:0。

对于会发生交易的人群,我们先整体预测消费总额,我们又可以进一步根据其消费分位数和消费几率进一步推估。预测的客户消费金额=预测客户消费分位数*预测总销售金额*消费几率。

详细可见下图:

通过这种拆解的方法,我们就能大致推估出下季度在本店进行消费的金额了。

商业实例运用二:

作为零售商,如何通过预测每种商品的销量来改善商品库存的管理?

库存成本是零售行业成本中占比较大的一项,不少零售商都希望制定合理的库存计划,降低库存成本的同时保证及时供货。

对于这个问题,我们需考虑的几个因素包括:

1.80-20法则,即80%的销量是由20%的商品提供的。在零售行业中,如何对sku (stock keeping unit) 进行划分十分重要。通常,便利店的sku在1500-3000之间,超市则是1万-10万之间。因此我们只需关注20%的库存便可有效解决这个问题,而无需把所有商品都拿来进行预测。

2.零售行业商业流程。大部分人在建立模型时都把重点放在消费者,而实际上,因某些特定商品的库存比不合理而无法满足消费者造成的损失其实更大。例如生鲜商品,其库存的耗损比未满足消费者带来的损失更大。因此这里商品我们应该有限考虑库存成本。

3.模型效度评估。模型的构建不能与商业脱节,我们还需考虑其他实际问题例如客户是否想买,缺货造成的预期收益损失等。

通过以上几点因素的考虑,我们可以构建这样一个模型框架:

由于不同商品性质不同,安全期并不是固定的,因此每一个品类都要做各自的模型。

选取统计对象时,我们可以统计最大销售量或有缺货统计的货品,而无需把所有货品都纳入到模型范围内。

我们首先将销售量拆解成天期和周转速度。拆解天期时,我们要多考虑如商品的特殊性、备货期长短等因素。

我们可以统计货品的周转速度,即多久可以卖掉一个商品,进而计算出安全库存量。安全库存量=天期/周转速度。

以上两个商业实例告诉我们,模型的构建要基于需解决的确切问题,这也是最本质的一点。我们不能将实际中的商业问题简单化,只有几种简单的模型应用到所有案例中,而应多用逆向思维,将问题不断拆分,按照每个细分分枝再去构建相应的推估模型。

作者:廖立宇

编辑:Yiri

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190101G0XZPV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券