首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习方法预测需求

图片来源:

https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1548654643407&di=3a3c1592d48dcc8a3efd8105d65e71cb&imgtype=0&src=http%3A%2F%2Fimg.mp.itc.cn%2Fupload%2F20170816%2F53b3a338b8fb4b769fc7a44d9ef7a883_th.jpg

原文信息

Bajari P , Nekipelov D , Ryan S P , et al. Machine Learning Methods for Demand Estimation [J]. American Economic Review, 2015, 105(5):481-485.

在计算机科学与统计领域,学者对消费者行为的建模十分感兴趣,这些研究利用了消费记录大数据的特点,并且建模结果被零售、健康护理公司和互联网行业广泛应用于商业决策。文章比较了这些模型与标准计量模型对需求的预测效果,希望找到一些实用的工具,帮助应用计量经济学在观测值和变量数量都较大时估计需求。

文章尝试比较计量模型和机器学习对商品需求量的预测效果,无论计量模型还是机器学习都可以采用需求预测函数:

f(X,D,p)表示的是可观测变量X 、统计特征D和价格p的组合,括号里可能包含非常多的变量,比如,eBay可能会在一个品类下提供大量商品供顾客选择,而每个商品又有许多特征变量;ξhm表示受限的虚拟变量;ηmt表示随季节和市场而变化的季节性变量。

在OLS回归中,上述模型的系数可由

估计得到,但是这要求(X'X)可逆,相当于对X强加了秩条件和阶条件。然而,在很多情况下,函数右侧的变量数量会远远超过观测值的数量;此时则需要使用者对变量进行筛选,挑选出合适的变量构建模型。然而,机器学习方法允许使用者忽略阶条件,将变量筛选和模型估计统一起来。

文章选取了八种不同的模型进行比较:线性回归、Logit回归、逐步回归法、向前分段回归、支持向量机、LASSO、随机森林和Bagging,并简单地说明了各个模型的特点。

线性回归和Logit回归这两种方法是标准的计量模型。

逐步回归法和向前分段回归法当变量数大于观测数时,且真实模型是稀疏的,这些方法可以重构真实数据的生成过程。

支持向量机该方法相当于带惩罚项的回归

其中惩罚函数是:

其中调和参数ε控制了何种程度的误差可以忍受的,一些非常小的误差会被视为0,因此,支持向量机的拟合结果仅会保留其中一小部分的变量。

LASSO该方法也是一种带惩罚项的回归

其中参数t调节了对额外变量的惩罚力度,LASSO通常会导致一部分的变量系数为0。

bagging和随机森林回归树是一个将特征空间划分为一系列的超空间的函数,并将各个超空间内的均值作为函数值。从某种意义上看,回归树就是一系列的固定效应,而这些固定效应取值依赖于 。

进一步地,回归树还可以扩展为bagging和随机森林。bagging对数据进行B次有放回的抽样,然后用这B个子样本分别训练模型,得到B个回归树,最后将这B个回归树的预测结果均值作为最终的预测值。随机森林与bagging相似,只是在划分空间时加入了随机性,只有部分的解释变量(X 的子集)被考虑用来划分空间。

集合模型将上述八个模型进行组合,因变量与前相同,而自变量是上述8个模型对因变量的预测值,回归得到一个新的预测模型

文章使用便利店销售量数据对机器学习模型和线性计量模型进行实证比较。他们发现,机器学习模型在不低于线性计量模型的样本内拟合效果的情况下,普遍比线性计量模型有更好的样本外预测效果;而且,集合模型的样本外预测效果比其中任何模型都要好。

他们采用的是某连锁便利店长达6年的咸味零食销售数据,每条观测值记录的是商品j第t周在便利店m的情况,共有1510563条观测,包含3149个独立商品。qjmt是咸味零食j第t周在便利店m的销售数量;如果qjmt=0,可能是因为没有售出或因不在库存中而观测不到。价格Pjmt被定义为商品j第 t周在便利店m的加权平均价格。除了价格和销售量,这个数据还包含了商品的属性(例如品牌、净含量、口味、开口方式、烹调方式、包装大小、脂肪含量和咸味程度)和促销变量(是否促销、展示方式和特征)。

因变量是周销售量的对数,而自变量是价格的对数、商品属性变量、促销变量、便利店固定效应和周固定效应。除了Logit模型不使用固定效应外,其他模型都使用相同的自变量。

为了估计和比较模型,文章将数据分成了三个集合:训练集、验证集和测试集。首先,用训练集估计模型;然后,用验证集估计集合模型中的各个模型所占的权重,缓解训练模型的过度拟合问题,例如,线性计量模型样本内的拟合效果往往比样本外好,在训练集上的拟合误差十分小,如果仍用训练集估计集合模型中的权重,估计结果会给予线性计量模型较大的权重,导致集合模型在测试集上的预测效果较差;最后,我们考察各个模型在测试集上的预测效果。其中,25%的数据作为测试集,15%的数据作为验证集,而剩下60%的数据作为训练集。

表格显示的是各个模型在验证集和测试集上的根均方误,以及各个模型在集合模型中所占的比例。从测试集(Validation)上的预测误差看,最好的两个模型是随机森林(Random forest)和支持向量机(SVM),而集合模型(Combined)则比其它任何模型都好。随机森林在集合模型的权重是最大的(65.56%),其次是逐步回归法(Stepwise)和支持向量机。值得注意的是,集合模型没有简单地只选择均方误差最小的模型,说明其他模型也包含着重要的信息有助于集合模型进行预测。

Abstract

In this paper, we review and apply several popular methods from the machine learning literature to the problem of demand estimation. Machine learning models bridge the gap between parametric models with user-selected covariates and completely non-parametric approaches. We demonstrate that these methods can produce superior predictive accuracy as compared to a standard linear regression or logit model. We also show that a linear combination of the underlying models can improve fit even further with very little additional work. While these methods are not yet commonly used in economics, we think that practitioners will find value in the flexibility, ease-of-use, and scalability of these methods to a wide variety of applied settings.

声明

推文仅代表文章原作者观点及推文作者的评论观点,并不代表香樟经济学术圈公众号平台观点。

香樟经济学术圈征稿

香樟经济学术圈

本期小编:段雨玮

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190129G053JD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券