前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据科学】数据科学家的7种统计学使用场景

【数据科学】数据科学家的7种统计学使用场景

作者头像
陆勤_数据人网
发布2018-02-26 15:19:32
8530
发布2018-02-26 15:19:32
举报

原文请见:How do data scientists use statistics? http://datastories.quora.com/How-do-data-scientists-use-statistics

作者:William Chen,哈佛大学统计系在读学生,曾在Quora和Etsy做过数据实习生;毕业后将以数据科学家的身份加入Quora。

1. 设计并解读实验,以支持产品决策

观察:广告版本A的点击率比版本B高出5%。

假设:这些差异是由广告品质造成的,而不是外部因素。

实验:向网站访客随机的展示广告A和B,并测量其点击率。

数据科学家可以解读实验结果,并判断这种差异是否值得引起注意,增加关注和投入。

他们可以帮助你理解实验结果,当你在测量很多指标,进行着相互影响的实验,或者结果中存在辛普森悖论的时候,这种帮助尤为重要。(译者注:辛普森悖论,当分组研究两种变量时,分组中都占优势的一方,在总评中有时反而失势。)

比方说,作为一个全国性的零售商,需要测试一个推广活动的效果。数据科学家可以帮你决定:为了达到测试效果,应该如何选择测试店铺;为了得到清晰的结果,应该如何确定测试样本大小;如何以尽可能少的开支进行测试。

用到的统计学知识:实验设计,频率伦统计(假设检验、置信区间)。

2. 建立可以预测信号的模型,而不是噪音

观察:12月的销售额增涨了5%。

数据科学家可以告诉你销售额增涨了5%的潜在因素,帮助你理解:什么驱动了销售,下个月的销售将如何,值得关注的潜在趋势是什么。想了解关注于信号的重要性,可以查看另一篇文章(“关于过度拟合的直观解释” http://www.quora.com/Statistics-academic-discipline/What-is-an-intuitive-explanation-of-over-fitting)

用到的统计学知识:回归、分类、时间序列分析、因果分析。

3. 利用大数据去建立全局观

观察:有的顾客只购买健康食物,而有的只购买促销品。

广为人知的是,在百货店中,有数以十万计的顾客在购买着数以万计的商品。

数据科学家可以帮助你标记每一个顾客,按群体划分相似的顾客,并研究他们的购买习惯。那么你可以观察业务的发展会如何影响到顾客群体中的某一部分,而不是把所有顾客作为整体去分析,或者单独的观察每一个顾客。

例如,Dunnhumby把百货店的顾客细分为了不同的群体:节省费用型、健康型、家庭关注型、体型关注型、挥霍型和节俭型等。(译者注:Dunnhumby是一家从事顾客研究的英国公司,曾帮助零售商TESCO建立会员卡体系。)

用到的统计学知识:聚类分析、降维度、隐变量分析。

4. 理解用户的参与、留存、转化和引导

观察:很多用户在网站完成了注册,但却没有再回来。

为什么顾客在你的网站购买商品?如何保证你的顾客还会再来?为什么顾客从预期的操作流程中流出?何时他们会再来?什么样的推广邮件是最有吸引力的?衡量参与、行为、成功的指标是什么?一些好的促销是如何引导的?

用到的统计学知识:回归、因果分析、隐变量分析、问卷设计。

5. 给用户他们所想要的

已知一个矩阵:包括用户信息 (顾客、客户或用户等),他们的行为信息 (点击数、购买信息、反馈评分等) 和公司的商品信息 (广告、商品、电影等),你可以向用户推荐其所想要的吗?

用到的统计学知识:预测模型、隐变量分析、降维度、协同过滤、聚类分析。

6. 智能的估算

观察:有一条banner广告有着100次展示和0次点击。

可以用0%作为点击率吗?

数据科学家可以通过整合全局数据和先验知识,获得一个令人满意的估算,报告估算的性质,并总结出估算的意义。

如果你对点击率的估算感兴趣,可以查看另一篇文章(“针对网站数据,贝叶斯方法优于频率论的地方”http://www.quora.com/Big-Data/What-are-the-advantages-of-Bayesian-methods-over-frequentist-methods-in-web-data)

用到的统计学知识:贝叶斯数据分析。

7. 用数据去讲故事

在公司里,数据科学家的角色就像是数据和公司之间的使者。沟通是很重要的;数据科学家必须用一种公司可以接受的方式去解释这些洞察,同时不能丧失数据的保真度。

数据科学家并不是简单的汇总数据,而是需要解释为何这些数据是重要的,以及从中可以获得的可执行的洞察是什么。

数据科学家是公司里讲故事的人,传达着数据的意义,以及数据对公司的重要性。

上文中提到的六点都是可以通过度量去衡量的,但这一点不可以;而且我认为这是最重要的一点。

用到的统计学知识:展示数据和沟通能力,信息可视化。

借助于统计学,数据科学家们得到了洞察,去鼓励决策以改进产品或商业;同时从数据中提取出了可执行的洞察,以促进公司的愿景。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-09-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档