【译文】统计建模的24种应用(上)

在这里,我们讨论统计模型的一般应用情况。不管他们是否源自数据科学,运筹学,工程学,机器学习或统计学,如决策树,logistic回归,贝叶斯模型,马尔可夫模型,数据压缩和特征选择等。我们不会讨论其具体的算法,相反,我们讨论的是这些技术和算法如何去解决实际生活中的问题。下面大部分条目都可以在维基百科里找到,除了我个人写的一些外,我还引用少量来自于维基百科中相应文章的定义和摘要。

1、空间模型

空间倚赖性是指地理空间内属性的协同作用:在近端位置特征似乎是相关的,要么正相关,要么负相关。在统计学中,空间的依赖性会导致空间自相关问题,例如颞自相关,因为这违反了标准统计技术中各观测值之间相互独立性的假设。

2、时间序列

时间序列分析方法大致可分为两类:频域的方法和时域方法。前者包括频谱分析和小波分析,后者包括自相关和交叉相关分析。在时域中,相关分析可以在某种过滤器中使用,这种过滤器类似于一种使用比例相关的方式,凭此可以减轻在频域中操作的需求。另外,时间序列分析技术可被划分为参数和非参数的方法。参数方法假定基本平稳随机过程有一个特定的结构,这种结构使用少量的参数就可以被描述。(例如,使用一个自回归移动平均模型) 在这些方法中,任务就是评估那些描述随机过程的模型参数。相比之下,非参数方法不需要假设过程中有任何特定的结构,便可明确估计协方差或过程的谱 ,时间序列分析方法也可分为线性和非线性,单变量和多变量。

3.生存分析

生存分析是统计学的一个分支,它分析发生一个或多个事件的预期持续时间,例如生物有机体的死亡和机械系统的崩溃。本课题在工程上称为可靠性理论或可靠性分析,在经济学中叫做持续时间分析或持续时间模型,在社会学中称为时间历史分析。生存分析试图回答这样的问题:在过去的某个时间中,人口生存的比例是多少?那些幸存者中死亡或失败的比例是多少?死亡或失败的多层原因能够被充分考虑吗?特定情况或特性下,如何提高或降低生存的概率?生存分析模型被统计人员和精算师所使用,同时也被营销人员应用到设计客户流失和留存的模型中。生存模型也被用来预测事件发生的时间(如从变得激进到变成恐怖分子的时间,或一把枪从被购买到被用在一场谋杀案中的时间)或建模和预测衰减。

4.细分市场

细分市场,也被称为客户分析,是一种营销策略,这种策略将广阔的目标市场分为消费者、企业、 国家这些拥有或被视作拥有共同的需求、利益和特权的几块。然后针对的设计和实施相关策略。市场细分策略通常用于识别和进一步确定目标客户,并为营销计划方面提供数据支持,例如定位实现特多营销计划指标的高低。企业可以制定产品差异化策略,或统一的方法,这些方法涉及到依赖于目标市场具体需求和属性的特定的产品或产品线。

5、推荐系统

推荐系统是信息过滤系统的子集,它试图预测一个用户给与一个项目的评级或偏好。

6 、关联规则学习

关联规则学习是一种在大型数据库中发现变量间有趣关系的方法。举例来说,{洋葱,土豆}===>{汉堡肉} 这个超市销售数据中发现的规则表明,如果一个顾客在一起买洋葱和土豆,他们很可能也会买汉堡包。在欺诈检测中,关联规则是用来与欺诈相关的检测模式,连锁分析进行识别额外的欺诈案件,如果有A用户在B商店用于欺诈购买的信用卡交易数据,通过分析B商店所有交易数据,我们便可以发现带有欺诈行为的其他用户。

7、归因模型

归因模型是一个规则,或者说一套规则,用于确定销售和转换率在转换路径上的交点有多可信。例如,谷歌分析的最后互动模型指定先于销售和转化率的最终交点100%的可信度.宏观经济模型使用长期的,汇总的历史数据为每次销售或转换率分配一系列属性权重,这些模型也用于广告组合优化。

8、评分模型

评分模型是一种特殊的预测模型。预测模型可以预测拖欠贷款,风险事故,客户流失或恶化,或买一个好东西的机会。评分模型通常使用是基于逻辑回归和决策树,或多个算法的组合的对数刻度(你的分数每增加50点就降低50%的违约风险),分技术通常适用于交易数据,有时是实时检测。

9、预测模型

预测模型,利用统计来预测结果。最常见的是预测未来发生的一件事,但不限如此,预测模型可以应用于任何类型的未知事件,无论何时发生。例如,预测模型通常用于在犯罪发生后,检测犯罪和确定犯罪嫌疑人,它也可以结合时间序列或空间模型用于天气预报、预测股票市场价格。神经网络,线性回归,决策树和朴素贝叶斯是一些用于预测模型的技术。他们都会创建一个训练集,交叉验证,模型拟合和选择。一些预测系统不使用统计模型,而是数据驱动的。

10、聚类

聚类分析或聚类是将一组对象分组,分组的方式是使同一组对象(称之为簇)的相似度更高于其他组的对象.数据挖掘是探索性数据挖掘的主要任务,也是一种常用的统计数据分析技术,在许多领域都有应用,包括机器学习、模式识别、图像分析、信息检索和生物信息学等。与监督分类法不同,聚类不使用训练集。因为掺杂了一些监督分类的操作,故称为半监督学习。

11、监督分类

监督分类,也被称为监督学习,是从带标签的训练数据集中推导出一个函数的机器学习任务.训练数据集包括一组训练样本。在监督学习中,每一个样本都包含一对一个输入对象(通常是一个向量)和一个期望的输出值(也称为标签,类或类别)。有监督学习算法分析训练数据,并产生一个推断的函数,它可以用于映射新的例子。一个最佳的方案将允许该算法在看不见的情况下正确地确定分类标签,在大数据情况下,样本能在DSC上被发现。聚类算法是非常缓慢的,而一些称为指数化或自动化标签的快速技术将在本文的第二部分描述。

12、极值理论

极值理论或极值分析(伊娃)是统计学中一个分支用于处理概率分布中值的极值偏差.它旨在评估从给定的有序的随机变量的样本发生比以前观察到的更极端事件的概率.例如,每10、100、或500年发生的洪水,预测灾难性事件,这些模型最近已经表现不佳,从而导致保险公司的巨大损失。我更喜欢蒙特卡洛模拟,特别是如果你的训练数据是非常大的。这将在本文第二部分描述。

版权声明:PPV课翻译小组作品,未经授权,严禁转载

原作者:Vincent Granville

原文链接:http://www.datasciencecentral.com/profiles/blogs/top-20-uses-of-statistical-modeling

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

最全常见算法工程师面试题目整理(二)

接着上回写的《最全常见算法工程师面试题目整理(一)》,继续填接下来的坑。 11boost算法的思路是什么样的?讲一下你对adaboost 和 gbdt的了解? ...

5706
来自专栏灯塔大数据

塔荐 | 从神经科学到计算机视觉:人类与计算机视觉五十年回顾

前 言 本文简单的介绍了神经网络近50年的发展历程,从1968年的Hubel和Wiesel开展的猫实验,一直到李飞飞教授等人的成果。从本质上讲解了人工神经网络...

3419
来自专栏数据科学与人工智能

机器学习两次浪潮|机器学习

第一次浪潮:浅层学习 20世纪80年代末期,用于人工神经网络的反向传播算法(也叫Back Propagation算法或者BP算法)的发明,给机器...

2836
来自专栏新智元

【深度强化学习突破】OpenAI Gym 玩游戏达到人类水平

【新智元导读】许多人不信只用1个强化学习算法,就能让计算机从零开始从像素中自动学会玩大部分ATARI游戏,并达到人类的表现水平。本文中,参与设计与研发OpenA...

5246
来自专栏浮生的专栏

机器学习为更好的火灾现场安全

当勇敢的消防员身处险境试图抢救其他人和他们的财产的时候,他们的生命同样受到了威胁。在这篇文章中,我想分享我在AAIA第15届数据挖掘竞赛中的经验和获奖策略:给火...

2374
来自专栏量子位

LeCun亲授的深度学习入门课:从飞行器的发明到卷积神经网络

Root 编译整理 量子位 出品 | 公众号 QbitAI 深度学习和人脑有什么关系?计算机是如何识别各种物体的?我们怎样构建人工大脑? 这是深度学习入门者绕不...

3615
来自专栏新智元

谷歌大脑与Open AI合著论文:机器视觉的一个致命缺陷

【新智元导读】计算机视觉很厉害,但是,只要稍加修改,比如使用美图软件加一个滤镜,计算机视觉就错误频出。MIT报道把这一缺陷称为计算机视觉的“阿喀琉斯之踵”,认为...

3518
来自专栏前沿技墅

卷积网络虽动人,胶囊网络更传“神”

2214
来自专栏量子位

Keras作者Chollet谈深度学习的未来:自动调参,极端泛化

王小新 编译自 Keras Blog 量子位 出品 | 公众号 QbitAI Francois Chollet是深度学习框架Keras库的作者和谷歌人工智能研究...

3865
来自专栏新智元

从神经科学到计算机视觉:人类与计算机视觉五十年回顾

【新智元导读】本文简单的介绍了神经网络近50年的发展历程,从1968年的Hubel和Wiesel开展的猫实验,一直到李飞飞教授等人的成果。从本质上讲解了人工神经...

3225

扫码关注云+社区

领取腾讯云代金券