专栏首页PPV课数据科学社区【译文】统计建模的24种应用(上)

【译文】统计建模的24种应用(上)

在这里,我们讨论统计模型的一般应用情况。不管他们是否源自数据科学,运筹学,工程学,机器学习或统计学,如决策树,logistic回归,贝叶斯模型,马尔可夫模型,数据压缩和特征选择等。我们不会讨论其具体的算法,相反,我们讨论的是这些技术和算法如何去解决实际生活中的问题。下面大部分条目都可以在维基百科里找到,除了我个人写的一些外,我还引用少量来自于维基百科中相应文章的定义和摘要。

1、空间模型

空间倚赖性是指地理空间内属性的协同作用:在近端位置特征似乎是相关的,要么正相关,要么负相关。在统计学中,空间的依赖性会导致空间自相关问题,例如颞自相关,因为这违反了标准统计技术中各观测值之间相互独立性的假设。

2、时间序列

时间序列分析方法大致可分为两类:频域的方法和时域方法。前者包括频谱分析和小波分析,后者包括自相关和交叉相关分析。在时域中,相关分析可以在某种过滤器中使用,这种过滤器类似于一种使用比例相关的方式,凭此可以减轻在频域中操作的需求。另外,时间序列分析技术可被划分为参数和非参数的方法。参数方法假定基本平稳随机过程有一个特定的结构,这种结构使用少量的参数就可以被描述。(例如,使用一个自回归移动平均模型) 在这些方法中,任务就是评估那些描述随机过程的模型参数。相比之下,非参数方法不需要假设过程中有任何特定的结构,便可明确估计协方差或过程的谱 ,时间序列分析方法也可分为线性和非线性,单变量和多变量。

3.生存分析

生存分析是统计学的一个分支,它分析发生一个或多个事件的预期持续时间,例如生物有机体的死亡和机械系统的崩溃。本课题在工程上称为可靠性理论或可靠性分析,在经济学中叫做持续时间分析或持续时间模型,在社会学中称为时间历史分析。生存分析试图回答这样的问题:在过去的某个时间中,人口生存的比例是多少?那些幸存者中死亡或失败的比例是多少?死亡或失败的多层原因能够被充分考虑吗?特定情况或特性下,如何提高或降低生存的概率?生存分析模型被统计人员和精算师所使用,同时也被营销人员应用到设计客户流失和留存的模型中。生存模型也被用来预测事件发生的时间(如从变得激进到变成恐怖分子的时间,或一把枪从被购买到被用在一场谋杀案中的时间)或建模和预测衰减。

4.细分市场

细分市场,也被称为客户分析,是一种营销策略,这种策略将广阔的目标市场分为消费者、企业、 国家这些拥有或被视作拥有共同的需求、利益和特权的几块。然后针对的设计和实施相关策略。市场细分策略通常用于识别和进一步确定目标客户,并为营销计划方面提供数据支持,例如定位实现特多营销计划指标的高低。企业可以制定产品差异化策略,或统一的方法,这些方法涉及到依赖于目标市场具体需求和属性的特定的产品或产品线。

5、推荐系统

推荐系统是信息过滤系统的子集,它试图预测一个用户给与一个项目的评级或偏好。

6 、关联规则学习

关联规则学习是一种在大型数据库中发现变量间有趣关系的方法。举例来说,{洋葱,土豆}===>{汉堡肉} 这个超市销售数据中发现的规则表明,如果一个顾客在一起买洋葱和土豆,他们很可能也会买汉堡包。在欺诈检测中,关联规则是用来与欺诈相关的检测模式,连锁分析进行识别额外的欺诈案件,如果有A用户在B商店用于欺诈购买的信用卡交易数据,通过分析B商店所有交易数据,我们便可以发现带有欺诈行为的其他用户。

7、归因模型

归因模型是一个规则,或者说一套规则,用于确定销售和转换率在转换路径上的交点有多可信。例如,谷歌分析的最后互动模型指定先于销售和转化率的最终交点100%的可信度.宏观经济模型使用长期的,汇总的历史数据为每次销售或转换率分配一系列属性权重,这些模型也用于广告组合优化。

8、评分模型

评分模型是一种特殊的预测模型。预测模型可以预测拖欠贷款,风险事故,客户流失或恶化,或买一个好东西的机会。评分模型通常使用是基于逻辑回归和决策树,或多个算法的组合的对数刻度(你的分数每增加50点就降低50%的违约风险),分技术通常适用于交易数据,有时是实时检测。

9、预测模型

预测模型,利用统计来预测结果。最常见的是预测未来发生的一件事,但不限如此,预测模型可以应用于任何类型的未知事件,无论何时发生。例如,预测模型通常用于在犯罪发生后,检测犯罪和确定犯罪嫌疑人,它也可以结合时间序列或空间模型用于天气预报、预测股票市场价格。神经网络,线性回归,决策树和朴素贝叶斯是一些用于预测模型的技术。他们都会创建一个训练集,交叉验证,模型拟合和选择。一些预测系统不使用统计模型,而是数据驱动的。

10、聚类

聚类分析或聚类是将一组对象分组,分组的方式是使同一组对象(称之为簇)的相似度更高于其他组的对象.数据挖掘是探索性数据挖掘的主要任务,也是一种常用的统计数据分析技术,在许多领域都有应用,包括机器学习、模式识别、图像分析、信息检索和生物信息学等。与监督分类法不同,聚类不使用训练集。因为掺杂了一些监督分类的操作,故称为半监督学习。

11、监督分类

监督分类,也被称为监督学习,是从带标签的训练数据集中推导出一个函数的机器学习任务.训练数据集包括一组训练样本。在监督学习中,每一个样本都包含一对一个输入对象(通常是一个向量)和一个期望的输出值(也称为标签,类或类别)。有监督学习算法分析训练数据,并产生一个推断的函数,它可以用于映射新的例子。一个最佳的方案将允许该算法在看不见的情况下正确地确定分类标签,在大数据情况下,样本能在DSC上被发现。聚类算法是非常缓慢的,而一些称为指数化或自动化标签的快速技术将在本文的第二部分描述。

12、极值理论

极值理论或极值分析(伊娃)是统计学中一个分支用于处理概率分布中值的极值偏差.它旨在评估从给定的有序的随机变量的样本发生比以前观察到的更极端事件的概率.例如,每10、100、或500年发生的洪水,预测灾难性事件,这些模型最近已经表现不佳,从而导致保险公司的巨大损失。我更喜欢蒙特卡洛模拟,特别是如果你的训练数据是非常大的。这将在本文第二部分描述。

版权声明:PPV课翻译小组作品,未经授权,严禁转载

原作者:Vincent Granville

原文链接:http://www.datasciencecentral.com/profiles/blogs/top-20-uses-of-statistical-modeling

本文分享自微信公众号 - PPV课数据科学社区(ppvke123),作者:黄梦康

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【学习】从回归分析到数据挖掘

    回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用。无论是银行、保险、电信等服务行业的业务分析人员在进行数据库营销、...

    小莹莹
  • 【推荐】再谈数据挖掘——时序预测初探

    1. 背景 先来看两个例子,下面两幅图展示了百度在趋势预测方面的应用案例,一个是世界杯期间的比赛输赢预测,另一个是北京各旅游景区的游客人数预测。 ? ? 这两...

    小莹莹
  • 【机器学习】你需要多少训练数据?

    从谷歌的机器学习代码中得知,目前需要一万亿个训练样本。 训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据,通常针对...

    小莹莹
  • 统计学习方法概论

    1.统计学习 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习...

    机器学习AI算法工程
  • 总结一下模型工程化部署的几种方式

    昨天我看到公众号的后台有同学留言说我好几天没有更新公众号了,我开玩笑的回复,我的公众号遵循国家法定假日。在这里感谢大家的支持,一直默默地关注着我的公众号。

    黄鸿波
  • 机器学习建模老司机的几点思考与总结

    机器学习现在在很多地方都是十分流行,无论现在的你是否从事建模工作,还是你将来想从事相关工作,对于从业者可以从中看出一些同感与意见,对于未来从业者可以了解这个职业...

    Sam Gor
  • keras中文doc之三

    前面介绍了keras文档一二 keras中文文档, keras中文-快速开始Sequential模型

    用户1908973
  • AAAI 2020论文解读:关注实体以更好地理解文本

    下面要介绍的论文选自AAAI 2020,题目为:「Attendingto Entities for Better Text Understanding」,axr...

    AI科技评论
  • 学界 | Bengio最新论文提出GibbsNet:深度图模型中的迭代性对抗推断

    机器之心
  • [穿越福城] 幕后故事 | 设计定义年味

    ? 腾讯ISUX isux.tencent.com 社交用户体验设计 ? ? 导语 每到过年,在外的游子都会不远万里回家与亲人团聚,这是一种中国独有的特色,...

    腾讯ISUX

扫码关注云+社区

领取腾讯云代金券