前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >3个必须知晓的数据分析概念,无论资深还是小白

3个必须知晓的数据分析概念,无论资深还是小白

作者头像
CDA数据分析师
发布2018-02-13 14:24:10
1.1K0
发布2018-02-13 14:24:10
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师

介绍

在过去的几年中,人们对数据分析方法越来越重视。通过深入洞察数据情况,帮助很多企业改善了其经营状况。

通过分析数据,企业可以对其企业过往以及未来的表现有了更清晰的认识。通过对未来趋势的窥测,让企业可以对可能发生的意外(如果有的话)情况做好充足的准备。

通过分析数据,企业可以回答这三个主要问题,即:“过去发生了什么”,“现在正在发生什么”,“将来会发生什么”。毫无疑问,数据量的不断攀升,驱动了数据分析行业的快速发展。

数据分析不仅仅局限于汲取过去的经验,而是要能够预测未来的结果从而优化业务资源。因此,在支持企业决策的需求时,更高级的数据分析方法如预测,变得越来越重要。

在这篇文章中,我阐述了3个数据分析的主要形式,可以将所有的数据分析模型做以分类。

一项研究表明,关注并能实现基本数据自动化报告的企业,其ROI(投资回报率)通常会有188%提升。但是,通过增加高级的分析模型强化企业策略,通常可以使得企业ROI的提升1209%。

那么,这些不同的数据分析方法会有哪些根本的不同呢?

1.描述性分析(Descriptive Analytics)

让我们从最基本的数据分析方法描述性分析开始。描述性分析的目的在于分析历史趋势,以及量化相关的规律,从而对人们的行为有清晰的认识。描述性分析包含了回答“过去发生了什么”。这是帮助企业大致了解日常运营情况所使用的最广泛也是最简单的数据分析方法。

描述性模型使用基本的统计和计算方法,以获得关键指标直观的历史趋势。描述模型的主要目的不在于估计一个值,而在于深入了解底层行为。能够实现描述性分析的常用工具软件包括:MS EXCEL,SPSS和STATA等。

对于银行业来说,一个典型的应用就是用户分群。通过挖掘历史数据,分析客户的消费习惯和消费能力,从而有针对性的对其进行精准营销。这些模型是实现用户画像的有力工具,但其对于相似人群个体成员行为的预测能力却十分有限。

学习资源:

  • 学习基本的描述性统计在线资源可以在汗学院找到:

https://www.khanacademy.org/math/probability/descriptive-statistics

  • 这里是一个使用SPSS实现描述统计的视频链接:

https://www.youtube.com/watch?v=ZQ94bSpOAAs

  • MOOC网上关于Coursera-数据科学家的工具包链接:

https://www.coursera.org/learn/data-scientists-tools

2.预测分析

预测模型使用统计模型去得出未来某个事件发生的可能性。它可以回答“将来会发生什么?”。

预测模型建立在描述性模型之上,因为它们不局限在使用历史数据,而是经常使用来自不同来源的结构化和非结构化数据。它通过提供一个关于未来可能发生的事件的浓缩报告,能使决策者做出明智的决定。它涵盖了多种高级的统计模型以及复杂的数学概念,例如:随机森林,GM,SVM,GLM,博弈论等。

预测模型是建立在描述性模型之上来预测未来的行为。然而,不同于描述模型只有大致的描述,预测模型专注于预测?单个客户的行为。

此外,用于运行预测模型的工具因模型复杂性的不同而有所变化,但一些常用的工具如RapidMiner, R, Python, SAS, Matlab, Dataiku DSS,以及很多其他的工具,我们都可以在Coursera上找到相应的学习资源。

银行业的典型例子将会是高级的动态分析。它可以帮助预测客户对给定市场报价做出回应,从而提高交叉销售和扩大销售的产品的可能性。另一个例子是预测信用卡欺诈的概率。

学习资源:

  • Coursera上为R初学者提供的MOOC课程长度链接:

https://www.coursera.org/learn/r-programming

  • Python的初学者指南链接:

https://www.coursera.org/learn/r-programming

  • Coursera上建立预测模型课程的链接:

https://www.coursera.org/learn/predictive-analytics

3.规则分析

规则分析最复杂的分析方法,它使用随机优化和模拟运算,探索一系列可行的方案,并针对给定情况的给出最佳解决方案。它回答了“怎么做?”的问题。

规则模型超越描述性模型—只解决正在发生的事情,以及强于预测模型—只能告诉什么会发生之处在于他们能继续提供建议,预测未来究竟应该做什么。他们量化未来行动对关键业务指标的影响,并给出最佳的行动方案。

规则模型综合了大数据和商业规则,使用复杂算法去比较一系列行动后最可能的结果,并且选择出最佳的行动方案,从而推动业务目标的实现。最先进的规则模型遵循了一个模拟的过程,即模型能通过连续自动学习当前的数据,提升其智能水平。

这些模型通常是极其复杂的,并且由于其难以控制,因此只有一些技术水平强大的大公司才能使用。然后,当模型被正确实施后,会对公司决策的有效性产生巨大的作用。

这意味着,随着超级计算机,云计算,Hadoop HDFS,Spark,数据库运行机制,MPP架构等方面技术的进步,使得部署以结构化和非结构化为数据源的规则模型更加容易实现。然而,除了要求先进的基础数据设施水平,在其他方面,如运行规则模型和预测模型的工具是非常相似的。

在零售银行业的规则模型应用当面的一个常见的??例子,是优化整个银行的各分支机构的销售人员的配置,从而最大限度赢得新客户的。通过整合各分支结构地理位置信息、业绩表现和潜力水平,该模型可以制定出各分支机构最佳的销售人员的最佳分配方案。

一个更加复杂的规则建模方法被用于飞机机票定价系统上,用于优化基于旅行因素、需求等级、购买时间等因素调整机票价格,从而实现利润率的最大化,这一切都在不影响机票销售的前提下实时进行。

一项研究表明,目前大约10%的企业都使用了某种形式的规则分析模型,这个数字在2014年的是3%,预期正在2020年会增加到35%。例如预测分析的大量投资,物联网功能的扩展等因素,更好的说明了规则分析正在推动这种增长,并且扩展到规则模型的范围。

学习资源(不包含预测分析部分)

  • 基于Python的推荐系统构建指南链接:

https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/

  • Coursera上关于手工实践及其学习的MOOC课程链接:

https://www.analyticsvidhya.com/blog/2016/06/quick-guide-build-recommendation-engine-python/

  • 随机森林学习指南链接:

https://www.analyticsvidhya.com/blog/2015/09/random-forest-algorithm-multiple-challenges/

后记

在这篇文章中,我讨论了目前各行业数据分析的三个不同版本。这些都是世界各地数据分析行业的基石。可以说,所有正在使用的模型,都可以被归到这三类中。

这篇文章旨在让那些刚入行或者计划转行从事数据分析行业的朋友有一个清楚的认识。我希望上面提到的学习资源能对您后续的学习所帮助。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-08-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档