前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析与挖掘的流程和方法

数据分析与挖掘的流程和方法

作者头像
企鹅号小编
发布2018-02-07 17:26:13
2.5K0
发布2018-02-07 17:26:13
举报
文章被收录于专栏:企鹅号快讯企鹅号快讯

数据分析与挖掘是对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程,整个分析过程会有以下几个步骤:

1. 确定目标

首先,要明确目标是什么?比如一个消费品公司有千万级别的会员,那如何对会员的有一个清晰的认识。哪些是活跃的会员?哪些已经流失?会员的消费周期是什么样子?不同的会员偏好的产品特征是什么?流失的会员有没有什么办法唤醒回头再次?

通过问问题,确定分析目标,明确大目标,拆解成各个小目标。

以上面的例子,其实是想做关于做会员画像,实现精准营销,这个是大目标。活跃会员or非活跃会员、消费频率、产品偏好…… 这些问题的探索,都是为了丰富会员的特征,生成个性化标签,以实现精准营销。

2. 数据采集

根据目标需要拿到采集对应的数据,数据可能存在不同的数据源中。比较常见的几种数据源:

a. 关系性数据库:比如企业CRM系统中的数据库,数据库是最常见的数据源,采集数据需要熟练使用SQL和ETL工具。

b. 格式化与非格式化的文件:比如EXCEL、TXT文档等,采集数据需要使用ETL工具或用python等语言。

c. 网页:有一些有用的数据在外部网页上,而且没有开发的API时,需要运用爬虫技术爬取收集,需要熟练运用Python或Java等编程语言。

d. API接口:有些数据,会有开发的接口,比如输入手机号码可以返回对应号码的归属地,有开放的外部API调用,需要的熟练运用Python或Java等编程语言。

e.其他非格式化类型的数据:比如图片、音频等

3. 数据整理

通过上面的数据采集,拿到数据后需要对数据进行清洗、加工整理。根据目标进行数据筛选、数据变量转换、缺失值处理、垃圾数据处理、数据标准化等等。

数据量小可以用excle处理,数据量大可以用SQL、ETL工具或者Python数据处理的包处理。

4. 数据建模与挖掘

数据经过抽取和整理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或者智能推荐),选用哪种算法进行模型构建?是选用基于关联规则算法的动态智能推荐、基于聚类算法的会员价值分析、基于分类与预测算法的会员销售预测等等,可以运用python的数据挖掘的包来建模及运算。

这一步是数据挖掘工作的核心环节。以会员下月销量预测为例,模型构建是对会员历史销售,综合考虑了节假日、淡旺季和竞争对手等采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合。模型的具体化就是会员销量预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值。

5. 数据可视化

对提取有用信息和形成结论数据,可以用EXCLE或者Python的数据图形化的包制作生成图表,制作成可视化的数据报告(PPT);另外,通过web技术数据可以系统化(网页、APP)成数据报表系统或者BI(商业智能)系统,这里推荐百度开发并开源的 图形库ECharts(一个纯 Javascript 的图表库),更加灵活方便的为公司使用,为决策提供更高效的数据支持。

6. 数据决策自动化

这一步是将决策自动化系统化,提升生产力。到这一步,已经排除了人为决策的弊端,比如决策执行不到位或者执行理解偏差,无法切实贯彻执行。

比如通过上面的数据分析及挖掘,发现购买A产品的人,有偏好B产品的销售,比如是电商,就可以A产品的购买页中做B产品的推荐链接,增加关联销售,提升营业额。而且正在产生的数据又不断的收集处理,不停的迭代优化模型,提高推荐准确性,让数据驱动业务的增长。

学会思考 关注未来

本文来自企鹅号 - 三吨书媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 三吨书媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档