前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析简明学习路线

数据分析简明学习路线

作者头像
double
发布2020-11-23 14:14:55
3590
发布2020-11-23 14:14:55
举报
文章被收录于专栏:算法channel算法channel

数据分析能力,未来会越来越重要。之前推送过很多篇相关文章,基于此再扼要总结,广义上数据分析的学习路线,此处数据分析我延伸到建模部分,只为了从宏观上更清楚的认识,数据分析和数据建模是如何从零到上线,并应用于生产实践与指导中的。

数据分析思维贯穿始终,前几天推送过数据分析必知的 9 种思维

有了数据才能分析,数据获取方法至关重要,常见的:公司大数据平台,通过爬虫获取,第三方数据接口,公开的数据集等。爬虫常用框架Beautiful Soup,requests,urllib模块,lxml包,正则技术,html结构,对于动态网页爬取JS必不可少。

数据爬取后就要存储它,一般数据量,MongoDB,Mysql,大数据量,Hive和Spark,实时查询ES弹性数据库等。

下一步,数据预处理,包括数据转化 data transform:数据标准化、离散化等;数据清洗:异常值、缺失值、数据不均衡处理;数据集成:多个数据源规整到一起:merge,join等。

然后,数据分析,先拿excel折腾一回,函数分三类:SUM为代表聚合类、VLOOK为代表查询类、IF为代表逻辑类;数据再多的,拿Pandas分析一番,做做EDA(探索性分析),再大的使用Spark分析。

EDA后,会提出一些针对性的问题,尝试去建模,借助统计学工具,机器学习(传统的十几种常用算法)、深度学习(几个经典网络模型)开展回归、聚类分析,进而确定模型的各个参数,完成学习和建模。

得到模型上线部署后,要想业务人员看懂,还得要数据可视化,制作各种报表,这些才是对外交流的材料。

最后讲给业务人员,确保能够给他们解释清楚。应用到生产中后,业务和客户会不断反馈,然后我们再去不断迭代模型,再上线,再收到反馈,一直循环往复下去。

大概来讲,以上就是数据分析的完整过程,可能遗漏有些环节,读者们留言补充。顺便说一句,模型的可解释性挺重要,趋向简单化,更容易解释给用户,实际项目中会省去很多麻烦。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-11-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员郭震zhenguo 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档