前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python数据分析浅谈(1)

python数据分析浅谈(1)

作者头像
python数据可视化之路
发布2023-02-23 21:25:42
2020
发布2023-02-23 21:25:42
举报

数据分析的概念都不陌生,在我们大学时候的数据报告、年底工作业务总结、社会上的各行各业的发展都离不开数据。数据分析的广泛适用性、未来发展的引导性使得数据分析在社会生产、科学研究中持续火热。由于数据分析概念比较模糊,有必要对数据分析的理论和过程进行简单的梳理,对数据分析有更为深刻的认识。

本系列的主要内容有:

(1)数据分析的概念

(2)数据分析中的几个“坑”

(3)数据分析的流程

(4)如何做好一份数据报告

本节主要内容:介绍了数据分析的两个组成部分及目的,并通过一个实例来说明如何挖掘图表的信息。

01

数据分析的概念

数据分析是指利用适当的统计分析方法对收集来的数据进行分析,最大化地挖掘数据包含的直接信息间接信息。数据分析的目的是为了提取有用信息、形成结论而对数据进行研究和总结的过程。——概念参考来源:《百度百科》

从以上描述可以看出,数据分析由两部分组成:统计分析方法(模型)、数据;目的是挖掘数据信息,同样包括了两部分:直接信息、间接信息

这就要求我们掌握以下技能:模型认知和应用、数据鉴别、信息挖掘

模型认知和应用:要求我们理解模型的应用场景,例如:SVM和PCA、K-means和Random Forest等等。对于模型的认知和应用,我们可以通过:模型的类别(数据预处理与建模)、模型的作用(降维、统计分析、标准化等)这两大方面来理解。

以前者为例:

模型名称

类别

应用场景

PCA

数据预处理

存在冗余特征,需要降维处理

SVM

建模分析

分类问题

我们可以知道,PCA的结果可以用于SVM的分析。在实际的工作和科研中,我们要分清楚模型的类别和应用场景。对属于同一类别的模型进行归类,例如:PCA,z标准化都属于数据预处理范畴。当我们进行数据预处理,就要想到应该使用什么预处理模型合适。

数据鉴别是数据分析中十分关键且容易忽略的一个环节,尤其是对于从事专业研究人员而言,若数据来源较少,使得他们对数据倍加珍惜,遇到觉得有用的数据就要收藏。但在整个过程中我们十分需要注意数据的质量,简单来说就是要有权威的数据来源。例如对于中国地图数据,网上搜索随处可见数据源,但是最权威、最有效的还是来自中国自然资源部的数据。收集数据既要保证质量、也要保证使用最新的数据(或近些年、其他权威机构发布的数据)。

数据挖掘是数据分析的核心环节,如何从众多数字找到规律?常见的方式有:表格、各种图表等。制作图表是容易的,但是说明图表包含的信息却很难。表层信息我们可以容易看出,但是图表背后的信息,如导致某种现象的背后驱动因子等分析,是更为困难和重要的,这需要专业的知识和领域从事的经验判断,这也是新手数据分析师和老手数据分析师的区别。

怎么进行数据挖掘呢?下面举个例子:下图是全国站点2015-2020年年均站点PM2.5箱型图。从哪些角度挖掘信息呢?

直接信息:从图的组成要素来解释,也就是叙述图表是什么

(1)从中位数来看,2015—2020年中位数、平均值呈现下降趋势,表示空气质量改善。

(2)箱体的高度:代表了25%—75%的数据分布,相当于这其中包含了50%的数据,箱体越窄表示空间范围内站点污染差异值越小。这就表明2015—2020年全国站点的差异性降低,地区分异性降低。

(3)离群值上:箱须上方的"+"代表异常值(离群值),在这里表示年均站点过高的值。可以看出2015—2020年异常值并没有降低。说明在全国PM2.5降低背景下,某些站点的污染仍居高不下。

潜在信息:从图呈现规律性的背后原因分析,也就是寻找为什么

(1)为什么平均值、中位数出现逐年下降的趋势?从政策上看,自从我国实行严格的减排以后,我国对机动车、高排放工厂监管更加严格,这是导致PM2.5浓度下降的重要原因。

(2)为什么2020年异常值要比2015年更多?这似乎与上一个结论矛盾。事实上,我们可以从PM2.5产生的原因进行推测。我国高值PM2.5主要出现在华北平原、四川盆地、新疆地区,这三个地区产生的原因各不相同。政策的实施主要是控制人的行为来解决,而自然原因导致的污染是很难解决的。因此可以大致判断出2020年高值主要是由自然原因形成,且随着全球变化,极端天气增加,出现中位数、平均值降低而异常值增加的情况。

(3)除了从图上直接获取信息外,由于箱型图展现了样本统计的最小值、下四分位数、中位数、平均值、上四分位数、最大值指标,我们还可以通过制表的方式将2015-2020年数据在上述几个维度上对比,定量分析它们的变化,使得数据分析更加精确。

THE END

本节主要介绍了数据分析的概念,了解数据分析的两个组成部分和数据分析的目的,并通过一个实例来说明如何挖掘图表的直接信息和间接信息。下一节将继续python数据分析浅谈。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-01-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 python数据可视化之美 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图数据库 KonisGraph
图数据库 KonisGraph(TencentDB for KonisGraph)是一种云端图数据库服务,基于腾讯在海量图数据上的实践经验,提供一站式海量图数据存储、管理、实时查询、计算、可视化分析能力;KonisGraph 支持属性图模型和 TinkerPop Gremlin 查询语言,能够帮助用户快速完成对图数据的建模、查询和可视化分析。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档