前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何进阶优秀数据分析师行列?方法、技术与工具,缺一不可!

如何进阶优秀数据分析师行列?方法、技术与工具,缺一不可!

作者头像
CDA数据分析师
发布2020-04-16 15:17:57
5500
发布2020-04-16 15:17:57
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师

入行数据分析师,从来都不是一蹴而就的。好比钓鱼,不是简单地把诱饵放上鱼钩,然后扔到水中,就可以有鱼上钓,方法、技术与工具,缺一不可。什么是举一反三,什么是学以致用,什么是融会贯通,不是靠一味地执著和花时间就可以达到的,只有由始至终,你都基于最坚实的理论与基础,系统学习技术与实操,熟练掌握各种必要工具,摸索出高效率的学习方法,你才有可能进阶成为优秀的数据分析师。别说你很努力了,现在这个世道谁不努力?关键是看你如何努力,努力在哪些地方!

一、数据分析的定义与范例

统计和逻辑技术在系统上的应用,用于描述数据范围,模块化数据结构,压缩数据表示,通过图像,表格和图表进行说明以及评估统计倾向,概率数据以得出有意义的结论,这就是数据分析。这些分析程序使我们能够消除数据其余部分造成的不必要混乱,从而从数据中得出潜在的推断。数据的生成是一个连续的过程。这使数据分析成为一个连续的,迭代的过程,其中收集和执行数据分析是同时进行的。确保数据完整性是数据分析的基本组成部分之一。

使用数据分析的例子有很多,包括交通运输,风险和欺诈检测,客户交互,城市规划医疗保健,网络搜索,数字广告等等。

考虑到我们最近注意到的医疗保健示例,随着大流行性冠状病毒的爆发,医院正面临着应对尽可能多的患者的压力,考虑到数据分析可以监控这种情况下的机器和数据使用情况实现效率提升。

在进一步深入之前,请进行以下先决条件才能进行正确的数据分析:

  • 确保提供必要的分析技能
  • 确保适当实施数据收集方法和分析。
  • 确定统计意义
  • 检查不适当的分析
  • 确保存在合法且无偏见的推断
  • 确保数据,数据源,数据分析方法和得出的推论的可靠性和有效性。

二、数据分析方法

数据分析有两种主要方法:

定性分析:这种方法主要回答诸如“为什么”,“什么”或“如何”之类的问题。每一个问题都通过定量技术解决,例如问卷,态度定标,标准结果等等。这种分析通常采用文本和叙述形式,其中也可能包括音频和视频表示形式。

定量分析:通常,此分析是根据数字来衡量的。此处的数据以测量尺度表示自身,并扩展以进行更多的统计操作。

其他技术包括:

  • 文字分析
  • 统计分析
  • 诊断分析
  • 预测分析
  • 处方分析

三、数据分析过程

一旦开始收集数据进行分析,您会发现做出清晰,简明决策的信息量不知所措。由于要处理的数据量很大,您需要为分析识别相关数据,以得出准确的结论并做出明智的决策。以下简单步骤可帮助您识别和整理数据以进行分析。

1.数据需求规范-定义您的范围:

  • 定义简短而直接的问题,这是您最终需要做出决定的答案。
  • 定义测量参数
  • 定义您要考虑的参数以及愿意协商的参数。
  • 定义度量单位。例如-时间,货币,薪金等。

2.数据收集

  • 根据测量参数收集数据。
  • 从数据库,网站和许多其他来源收集数据。这些数据可能不是结构化或统一的,这将我们带入下一步。

3.数据处理

  • 整理数据,并确保添加便笺(如果有)。
  • 与可靠的来源交叉检查数据。
  • 根据您先前定义的测量范围转换数据。
  • 排除无关的数据。

4.数据分析

  • 收集数据后,请进行排序,绘图和识别相关性。
  • 在处理和组织数据时,您可能需要从头开始遍历所有步骤,在此可能需要修改问题,重新定义参数并重新组织数据。
  • 利用可用于数据分析的不同工具。

5.推断和解释结果

  • 查看结果是否回答您的最初问题
  • 复查是否已考虑了用于决策的所有参数
  • 复查是否有任何阻碍执行该决定的因素。
  • 选择数据可视化技术以更好地传达消息。这些可视化技术可以是图表,图形,颜色编码等。

一旦有了推断,请始终记住这只是一个假设。现实生活中的场景可能总是会干扰您的结果。在数据分析的过程中,有一些相关的术语可以识别过程的不同阶段。

1.数据挖掘

此过程涉及在数据样本中查找模式的方法。

2.数据建模

这是指组织如何组织和管理其数据。

四、数据分析技术

数据分析有不同的技术,具体取决于眼前的问题,数据类型和收集的数据量。每种方法都侧重于采用新数据,挖掘见解以及深入研究信息以将事实和数据转换为决策参数的策略。因此,可以将不同的数据分析技术归类如下:

1.基于数理统计的技术

描述性分析:描述性分析考虑了历史数据,关键绩效指标,并根据选定的基准描述了绩效。它考虑了过去的趋势以及它们如何影响未来的绩效。

色散分析:数据集分布到的区域中的色散。该技术使数据分析人员可以确定所研究因素的变异性。

回归分析:该技术通过对因变量和一个或多个自变量之间的关系进行建模而起作用。回归模型可以是线性,多元,逻辑,岭,非线性,生命数据等。

因子分析:此技术有助于确定一组变量之间是否存在任何关系。在此过程中,它揭示了描述原始变量之间关系模式的其他因素或变量。因子分析跃升为有用的聚类和分类程序。

判别分析:这是数据挖掘中的一种分类技术。它基于变量测量来识别不同组上的不同点。简而言之,它确定了使两个群体彼此不同的原因。这有助于识别新项目。

时间序列分析:在这种分析中,测量跨时间跨度,这为我们提供了有组织的数据集合,称为时间序列。

2.基于人工智能和机器学习的技术

人工神经网络:神经网络是一种受生物学启发的编程范例,为处理信息提供了大脑的隐喻。人工神经网络是一种基于流经网络的信息来更改其结构的系统。ANN可以接受嘈杂的数据并且非常准确。在业务分类和预测应用程序中,可以将它们视为高度可靠。

决策树:顾名思义,它是代表分类或回归模型的树形模型。它将数据集划分为较小的子集,同时发展为相关的决策树。

进化编程:此技术使用进化算法结合了不同类型的数据分析。它是一种与域无关的技术,可以探索足够的搜索空间并非常有效地管理属性交互。

模糊逻辑:这是一种基于概率的数据分析技术,有助于处理数据挖掘技术中的不确定性。

3.基于可视化和图形的技术

柱状图,条形图:这两个图表均用于显示类别之间的数值差异。柱形图采用柱高来反映差异。在条形图的情况下,轴互换。

折线图:此图表用于表示连续时间间隔内的数据变化。

面积图:此概念基于折线图。此外,它用颜色填充了折线和轴之间的区域,因此代表了更好的趋势信息。

饼图:用于表示不同类别的比例。它仅适用于一系列数据。但是,可以将其制成多层以表示不同类别中数据的比例。

漏斗图:此图表示每个阶段的比例,并反映每个模块的大小。它有助于比较排名。

词云图表:它是文本数据的直观表示。它需要大量数据,并且对于用户来说,辨别度需要很高,才能感知到最突出的数据。这不是一种非常准确的分析技术。

甘特图:它显示了与要求相比的实际时间安排和活动进度。

雷达图:用于比较多个量化图。它代表数据中哪些变量具有较高的值,哪些变量具有较低的值。雷达图用于比较分类和序列以及比例表示。

散点图:它以点的形式显示在直角坐标系上的变量分布。数据点中的分布可以揭示变量之间的相关性。

气泡图:这是散点图的一种变化。在此,除了x和y坐标外,气泡区域还代表第3个值。

量规:它是一种实体化图表。在此,小数位代表指标,而指标则代表维度。这是表示间隔比较的合适技术。

框架图:它是倒置树结构形式的层次结构的直观表示。

矩形树图:此技术用于表示层次关系,但层次相同。它有效利用了空间并代表了每个矩形区域所代表的比例。

地图

区域地图:它使用颜色表示地图分区上的值分布。

点地图:它以地理背景上的点的形式表示数据的地理分布。当这些点的大小相同时,对于单个数据来说就变得毫无意义,但是,如果这些点像一个气泡,那么它将另外表示每个区域中数据的大小。

流图:表示流入面积和流出面积之间的关系。它表示连接空间元素的几何重心的线。动态流线的使用有助于减少视觉混乱。

热图:这表示地理区域中每个点的权重。这里的颜色代表密度。

五、数据分析工具

市场上有几种数据分析工具,每种工具都有其自己的功能。工具的选择应始终基于执行的分析类型和工作数据的类型。这是一些引人注目的数据分析工具的列表。

1. Excel

它具有多种引人注目的功能,并安装了其他插件,可以处理大量数据。因此,如果您的数据与有效数据余量相差不大,则Excel可以成为一种非常通用的数据分析工具。

2.画面

它属于BI工具类别,专门用于数据分析。Tableau的本质是数据透视表和数据透视图,并以最用户友好的方式表示数据。此外,它还具有数据清除功能以及出色的分析功能。

3. Power BI

它最初是作为Excel的插件开始的,但后来脱离了它,以使用大多数数据分析工具之一进行开发。它有三个版本:免费,专业和高级。其PowerPivot和DAX语言可以实现类似于编写Excel公式的复杂高级分析。

4.优良报告

Fine Report带有直接的拖放操作,可帮助设计各种样式的报告并构建数据决策分析系统。它可以直接连接到各种数据库,其格式类似于Excel。此外,它还提供了各种仪表板模板和几个自行开发的可视插件库。

5. R&Python

这些是非常强大和灵活的编程语言。R最擅长统计分析,例如正态分布,聚类分类算法和回归分析。它还执行个人预测分析,例如客户行为,他的花费,基于他的浏览历史记录的他偏爱的物品等。它还涉及机器学习和人工智能的概念。

6. SAS

它是一种用于数据分析和数据处理的编程语言,可以轻松地从任何来源访问数据。SAS推出了一系列针对Web,社交媒体和市场营销分析的客户配置产品。它可以预测他们的行为,管理和优化通信。

最后

这是有关什么是数据分析的完整的初学者指南。数据分析是任何企业的关键,无论是开展新业务,制定营销决策,继续采取特定的行动方针,还是彻底关闭企业。通过数据分析计算得出的推论和统计概率可通过排除所有人类偏见来帮助制定最关键的决策。不同的分析工具具有重叠的功能和不同的限制,但它们也是互补的工具。在选择数据分析工具之前,必须考虑到工作范围,基础设施局限性,经济可行性以及要准备的最终报告。

目前尚处疫情防控的关键时期,百业待兴,万人待业,也许你也在苦苦追寻人生的突破口。如果你决定转行到数据分析师行列,或者有志于成为一名合格且优秀的数据分析师。小编或者可以帮到你,希望在疫情当下被迫慢下来的生活节奏里,你可以好好学习学习,自我增值和全力储能一下。假以时日,衷心祝愿奋发图强的你可以跻身优秀数据分析师行列,达到你理想的职场状态和人生状态。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-14 21:20:22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档