专栏首页Corley的开发笔记商业数据分析从入门到入职(1)商业数据分析综述

商业数据分析从入门到入职(1)商业数据分析综述

文章目录

  • 一、商业数据分析概念
    • 1.商业数据分析引入
    • 2.什么是商业数据分析?
    • 3.所需技能
    • 4.基本分析流程和供应链各个环节
    • 5.商业理解
    • 6.需要用到的工具
  • 二、数据特性
    • 1.数据粒度
    • 2.数据质量与形式
    • 3.数据隐性
  • 三、数据分析类型、可视化与数据驱动开发团队
    • 1.不同类型的分析
    • 2.数据可视化
    • 3.数据驱动开发团队

一、商业数据分析概念

1.商业数据分析引入

先列举几个案例: (1)请估计一下2020年八月份在北京卖出有多少双鞋子? 显然,这是一个很开放的问题,并不像在学校里的题目都有标准答案,是需要经过自己的思考、定义和分析的。

(2)Corley主营在网上卖手机壳,根据销售数据,发现8月份比7月份购买手机壳的顾客数量下降了10%,怎么回事? 这也是一个开放的问题,可以从内部和外部两方面来思考问题:

  • 外部 是手机销售量下降了还是同行业竞争对手出现了,或者经济不景气?物流延迟
  • 内部 销售环节出了问题?哪一类用户下降?

重点需要分析背后的原因,因此需要分析问题的能力。 很多时候我们觉得学校学到的东西都没用,那只是因为我们没有将学校的知识与实际应用结合起来。

2.什么是商业数据分析?

商业数据分析从业要求:

  • 基础知识
  • 工具
  • 业务能力
  • 软技能

举一个例子,拿学武功来说,武功秘籍就是基础知识,宝剑就是工具,在实际练武过程中就得到了面对不同武功和不同对手所需要的方法和技巧,慢慢培养出了业务能力,出神入化之后形成了自己的软技能。

基于数据通过分析手段挖掘出商业价值,解决商业问题,并通过分析商业问题建立相应的分析模型。 上面的几个案例都可以通过数据分析的手段得出结论。

3.所需技能

数据分析大致分为5个阶段:数据获取、数据处理、数据分析与建模、数据解释与呈现、验证及优化。 这五个阶段在上述的基础知识、工具和业务能力方面又有不同的要求,具体如下:

4.基本分析流程和供应链各个环节

再举一个案例: (3)Corley卖鞋,2020年9月前10天就完成了本月计划的80%,业绩是好还是不好?

可能有人会觉得好,毕竟三分之一的时间就卖出了大部分,但是实际上并不一定好: 要看整个月的销售情况,如果前10天销量处于上升趋势,剩下的时间处于快速下降并保持很低的水平,有可能是完成不了计划的; 还好看以前的销售情况,比如说同比销售额,是不是可能比现在还好; 和其他竞争对手相比,是否比他们好。

销量好或者不好需要从多个维度进行衡量,而不是单纯地给出一个答案; 每个行业不同,相应的分析方法和思路也千差万别。

一个基本的分析流程如下:

  • 理解商业问题 根据具体的商业场景理解商业问题。
  • 准备阶段 根据相应的商业场景进行计划和准备,需要哪些数据、怎么进行分析。
  • 数据分析
  • 解释结果

供应链的各个环节如下:

分析时,不仅要从销售价格来分析,也要从源头即成本进行分析,处于供应链的哪个位置; 找整个商业供应链出现问题的主要环节,找出问题。

5.商业理解

对于一个事件,会有很多因素,可能都会影响到结果。

在商业数据分析中,需要进行多维度思考,包括产品、位置、时间等角度,比如零售业中有人、货、场的概念,如下:

从点、线、面的角度评价销售业绩: 分析自己9月份业绩即为点; 分析与去年同期相比即为线; 与其他人相比即为面。

获取知识的金字塔DIKW如下:

从原始数据中提取出信息,并通过总结得到知识,逐渐积累成为智慧。

6.需要用到的工具

(1)Excel是最普及的数据处理和分析工具,作为Office三件套之一,受到各行业广泛的使用,也很容易上手。

(2)思维导图工具,如XMind、Mind Master等,可以整理知识体系、梳理思维。

(3)专业的Python数据分析工具Anaconda,可以进行Python基础编程、数据分析、建模计算等,自带了很多包

(4)关系型数据库软件MySQL,是最常见的的数据库之一,个人一般直接使用社区版即可,可以到MySQL官网https://dev.mysql.com/downloads/mysql/中下载https://www.cnblogs.com/zhangkanghui/p/9613844.html

除此之外,还可以充分利用Github开源平台https://github.com/,可以查询一些开源项目、查看源码,是一个学习的平台。

二、数据特性

1.数据粒度

数据存在特定的特点,其中之一为粒度。 较标准的定义为: 数据粒度是指数据仓库中数据的细化和综合程度。 根据数据粒度细化标准:细化程度越高,粒度越小;细化程度越低,粒度越大。

很多时候得到的数据为汇总的数据,比如对于电商来说,得到了每个月的销售情况,要预测每天的销售情况是不现实的; 汇总数据可以获取整体趋势。

而对于原始数据,可以为每一种商业模式确定相应的指标KPI,比如电商行业的常见指标如下:

并且可以使用杜邦分析法评价指标组合进而确定经营业绩,示意如下:

对于Leader来说,很重要的一个要求是用户体验好,好的用户体验好主要包括以下方面:

分析流程可以进一步细分如下:

  • 目标 比如设定PV、DAU(日活)等指标。
  • 收集数据 根据需求、按照指定的方法获取数据,并过滤掉无用的信息。
  • 数据探索 发现收集到的数据的特点、分布特征,并探索数据间的关系。
  • 特征工程 数据中哪些重要。
  • 开发计算 进行建模计算、并产生结果,如线性回归、逻辑回归。
  • 评估

假如有一个JSON格式的电影评分数据如下:

现在需要计算谁和谁更相似,对两部电影建立坐标系如下:

每个人的评分都以坐标的形式体现出来,可以通过两者之间的距离计算出来,距离越近则相似度越高,最简单的方式是通过勾股定理计算; 有多部电影则计算多维距离。

2.数据质量与形式

数据有一个很重要的特性是数据质量。 根据定义,数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。

比如说,调查问卷因为设计不好而导致收集到的结果有失客观性,这就是数据质量有问题。

衡量数据质量有一定的衡量指标:

  • 重复 数据重复是否有意义。
  • 完整 数据探索时判断数据是否完整。
  • 一致 数据之间是否一致,比如问卷数据前后部分是否符合。
  • 时效 数据一般在某个时间区间内有效。

数据还有一个特性是数据形式,主要包括:

  • 结构数据 具有一定结构的数据,如MySQL数据库中的数据,对数据类型有一定的限制。
  • 半结构数据 具有特定的格式,如之前的json数据就是半结构数据,一般来自网站。
  • 非结构数据 文本、图片等文件,没有特定的结构,不能使用常规方法分析。 对于图片文件,图都是有由像素组成的点阵,每一个像素点由RGB值确定,组成一个矩阵进行处理。

不同格式的数据也有不同的来源。

3.数据隐性

可以从数据中挖掘出信息和价值。

再举一个案例: (4)对于电商行业,怎么分析客户的男女比例: 假如有一个客户叫孙悦,昵称是小悦悦,最近老是频繁登录我们的APP,并且总是浏览美妆产品,而且最近三个月购买了大量女鞋和美妆。 那么孙悦是男还是女呢?

要判断一个客户是男性还是女性,可以从以下指标出发:

最简单的方法:

男性概率=姓名倒数第一个字男性概率×权重1+姓名倒数第二个男性概率×权重2 女性=1–男性概率

这个模型只是依据姓名来判断的,较为单一。

更进一步的分析: 在姓名判断性别概率的基础上,再依据消费行为(如购买剃须刀)的特征判断性别概率,并确定权重计算加权概率。 这是一个分类问题。

进行数据分析的好处:

  • 搞清事实 分析事情的好坏。
  • 接近真相 可以发现真相的可能情况。
  • 预测未知 比如预测消费曲线。
  • 帮助决策 如智能投顾。

三、数据分析类型、可视化与数据驱动开发团队

1.不同类型的分析

不同类型分析的复杂度和价值如下:

其中,描述性分析用于描述当前情况,比如分布、曲线等; 诊断分析主要分析问题原因,可能需要进行可视化; 预测分析主要预测未知,包括自动化推荐系统、销量预测; 指导分析用于指导行动。

随着难度的加大,所需要的数据也越来越多工具越来越复杂

常见的分析框架如下:

具体包括SVM、决策树、逻辑回归、神经网络、线性回归、K-means、分层聚类等理论模型。

2.数据可视化

有了分析的结果,需要进行报告,其中可视化不可缺少,需要将结果呈现出来。 同时在数据探索时,数据可视化可以让我们更加直观地了解数据所呈现出的特点。

一个图表示意如下:

显然,左右两部分都是有问题的: 标题不规范; 刻度不一致,不协调; 坐标轴起点; 两个表的差距感觉不同,但实际上差别是一样的。

3.数据驱动开发团队

一个典型的数据驱动开发团队的成员如下:

左侧负责数据分析,右侧负责项目开发,相互协调和配合。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Django+Vue开发生鲜电商平台之10.购物车、订单管理和支付功能

    购物车需要实现在商品详情页面将该商品加入购物车后,右上角同步显示,并且点击去结算会同步显示,并且价格与数量同步,具体包括了增删改查等操作,在apps/trade...

    cutercorley
  • 用Python实现批量高效文件处理 解放你的双手

    有时候会有大量修改文件名的需求,比如修改文件后缀、文件名加前缀等,如果手动修改,效率极低,这时候可以使用Python来批量修改:

    cutercorley
  • C语言入门系列之4.分支结构程序-关系、逻辑运算和if、switch语句

    关系运算符: 又叫比较运算符,在程序中经常需要比较两个量的大小关系,以决定程序下一步的工作。比较两个量的运算符称为关系运算符。

    cutercorley
  • 怎么培养数据分析的能力?

    答案一: 先从问题本身来回答一下,培养数据分析的能力,简单说就是 理论+实践 理论:是进行分析的基础 1)基础的数据分析知识,至少知道如何做趋势分析、比较分析和...

    小莹莹
  • 大数据时代,技术和分析哪个更重要?

    资深数据分析师,戴文波特在《哈佛商业评论》上的撰文《数据分析师的崛起》中提到,大数据时代的到来意味着处理庞大的数据将会在每个人的工作中,占有越来越大的比...

    陆勤_数据人网
  • 数据分析入门

    用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解并加以消化,以求最大化的开发数据功能,发挥数据的作用。数据分析可用于现状分析,原因分析,预测...

    潇洒坤
  • 我眼中的数据分析

    数据分析的任务必须是明确的,带着问题出发。它可以是一张简单的报表,也可以是专题或者综合分析。

    enenbobu
  • 今天聊聊大数据

    大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 大数据的4V特点:Volum...

    互联网金融打杂
  • 如何进阶优秀数据分析师行列?方法、技术与工具,缺一不可!

    入行数据分析师,从来都不是一蹴而就的。好比钓鱼,不是简单地把诱饵放上鱼钩,然后扔到水中,就可以有鱼上钓,方法、技术与工具,缺一不可。什么是举一反三,什么是学以致...

    CDA数据分析师
  • 石沉大海!发出去的报告没人回应,数据分析师该怎么办?

    辛辛苦苦跑的数据没人理,对数据分析师/专员来说是一件极具挫败感的事情。如果在日常更新数据的同时,还要接大量没头没尾的临时性需求,就更有挫败感了。如果发现接的临时...

    接地气的陈老师

扫码关注云+社区

领取腾讯云代金券