大数据分析

本章及下一章内容与教材内容不太一样,希望同学们引起重视。

01

概览数据分析

数据分析是大数据价值链中最终和最重要的阶段,其目的是挖掘数据中潜在的价值以提供相应的建议或决策。

数据分析( Data Analysis)是一个检查、清理、转换和建模数据的过程,目的是发现有用的信息,得出结论和推动决策制定。

数据挖掘(Data mining)是指用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。

数据分析流程(下图)(两句话,①数据分析是从业务中来,到业务中去;②脱离了业务的数据分析都是耍流氓)。

02

传统数据分析方法

比较有代表性的传统数据分析方法:

统计分析,相关分析,回归分析,聚类分析,因子分析,A / B测试;

①统计分析

②相关分析:一种用于确定观测现象之间的相关规律,从而进行预测和控制的分析方法。相关分析是利用现有统计数据研究关系的强度的过程(例子是身高与年龄)。同时,相关不等于因果(睡眠与收入)。

③回归分析:揭示一个变量和其他几个变量之间的相关性的数学工具。

回归分析能够识别随机隐藏的变量之间的依赖关系(一元线性回归)。

④聚类分析:一种将对象进行分组的统计方法。聚类分析用于区分具有某些特征的对象,并根据这些特征将它们分成不同的类别。同一类别中的对象具有高同质性,不同类别中的对象具有高异质性。

⑤因子分析:主要是通过少数几个因子,来描述大量指标或元素之间的关系(例子是找对象,以自己中意的几个典型的维度对另一半进行刻画。如白富美,地域,教养,品行,性格等等)。

⑥A/B测试,也称为水桶测试。它通过比较测试组,制定能改善目标变量的计划(更多地应用在产品或网页的设计中,根据用户体验与反馈对产品进行完善)。

03

大数据分析方法

这部分更多地是对大数据存储效率,以及读取速度进行优化的大数据分析方法。

①布隆过滤器:由一个位数组和一系列的哈希函数组成。布隆过滤器的原理是通过利用位数组来存储数据本身之外的数据的哈希值。位数组本质上是使用哈希函数来进行数据的有损压缩,从而存储其位图索引。布隆过滤器算法的核心思想:利用多个不同的哈希函数来解决“冲突”。(例子是班级同学进行一间屋子,门口会有一排灯,某几个灯亮表示一个同学,为了避免冲突,灯亮以颜色进行区分。灯亮表示1,不亮表示0)。

②散列法:一种将数据变换为较短的固定长度数值或索引值的基本方法。特点:快速读取、快速写入和高查询速度。难点:如何找到健全的散列函数。 优点:空间效率高、查询速度快。缺点:具有一定的误识别率、删除困难等。例子是谍战片里面传递情报场景,最重要的是找到密码本(散列法的难点)。

③索引法:是减少磁盘读取和写入成本的有效方法。索引法能够提高插入、删除、修改和查询速度。索引一般分为两类:聚集索引和非聚集索引。例子是索引类似于书籍的目录。

④字典树:又称单词查找树,是一种哈希树的变体。它主要应用于快速检索和字频统计。主要思想是:利用字符串的常见前缀来最大限度地减少字符串的比较,从而提高查询效率。

⑤并行计算:并行计算是指利用若干计算资源来完成计算任务。其基本思想是:分解一个问题并将其分配给几个独立的进程,以便独立完成,从而实现协同处理。

04

大数据分析架构

大数据分析可以根据实时要求分为实时分析(金融领域:超市付款,哈罗单车)和离线分析(淘宝商品推荐)。

大数据分析按照层次的不同,还可以分为内存级分析、BI分析(数据层、业务层和应用层)和海量分析(数据采集模块、数据冗余模块、维度定义模块、并行分析模块)。

05

大数据分析应用工具(略)

课上通过R语言的展示,旨在让同学们对大数据分析的功能有个直观认识。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20181103G0NBR800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券