大数据运营相关技术：分析技术，先切割后聚合，先微分后积分

文章来源：企鹅号 - 数智萤火虫

【本文摘自：李福东《大数据运营》8.3，了解更多请关注微信公号：李福东频道】

编制按

大数据典型分析技术为离线计算技术MapReduce，它以大数据块为操作单位，首先对数据进行微分Map，然后再对集合内数据进行聚类运算。

分布式数据库和关系型数据库的目标是将大数据存放起来，可是要想在海量数据中发现价值，还需要强大的数据建模和数据分析技术。

大数据建模和数据分析技术与大数据存储技术是不可分割的，不同的数据存储方式决定了不同的数据建模和分析方法。

像GFS、HDFS这样的分布式数据存储技术，将海量数据进行切分并存储到不同的存储节点上，当新的数据产生后，用户无需关心切分后的数据存放到哪台设备上，数据存储操作对数据管理员来说是透明的，如果存储空间不足，则可以将新的设备添加到集群中。

在分布式存储技术满足日益增长的海量数据存储的同时，也提出了新的问题：如何保证数据获取的效率？如何保障数据的可靠性？如何提高数据获取便捷性？如何实现分布式数据库与关系型数据库的有效结合？等等

大数据分析应用分为查询、统计分析、OLAP、数据挖掘几种类型。

大数据查询与传统的交易型数据查询从功能角度看是一样的，区别在于大数据查询解决了海量数据的查询效率问题。

大数据统计分析与大数据查询类似，同样是解决统计效率问题。

OLAP即在线分析处理，与OLTP（在线事务处理）相对提出的，OLAP面向分析，OLTP面向事务。OLAP支持多个维度的数据统计。

数据挖掘的目标是从大量的数据中找出看似不相干的事物之间的联系，比如啤酒和尿布之间的联系，某种药物购买行为和流行病之间的联系等。

为支持以上应用，需要有相应的分析技术手段作为支撑。其中，MapReduce是支持分布式计算的一种典型分析技术，SQL是支持关系型计算的一种典型分析技术。

此外，Storm、Spark等海量数据实时流式处理技术，弥补了MapReduce在海量流式计算方面的不足，R语言和工具解决了大数据分析结果的展示问题。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货