专栏首页数据科学与人工智能【大数据分析】大数据分析方法 及 相关工具

【大数据分析】大数据分析方法 及 相关工具

要知道,大数据已不再是数据大,最重要的现实就是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。

越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于此,大数据分析方法理论有哪些呢?

大数据分析的五个基本方面

PredictiveAnalyticCapabilities (预测性分析能力)

数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

DataQualityandMasterDataManagement (数据质量和数据管理)

数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

AnalyticVisualizations ( 可视化 分析)

不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。

SemanticEngines (语义引擎)

我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从 “ 文档 ” 中智能提取信息。

DataMiningAlgorithms (数据挖掘算法)

可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。

假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。

大数据处理

大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。

采集

大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL 和 Oracle 等来存储每一笔事务数据,除此之外, Redis 和 MongoDB 这样的NoSQL 数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

统计 / 分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到 EMC 的 GreenPlum 、 Oracle 的 Exadata ,以及基于 MySQL 的列式存储 Infobright 等,而一些批处理,或者基于半结构化数据的需求可以使用 Hadoop .统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O 会有极大的占用。

导入 / 预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自 Twitter 的 Storm 来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的 K-Means 、用于统计学习的 SVM和用于分类的 Naive Bayes ,主要使用的工具有 Hadoop 的 Mahout 等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主。

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-12-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【数据挖掘】常用的数据挖掘方法

    数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡...

    陆勤_数据人网
  • 3月9日数据动态早报|加强个人信息保护立法

    数据动态早报,让您了解数据新变化,新创造和新价值。 ? ---- 一、通信行业数据动态 1 中国移动通信河南有限公司董事长魏明建议加强个人信息保护立法,加大通信...

    陆勤_数据人网
  • 3月19日数据动态早报 | 电商“下线” 京东阿里小米争开实体店。

    数据动态早报,让您了解数据新变化、新创造和新价值。 ? ---- 一、通信行业数据动态 1 华为强势“进驻”江门 协助打造智慧城市及大数据产业链。华为以BD...

    陆勤_数据人网
  • 何为大数据分析?

    大数据的分析从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多...

    Spark学习技巧
  • 【学习】干货收藏:如何进行大数据分析及处理?

    众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。 那么越来越多的应用涉及...

    小莹莹
  • 75个每个人都应该知道的大数据术语

    在第一篇文章中介绍了以下术语:算法,分析,描述性分析,规定分析,预测分析,批处理,Cassandra,云计算,集群计算,黑暗数据,数据湖,数据挖掘,数据科学家,...

    首席架构师智库
  • 盘点分库分表中,你一定要避开的那些坑!

    例如:单表中出现了,动辄百万甚至千万级别的数据。“分表分库”就成为解决上述问题的有效工具。

    数据和云
  • mysql分布式数据库的逻辑库、物理库和分库分表和TDDL图文详解

    逻辑库/逻辑文件:给用户看的(即Database和Table就是我们常说的逻辑库的范畴) 物理库/物理文件:存储在计算机中的(即机器和Port就是我们常说的物...

    一个会写诗的程序员
  • 数据库分库分表策略的具体实现方案

    :http://blog.csdn.net/xlgen157387/article/details/51331244

    Java后端技术
  • 全球最“有料”的15家大数据公司

    导读:大数据公司是现在最火热的行业之一,目前全球大数据企业主要分为两大阵营:一部分属于单纯以大数据技术为核心的新兴企业,以实力和创新力为市场带来新方案并推动技术...

    CSDN技术头条

扫码关注云+社区

领取腾讯云代金券