首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

可憋再误会大数据分析了

入坑大数据已久,路遇各种对于大数据的评论,其中不乏六月飞雪、比窦娥还冤的情形,今日稍作梳理,请各位看官评评理,大数据分析到底该是什么样的。

大数据=Hadoop?

二者并不等同。那究竟什么是大数据?

百度百科的定义

大数据(big data)或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

Gartner的定义

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

小编认为Gartner的定义更具现实意义。

当我们提起“大数据”这个词时,应该首先意识到,这是一种对于数据的新的处理模式,需要从数据处理的方法论层面上进行理解,而不仅仅是数据多了就行,况且在很多情况下,数据量并没有想象得那么多。

对于这种新的处理模式,需要更加高效的存储和处理技术,因而Hadoop一定程度上成为了大数据时代的代名词。但底层架构只是必要条件之一,大数据要成为有价值的信息资产,还需要数据挖掘和人工智能等一系列的技术支撑。

归根结底,大数据不仅仅是是基于已有数据的纵向归类和统计,更是基于已有数据(海量或有限量)的处理,从而对还未产生的信息做出预测和推荐。

大数据就是很多数据?

并不是。大数据其实代表的是大局观。

据丰田研讨所数据科学家Jim Adler说,巨量存储库,一些IT经理们想象用它来存储大量构造化和非构造化数据,基本就不存在。企业机构不会不加辨别地将一切数据寄存到一个共享池中。

Adler还说,这些数据是 “精心规划”的,存储于独立的部门数据库中,鼓舞“专注的专业学问”,这是完成合规和其他管理请求所需的透明度和问责制的独一途径。

更现实的问题是,现在很多客户面临的最大问题不是怎么用大数据,而是小数据都没用好的情况下怎么用大数据。大数据应该是从小数据逐渐演变升级上去的,是一个正常的生态,而不是瞬间变化的。

因此,大数据体现的其实既是对数据本身价值的全局化理解,更是对数据价值产生的过程和环境的全局考量。

大数据分析平台应该是一键式自动化的?

No,no,no。不以解决业务问题为前提的大数据分析都是耍流氓。

业务问题千差万别,即使是相同一份数据,如何分析使用它也有不少学问,只凭一种工具怎么可能替代业务场景下最重要的人?因此,好的数据分析平台提供的应该是让分析者可以自由畅快地探索数据的环境。

首先,在现实生活中,大数据常常不仅指是数量大,还有可能指的是数据类型的众多,通过交叉分析才有可能发现新的规律和知识;另外从数据准备、数据收集、数据清洗、数据加工以及数据专题分析和结果可视化,数据解读到决策调整会分出很多层次。因此,目前大数据分析过程少不了人工的参与才能实现其价值。

其次,即使是非常数量的数据分析师,在业务场景下也常常无法一次性就清楚判断何种算法将最适用这一轮的数据分析,而算法的调用、修改和调优又是分析流程中门槛较高的环节,很难做到一键式自动。

最后,从实践工作来看,大数据分析的能力其实亟待开放给基层业务人员,不能只局限在分析师和领导层使用,实际业务中的人才是决策的主体,通过多次的分析尝试,在大数据支持下才有可能提升信息的产出价值,最终获得信息的价值增量。

未来是属于大数据的,这点毋庸置疑,但是大数据不代表彻底的颠覆,很多工作岗位依然需要很多传统的工作方式去完成。

Hello,伙伴们

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180314G0P8TX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券