在数据“爆炸”的时代,大数据常常被寄予厚望。到底什么样的数据才算大数据,怎样才能用好大数据?很多没有接触过大数据的人,都很难清楚地知道,究竟多大的数据量才可以称之为大数据。什么是大数据呢?西安弈聪信息技术有限公司(简称:弈聪软件)CEO卓建超认为,量的增多是人们对大数据的第一个认识。根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的。企业端数据近十万的级别,就可以称为大数据;个人端(C端)的大数据要达到千万级别。收集渠道没有特定要求,PC端、移动端或传统渠道都可以,重点要达到这样数量级的有效数据,形成数据服务即可。
卓建超解释说,数据是一种资源,但数据又跟煤、石油等物质性资源不一样。物质性资源不可再生,你用多了别人就用少了,因而很难共享。数据可以重复使用、不断产生新的价值。大数据资源的使用是非恶性竞争的,共享的前提下,更能够制造双赢。从另一个角度来说数据如果不被融合、联系在一起,也不能称之为大数据。卓建超表示,有些小公司数据只有千到万级的规模,但经过收集分析,也能从中有针对性的总结出这一群体的原则,同样能指导企业进行一定程度的用户分析、获取或者是服务工作,但这并不是大数据,而是一般性的数据挖掘。数据分析虽然脱胎于此,但大数据面向的是更海量的一个数据,借助了更广义的知识数据库的分析方法。大部分的数据公司的数据来源是海量的,它的收集和分析,并不是局限于个体,而是以一个非常非常广泛的群体为对象展开的。
通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。人类科学发展史上的不少进步都和数据采集分析直接相关,本质上说许多科学活动都是数据挖掘,不是从预先设定好的理论或者原理出发,通过演绎来研究问题,而是从数据本身出发通过归纳来总结规律。随着我们面临的问题变得越来越复杂,通过演绎的方式来研究问题常常变得很困难。这就使得数据归纳的方法变得越来越重要,数据的重要性也越发凸显出来。大数据是“原油”而不是“汽油”,不能被直接拿来使用。大数据时代,统计学依然是数据分析的灵魂。卓建超指出,“没有系统的数据科学作为指导的大数据研究,就如同不利用工程科学的知识来建造桥梁,很多桥梁可能会坍塌,并带来严重的后果。其次全数据的概念本身很难经得起推敲。全数据,顾名思义就是全部数据。这在某些特定的场合对于某些特定的问题确实可能实现。”
在大数据时代,数据分析的很多根本性问题和小数据时代并没有本质区别。当然大数据的特点,确实对数据分析提出了全新挑战。许多传统统计方法应用到大数据上,巨大计算量和存储量往往使其难以承受;对结构复杂、来源多样的数据,如何建立有效的统计学模型也需要新的探索和尝试。对于新时代的数据科学而言,这些挑战也同时意味着巨大的机遇,有可能会产生新的思想、方法和技术。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。