大数据是个什么鬼?

关于大数据,有这样一段话:

“Big data is like teenage sex,everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it.”

看完这句话,大家对什么是“大数据”有点概念了吗?目前,大多数人对大数据的概念还停留在:就是海量的数据,PB(1PB=1024TB)级别的,甚至是 EB、ZB 以上的数据,通过对这些数据进行深入分析,就能得出非常有价值的结论,指引企业做出最佳决策。

大数据就是那种每个人都听过,或者看过此类文章,但却不怎么了解的事物。

其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数据分析,是通过提出假设然后获得相应数据,最后通过数据分析 来验证假设。而大数据不是这样的,大数据是从收集的海量数据中,通过算法将这些来自不同渠道、格式的数据进行直接分析,从中寻找到数据之间的相关性。简单 而言,大数据更偏重于发现,以及猜测/印证的循环逼近过程。

而大数据的价值体现在对它的分析利用上。一直以来,大数据的瓶颈并不是数据规模巨大导致的存储、运算等问题,而是在前端数据的收集途径,以及对数据进行结构化处理,进而引导后期的商业决策中的模型和算法问题。

各个行业都在产生数据,现代社会的数据量正持续地以前所未有的速度增加着。这些不同类型的数据和数据型,极其复杂,包括结构化、半结构化和非结构化 的数据。企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。随着传感器、智能设备和社会协同技术的爆炸性增长,数据的类 型变得难以计数,包括文本、微博、传感器数据、音频、视频等。

而现在大热的数据分析师正在做的是这样的工作:收集信息,将信息结构化数据化,最后才是我们能看到的大数据带来的神奇力量。但问题是其中对数据进行处理工作量太大了。根据访谈和专家测算,数据分析师的 50%~80% 的时间都花在了处理数据上。

在智能手环公司 Jawbone 负责数据工作的 Monica Rogati说:

处理数据是整项工作中巨大的部分。但有时我们感到沮丧,因为好像不停地处理数据就是我们做的所有事情。

这听起来有点像冰山理论,即我们能看到的大数据只是冰山露出来的一个小角,而我们看不到的地方,如大数据的前期工作,就是海水下是更巨大的部分。

但咨询公司麦肯锡曾在 2011 的报告中指出:

“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

是的,存在问题的地方也潜藏着机会。原始数据的格式和来源不可计数,举一个例子,假如一家食品行业的企业需要进行大数据的收集和分析,它能收集的数 据包括产量、出货的位置信息、天气报告、零售商每日销售量、社交媒体评论等。而根据这些信息,企业能够洞察出市场的风向和需求的变化,进而制定相应的产品 计划。

的确,获得的信息越多越有利于企业做出明智的决策。但这个决策是建立在不同的数据集之上的,这些来自各种传感器、文档、网页、数据库的的数据,全部都是不同的格式,它们必须要被转换为统一的格式,这样软件才能理解它们,进行分析。

将各类数据进行格式统一是一个严峻的挑战,因为数据和人类语言一样都具有模糊性,有些数据人类知道是什么意思,但电脑却不能识别,因此我们需要人工来一次又一次地重复这个工作。

现在已经有不少的初创公司试图开发相关的技术来减轻这项工作,例如ClearStory Data,一家在帕洛阿尔托的初创公司,它开发的软件能识别不同的数据来源,将它们整合,并将结果用视觉方式呈现,如图表、图形或数据地图。再如Paxata,一家加州的初创公司,专注于数据的自动化——发现、清理、调配数据,通过 Paxata 处理过的数据能被送入各种分析或可视化软件工具。

大数据目前的情况和计算机发展的轨迹有点相似。一种先进的技术,最初往往只被几名精英掌握,但随着时间流逝,通过不断地技术创新和投资,这项技术,或者说工具,会变得越来越好。特别是当其融入到商业领域中后,这项工具就能得到广泛应用,成为社会中的主流。

所以我们现在是历史的见证者,看着大数据如何一步步完善,我们都需要掌握或选择一个最佳的分析方法,以更好地挖掘出大数据的价值。

继续探索吧。

原文发布于微信公众号 - php(phpdaily)

原文发表时间:2015-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据科学】从学界到业界:关于数据科学的误解与事实

在从学界(粒子物理学博士后研究员)进入业界(数据科学领域)时,Emily Thompson也曾有过犹疑。而现在,在担任 Insight 项目总监10个月之后,她...

2445
来自专栏云计算D1net

物联网和大数据趋势的赢家:云计算供应商

物联网将推动对数据中心的大规模投资,但这些数据中心将由亚马逊、微软和谷歌运行。不难看出物联网(IoT)和大数据趋势的赢家:云计算供应商。根据IDC表示,在未来四...

3485
来自专栏python+iOS学习交流

30KiOS程序员的简述:如何成为高级开发人员

本篇文章适用于所有在这个行业已经有了几年时间后想要在职业生涯中取得突破的开发人员,编程人员和程序员(或者你可能刚刚开始,但希望你能看到你的路径)。本文适合那些有...

1172
来自专栏数据的力量

滴滴出行——数据驱动精准化运营

1615
来自专栏云计算D1net

企业需要在高速数字世界中获得对云计算的控制

云计算是这个时代最伟大的颠覆者之一,现在已经成熟并且被越来越多的企业采用。云计算实现了企业的大规模数字化转型,加快了产品上市速度,并推动了增长、创新、协作和新的...

3528
来自专栏Java架构师进阶

Java程序员的五个职业发展方向

其实很多程序员走到这个阶段已经在做软件设计师工作了。这是绝大多数程序员发展的必经之路。因为,程序员在编程序的时候,一方面会实现设计的功能,另一方 面 也在对设计...

2002
来自专栏CDA数据分析师

为你还原一个纯粹地道的「数据分析岗」

导读:只要是在科技创新领域的公司,纷纷都挂出来了急招“数据分析师”的牌子。但是很多人对它的概念并不了解,本文为你一一道来数据分析岗的功能目的,以及组建方式,干货...

24710
来自专栏LiveEdu在线科技教育平台

程序员:我们为什么爱上直播编程?

在“直播”没有进入互联网之前,我们是不会想到几乎所有事情都可以通过互联网,电脑或移动设备展现在公众面前。如今,无数网红通过直播分享他们的生活和工作,与粉丝互动,...

35411
来自专栏人工智能快报

欧盟“人脑工程”开放六大ICT平台

2016年3月30日,欧盟“人脑工程(HBP)”项目宣布向该项目外部的用户开放六大信息与通讯技术(ICT)平台,这些平台旨在帮助科学界加速神经科学、医学与计算领...

3574
来自专栏企鹅号快讯

互联网产品运营体系总结之产品设计

前段时间写了两篇关于产品运营方法的文章,发表到产品经理专业网站上,受到大家的欢迎。这段时间自己也一直在思考,如果只有当我们碰到困难和问题时,才去找方法,未免工作...

3187

扫码关注云+社区