每周学点大数据 | No.1何谓大数据

No.1期

带你认识大数据

咚咚咚。

一天下午,王老师的门被敲响了。

Mr. 王:请进。

门被轻轻地推开了,随后被有礼貌地关上了。

Mr. 王:你就是小可吧?

小可:是的,王老师您好,我就是前几天与您联系的那个学生,我想学习些大数据方面的知识。

Mr. 王:好啊,咱们可以一起讨论,看你不太面熟,你是计算机专业的学生吗?

小可:我是计算机专业的大一新生,会用程序设计语言完成一些很简单的程序设计,不过到目前为止我还没有学习过任何关于大数据算法的课程,我也并不了解什么是算法设计与分析,就连算法是什么都不太清楚,可是每天都能听见大家在讨论大数据的问题,我也很想了解大数据方面的内容,这样的基础我也能听懂大数据的内容吗 ?

Mr. 王:当然可以,我可以给你讲几节讨论课,相信学习过后,你就明白什么是大数据、如何分析大数据和应用大数据了。小可:那真是谢谢王老师了。

Mr. 王:别客气,有问题直接来问我就可以了。

身边的大数据

小可:王老师,那什么是大数据呢?

Mr. 王:你还真是一下就问了个很复杂的问题。其实大数据是一个很模糊的概念,很多人和学术组织都对其提出过自己的定义,但是至今还没有公认的定义。我们先不谈确切的定义,先来举几个例子说明吧。你平常用社交网络吗?

小可:嗯,是的。

Mr. 王:你有很多好友吧?他们是不是每天都会发很多的状态和消息?

小可:是的,甚至有很多新闻我都是首先通过社交网络知道的。社交网络传递信息的速度真的很快,朋友们每天发布的状态我都看不完,而且不仅有原创的内容,还有很多来自他们好友的转载内容。

Mr. 王:其实社交网络上的这些信息就是一种典型的大数据。

小可惊讶地说:原来这就已经是大数据了?我一直以为大数据都在实验室里面呢。

Mr. 王:此言差矣,其实大数据就在我们身边。我们常用的社交网络上就有着非常巨大的信息量,虽然一个人发布的状态非常有限,但由于使用的人数众多,加之转载和评论,巨大的数据规模就使得社交网络信息无法在短时间内由人工或者由少量的几台计算机存储和管理。站在社交网络之外看待它,就会发现里面有很多且杂乱无章的信息和内容,同时其规模非常大。

这就是大数据的一个典型例子。

小可恍然大悟地说道:哦,原来这就是大数据啊,那其实我每天都在接触大数据啊。

Mr. 王笑道:的确,大数据就在我们每个人的身边,随着信息时代的到来,我们每个人每天接触到的数据量都是非常大的。但你在查看这些消息的时候,有没有看到除字面内容以外的东西呢?小可想了一下,说:好像没有什么,我关注的只是消息本身。

Mr. 王:我们研究大数据不只是能知道它的数据量很大,或者说仅仅研究如何把它们存储起来,我们还要发掘在大数据中隐藏的知识和有价值的信息。

小可:哦?大数据中隐藏着知识?

Mr. 王:是的,从表面上看,大数据可能只是一些简单的文本、杂乱的符号或者是一些数字的序列或者集合,但是从这些文本或者数字的背后,我们可以发掘其作为一个群体所具有的一些性质,从而发现一些对我们有意义、有价值的信息,所以我们才要研究大数据。

小可:大数据不是很大很大吗?那么我们研究它不就会变得很困难吗?

Mr. 王:不错,大数据的量很大很大,我们单单是把其中的信息逐个地访问一遍都很困难,所以发掘其中的知识就更加困难了,这就是研究大数据要解决的重要问题,也就需要我们这些研究大数据的人、热爱大数据的人加倍地努力了。

小可思考片刻后,说:那在超市里面,每年都会有很多人去买东西,他们的购物单上又会包含着很多内容,对超市来说,这些购物的记录就是“大数据”吧?而通过分析这些购物单,发现顾客更喜欢买哪些商品,这算不算一种通过大数据分析出的知识呢?

Mr. 王:很聪明嘛,你举了一个很好的例子。商业数据也是大数据的一个重要体现,超市购物的明细记录、公司运营的详细账目这些数据量都是很大的,处理起来非常费时费力,而其中又包含着有价值的信息,通过这些信息不仅可以分析出本年度公司的运营情况,同时可以指导下一年度公司的营销战略,这些数据对公司来说可谓是价值连城。

小可:那么大数据在别的方面又有哪些体现呢?

Mr. 王:你应该对生物遗传有所了解吧。

小可点点头道:是的,人体通过DNA 携带遗传信息。

Mr. 王:在医疗和生物计算领域中,每次对DNA 序列的分析都会产生大量的数据,这个数据量已经不是GB 可以衡量的了,甚至要达到PB 级别或者更大。而这么大的数据,不仅计算机的内存装不下,而且一般计算机的硬盘都已经存不下了。即使是扫描一遍,在上面发现一个小序列都需要一些时间,在这些数据上面做分析将是一件更困难的事情。这也是一种大数据。

不仅在生物学中如此,而且在很多科学仪器的使用过程中也都会产生大量的数据,比如天文观测、显微观测、现在逐渐应用的传感器和传感器网络在使用过程中都会记录下大量的数据。

这些仪器不停地记录下的数据,都涉及如何存储、如何分析研究的问题,这些都是大数据。

生活中的大数据

小可:嗯。

Mr. 王:那我们就给大数据下个定义吧。

定义1 :所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理,并整理成为人类所能解读的信息。(Dan Kusnetzky, What is “Big Data”?)

定义2 :不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。(维克托· 迈尔- 舍恩伯格、肯尼斯· 库克耶,“大数据时代”)

定义3 :“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(“大数据”(Big Data)研究机构Gartner)有了前面的那些例子,这些定义是不是相对好理解一些呢?

小可:嗯,我懂了。

内容来源:灯塔大数据

原文发布于微信公众号 - 灯塔大数据(DTbigdata)

原文发表时间:2016-08-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | 数据科学家最需要什么技能?

数据科学家需要涉猎很多——机器学习、计算机科学、统计学、数学、数据可视化、通信和深度学习。这些领域中有几十种语言、框架和技术可供数据科学家学习。那么要想成为雇主...

12240
来自专栏大数据文摘

大咖 | Teradata CTO谈数据分析的未来:大数据或消失,公民数据科学家很危险

当地时间10月15日,2018 Teradata全球用户大会在美国拉斯维加斯举行。来自15个国家的3000多位数据人参与了本次峰会。

9620
来自专栏大数据挖掘DT机器学习

写给刚入门的数据分析师的几点建议

1.数据是有立场的,立场决定解读 数据对于业务来讲,是KPI的衡量标杆,也是行动指南。但一旦涉及到立场和方向性的东西,必然有利益触发点的问题。比如同样的一次活动...

32360
来自专栏斑斓

系统架构 | 设计恰如其分的架构

远在2009年,Martin Fowler与Rebecca Parsons在QCon SF做了一次题为Agilists and Architects: Alli...

38460
来自专栏华章科技

10 本大数据高分书籍,收好给头脑充充电吧~

导语:机器学习和数据分析密不可分,除了网课,我相信一些优质图书肯定能帮到你的忙,今天推荐10本技术图书,都是非常实用且有帮助的,多读读多看看,肯定获益匪浅。

10320
来自专栏数据的力量

微信数据分析和微信传播模型

21540
来自专栏CDA数据分析师

经验|怎么写好一份数据分析报告?

分析报告的输出是你整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据。 ? 我认为一份好的分析报告,有以下一些要点: 首先,...

46250
来自专栏云加头条

FPGA加速:面向数据中心和云服务的探索和实践

为了进一步加速云计算的创新发展、建立云计算信任体系、规范云计算行业、促进市场发展、提升产业技术和服务水平,由中国信息通信研究院、中国通信标准化协会主办的“201...

31950
来自专栏Java学习网

数学对一个优秀的程序员帮助有多大

数学对一个优秀的程序员帮助有多大 今天有很多年轻人或经验不足的程序员在论坛发帖、在 Stack Exchange 网站问:「为了成为优秀的程序员,我需要擅长...

251100
来自专栏华章科技

写好一份数据分析报告的13个要点

先说说写一份好的数据分析报告的重要性,很简单,因为分析报告的输出是是你整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据,既...

19540

扫码关注云+社区

领取腾讯云代金券