大数据能为您做什么?

大数据

当今世界,数据量激增。数据量是如此之多以至于谁掌握了数据,谁就掌握了财富创造的关键。接下来让我们来认真审视一下大数据的含义以及它能为我们做什么。

大数据毫无疑问在学术界和 IT 行业中引起了大量关注。在当今数字和计算机世界,信息以惊人的速度产生和收集,且这一速度正迅速超过信息存储能力。全球约有 40 亿人连接到互联网,超过 50 亿人拥有手机,其中超过 33.9 亿用户使用移动互联网。像 WhatsApp,Facebook,Instagram,Twitter 等社交网络平台在数据的泛滥增长中起着重要作用。

除了社交媒体巨头之外,还有大量的数据由不同的设备如传感器,执行器等生成,这些设备被用作物联网(IoT)的一部分,也用于机器人。

预计到 2020 年,将有超过 500 亿台设备接入到互联网。在这个时候,预测产生的数据量将比 2010 年高出近 44 倍。由于技术的进步,智能设备使用的增加使得所有这些接入互联网的人们产生了惊人的数据量。特别是,远程传感器不断产生更大量的结构化或非结构化的异构数据。所有这样的数据都被称为大数据。

我们都知道,这么多数据都通过不同的光纤以高速进行分享和传输。然而,如此巨大的数据量的高速增长在以下领域带来了挑战:

  • 数据搜索,分享和传输
  • 数据分析与捕获
  • 数据管理
  • 数据存储,更新和查询
  • 信息隐私
大数据面临的挑战

图1:大数据的挑战

大数据广义地从三个方面确定:

1.数据量很大。

2.数据产生,存储和处理速度非常快。

3.数据不能被分类进常规关系数据库。

大数据在商业应用中具有很大的潜力。它在医疗器械制造,社交媒体,银行交易和卫星成像方面发挥着重要作用。传统上,数据以结构化形式存储以便于检索和分析。但是,当前的数据量既包含非结构化数据,也包含半结构化数据。因此,在关系数据库管理系统中的结构化数据与用于分析的非结构化数据之间进行转换时,可能会阻碍端到端的处理。在这些问题中,与正在生成的惊人的数据量相关的问题包括数据的传输速度,数据的多样性以及安全问题。在数据存储和挖掘技术方面取得了一些进展,这使得如此大量的数据能够得到保存。同时,在这个保存过程中,由组织生成的原始数据的本质也改变了。

大数据的一些重要来源

让我们快速浏览一些主要的数据来源以及一些统计数据(数据来源:http://microfocus.com)。

1. 社交媒体:每天有大约 120.96 万(120万)个新的社交媒体用户,他们会产生数据。

2. Twitter:每天有大约 6.56 亿次推文!

3. YouTube:每天向 YouTube 上传超过 400 万小时的内容,其所有用户每天大约观看 59.7 亿个小时的 YouTube 视频。

4. Instagram:每天发布大约 67,305,600(67.30 百万)个 Instagram 帖子。

5. Facebook:到 2017 年为止,Facebook 的月活用户数量已超过 20 亿,而 2015 年初的数字为 14.4 亿,2016 年初为 16.5 亿。平均下来,截至 2017 年 6 月日活用户数量约为 13.2 亿用户。平均每天 43 亿条 Facebook 消息被发布。平均每天点赞数大概有 57.5 亿。

6. 手机短信:每天发送近 220 亿条短信(用于个人和商业用途)。

7. 谷歌:平均而言,2017 年,Google 每日搜索量超过 52 亿次。

8. 物联网设备:设备是我们每天创建的 2.5 万亿字节数据的巨大来源 — 这不仅包括移动设备,还包括智能电视,飞机,汽车等。因此,物联网正在产生日益增长的数据量。

大数据来源

图2:大数据的主要来源

大数据类型

图3:不同类型的大数据

大数据的特点

大数据的几个特征如下所列。

体量:这指的是生成和存储的数据集的数量。数据的大小有助于确定价值和潜在的洞察力; 因此,它可以帮助我们了解一组特定的数据是否真的可以被视为大数据。

种类:该属性与数据的不同类型和性质有关。这实际上有助于那些分析大数据集的人有效使用分析后得到的结果。如果一组特定数据包含不同种类的数据,那么我们可以将其视为大数据。

速度:当我们将某些东西归类为大数据时,数据生成的速度也是一个重要因素。数据生成和进一步处理以得出结果供后续分析使用的速度是大数据的重要属性之一。

可变性:当我们谈论大数据时,与之伴随总会有不一致的地方。如果数据集没有特定的模式或结构,我们认为它是不一致的。而这有可能妨碍处理和管理数据所需的不同过程。

准确性:捕获的数据的质量也可能有很大差异,这会影响对大数据集的准确分析。如果捕获的数据质量不够好而不能用于分析,那么就需要在分析前对其进行处理。

如何分析大数据?

我们都知道,我们无法用手工的方式分析大数据,因为这是一项极具挑战性且乏味的任务。为了使这个任务容易些,有几种技巧可以帮助我们很轻松地分析大量数据。让我们看一看一些用于数据分析的著名技巧。

1. 关联规则学习:这是一种基于规则的大数据分析技术,用于发现大型数据库中存在的不同变量之间的有趣关系。它旨在确定用不同的“有趣的”方法在数据库中发现的强规则(strong rules)。它利用一组技术来发现大型数据库中存在的所有不同变量中的几种有趣关系,也称为“关联规则”。

所有这些技术都使用各种算法来生成并测试不同的可能规则。其中最常见的应用之一是市场购物篮分析。这有助于零售商确定顾客经常一起购买的几种产品,并将这些信息用于更有针对性的营销(如发现大多数购买尿布的超市购物者也会去购买啤酒等)。关联规则现在在持续生产,Web 使用挖掘,生物信息学和入侵检测中得到广泛应用。这些规则不考虑同一交易内或不同交易内不同项目的顺序。

2. A / B 测试:这是一项比较应用程序的两个不同版本以确定哪个更好的技术。它也被称为分割测试或水桶测试。它实际上指的是一种特定类型的随机实验,在该实验中,一组用户面对相同产品(广告,电子邮件,网页等)的两种变体 — 让我们称之为变体 A 和变体 B。所有面对变体 A 的使用者通常被称为对照组,因为其表现被认为是衡量从加入变体 B 观察到的任何性能改善的基线。此外,有时候,变体 A 本身就是产品的原始版本,受测试与之前存在的产品进行对照。面对变体 B 的所有用户被称为控制组。该技术通过使用一些数学计算来测量控制组相对于对照组的表现来优化转化率。

这种测试方法从网站优化过程中去除了可能的情况,从而实现了各种数据知情的决策,将业务对话从“我们认为的”转变为“我们所知道的”。我们可以通过测量各种变化对我们指标的影响来确保每项变更都能产生积极的结果。

3. 自然语言处理:计算语言学这一领域与人机交互有关。特别是,它涉及编程几台计算机来处理大型自然语言语料库。自然语言处理中的不同挑战是自然语言生成,自然语言理解,连接机器和语言感知或者其他一些组合。自然语言处理研究主要依赖于机器学习。最初,有许多语言处理任务涉及规则的直接手工编码。现在,不同的机器学习模式调用被用来代替统计推断,通过分析来自现实生活中例子的大量数据来自动学习各种规则。许多不同类别的机器学习算法已用于自然语言处理(NLP)任务。这些算法利用大量“特征”作为输入。这些特征是从输入数据集中发展而来的。最近的研究更多地集中在统计模型上,统计模型基于将实值权重附加到每个输入特征来进行概率决策。这样的模型确实具有优势,因为它们可以很容易地表达相对确定性,而不仅仅表示一个可能的答案,因此产生更可靠的结果,与当这样一个模型被包括作为更大系统中许多组成部分中的一个。

大数据系统流程

图4:大数据系统中涉及的不同流程

大数据如何使您的业务受益?

对于那些没有资金购买加入这种新趋势的不同非盈利和政府机构而言,大数据似乎遥不可及。我们都有这样一个印象认为“大”通常意味着昂贵,但大数据并不是真的要使用更多的资源; 而是对手头资源的有效使用。因此,资金有限的组织也可以保持竞争力和成长。为此,我们需要了解我们可以在哪里找到这些数据,以及我们可以用它做些什么。

让我们来看看大数据如何真正对不同组织的业务有帮助。

1. 有针对性的营销:有几家小公司无法与拥有大量可支配广告预算的大型组织竞争。为了不被市场所淘汰,他们不得不花费更少的资金,同时还要达到顾客的要求。这就是对数据进行分析和计算的需求所在,以便锁定那些最有可能成为客户的人。有大量的数据可以通过 Google Insights 等不同工具自由获取到。企业可以准确找到不同的人在寻找什么,什么时候在寻找,并知道他们的位置。例如,CDC(美国疾病控制中心)使用 Google 提供的大数据分析大量与流感有关的搜索。利用获得的数据,研究人员能够将精力集中在对流感疫苗有更大需求的地方。同样的技术也可以应用于其他产品。

2. 有价值的情报:如果我们不知道如何将不同的事实和数字转化为可用的信息,那么大数据就会将我们淹没。但是,一旦组织学会如何掌握不同的分析工具,将其度量转化为可读的报告,曲线图和图表,就可以做出更具前瞻性和针对性的决策。那就是对影响业务的“大问题”有清晰认识的时候。

3. 社交窃听:大数据中的大部分信息都是从 Twitter 和 Facebook 等社交网站上的聊天信息中获得的。通过对不同社交渠道中所说的内容进行审视,组织可以真正理解公众如何看待他们,以及如何改善他们的声誉。例如,Twitter 的心情预测股市。Johan Bollen 曾经追踪过大量 Twitter 消息的集体情绪是如何与道琼斯工业平均指数相关联的。Bollen 和他的团队使用的算法实际上预测市场变化的准确率为 87.6%。

使用大数据改善企业运行状况

图5:大数据可以帮助任何企业的不同方式

大数据的应用

现在对大数据有巨大的需求,并且有很多领域已经在使用大数据。我们来看看其中的一些。

1.大数据用于不同政府部门的不同任务,如窃电调查,欺诈识别和生态设防。大数据也被美国食品药物管理局(FDA)用来检验不同的食物类感染。

2.它被内科医生和大夫广泛用于医疗保健行业,以追踪病人的病史。

3.大数据通过采用不同的技术如适应性学习,问题控制等应用于教育领域,以改革不同的教育课程。

4.大数据用于银行业的欺诈检测。

5.大数据被不同的搜索引擎用来提供最好的搜索结果。

6.不同的商品比价网站利用大数据为用户提供最佳选择。

7.大数据也用于分析和处理从连接到物联网的不同传感器和执行器获得的数据。

8.不同的语音识别产品,例如 Google Voice 和 Siri,也利用大数据来识别用户的语音模式。

9.大数据和数据科学将游戏体验提升到了新的高度。现在不同的游戏使用各种大数据和机器学习算法设计,当玩家达到更高的水平时,这些算法具有自我提升的能力。

10.大数据对推荐系统和建议工具有很大的帮助,它使得我们了解在亚马逊,Flipkart 等不同网上购物平台类似产品的情况。

本文的版权归 IamZS 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【重磅】谷歌人工智能帝国内幕大起底

【新智元导读】今天谷歌CEO在年度公开信中写道,我们将进入人工智能为先的世界,但并没有透露多少细节。本文详尽梳理了谷歌所有的——没错,是所有的——人工智能项目及...

37611
来自专栏CDA数据分析师

经验 | 3要点解构数据分析的思维模式

数据分析(DataAnalysis)——这个词真的是如雷贯耳,装B一绝啊!甭管什么玩意,上来先整一通再说。“数据分析”甚是被提上了神坛,找工作或者聊点行业内的动...

2008
来自专栏AI研习社

AI 开发者高薪太诱人?请收下这份给国内开发者转型 AI 指南

如果你浏览 AI 相关的新闻,不难发现「高薪」、「百万年薪」等极具诱惑力的词汇的出现频率非常高。同样,在知乎中搜索「如何转型 AI?」、「AI 领域需要怎样的人...

1282
来自专栏AI科技评论

周刊 | 与其迷恋AI,不如“摸摸”这些开源平台

自Open AI的成立把AI平台的开源推向高潮后,Google,Facebook,微软,Twitter等公司也“半推半就” 地踏上了自家平台的开源之路,以此来吸...

4034
来自专栏灯塔大数据

一个数据分析小白,要如何对产品进行分析?

什么是数据分析? 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实际应用中,数据分...

2584
来自专栏悦思悦读

大数据技术在工业界的应用

大数据是近几年非常热门的一个概念。到底什么叫做大数据呢?简单而言,就是具备4V属性的数据:

2483
来自专栏人工智能快报

谷歌发布第二代TPU和Google.ai

据外媒报道,谷歌发布了第二代张量处理单元(TPU)和Google.ai。谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)是谷歌2017年开发者大会(G...

3967
来自专栏大数据挖掘DT机器学习

数据科学家/统计学家应该养成哪些好习惯?

1、永远不要轻信自己的分析结果,多用业务和常识去检验。 很多时候,我们的分析都是含有一些潜在的假设,而在分析过程中被忽略。比如最经典的案例是在1948年,盖洛普...

2964
来自专栏PPV课数据科学社区

数据分析师?程序能做的事还需要你吗?

数据分析在现实中,当一个数据分析师跟别人聊天的时候,经常会被问一些问题: Q:数据分析人员能做什么? A:从纷繁的数据里提炼出有价值的信息并给公司提供支持啊。...

3479
来自专栏罗超频道

多媒体搜索再进化

2015年百度世界展出了语音和图像为代表的多媒体搜索技术,这并非其首次亮相百度世界大会,多媒体搜索已成为百度的重头戏,与连接人与服务战略、人工智能战略一起构成百...

3969

扫码关注云+社区