前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据概览系列(一)

大数据概览系列(一)

作者头像
哒呵呵
发布2018-08-06 17:09:53
5000
发布2018-08-06 17:09:53
举报
文章被收录于专栏:鸿的学习笔记鸿的学习笔记

下面是英文的目录,争取每天更新一个大章节

  • Introduction
    • What’s Big Data?
    • Business Use Cases
      • CRM
      • HCM
      • IoT
      • Healthcare
    • Audience
    • Roadmap
  • Data Management
  • Hadoop
    • HDFS
      • Assumptions
      • Architecture
      • Control and Data Flow
      • The Small Files Problem
      • HDFS Federation
      • Java API
      • Data Ingestion
    • MapReduce
      • Overview
      • Data Flow
      • Secondary Sorting
      • Examples
      • Shortcomings
    • Tez
    • YARN
  • Spark
    • RDD
    • Implementation
    • API
  • Analytics and Data Warehouse
    • Pig
    • Hive
    • Impala
    • Shark and Spark SQL
  • NoSQL
    • The CAP Theorem
    • ZooKeeper
      • Data Model
      • Atomic Broadcast
    • HBase
      • Data Model
      • Storage
      • Architecture
      • Security
      • Coprocessor
      • Summary
    • Riak
      • Data Model
      • Storage
      • Architecture
      • Consistency
      • Summary
    • Cassandra
      • Data Model
      • Storage
      • Architecture
      • CQL
      • Consistency
      • Summary
    • MongoDB
      • Data Model
      • Storage
      • Cluster Architecture
      • Replic Set
      • Sharding
      • Summary
  • Introduction

就像互联网一样,大数据是我们今天生活的一部分。从搜索,在线购物,视频点播,到网上约会,大数据总是幕后的重要角色。有些人声称,物联网(IoT)将会接管大数据作为最令人瞩目的技术@ Gartner2014。它也许会成真,但是物联网如果没有大数据,就不可能活着。在本书中,我们将深入探讨大数据技术。但我们需要先了解大数据是什么。

What’s Big Data?

Gartner,和现在的大多数行业,都在使用“3Vs”模型@Laney2012来描述大数据:

大数据是需要全新方式的处理以实现更强的决策,洞察发现和过程优化的高容量,高速度和/或高品质的信息资产。

毫无疑问,今天的系统每天都在处理大量的数据。例如,Facebook的Hive数据仓库持有300PB数据,每天的流量约为600TB,2014年4月@ VagateWilfong2014!这个例子也告诉我们,大数据也是快速处理数据。没有高速的数据生成和捕获,我们不会快速积累大量的数据来处理。根据IBM的统计,目前世界上的数据90%是在过去两年独自在IBM2013上创建的。高品质(即非结构化数据)是大数据的另一个重要方面。它指的是没有预定义数据模型或格式的信息。传统的数据处理系统(例如关系数据仓库)可以处理大量的刚性关系数据,但是它们不能灵活地处理半结构化或非结构化数据。必须开发新的技术来处理来自各种来源的数据,例如文本,社交网络,图像数据等。

3Vs模型很好地描述了大数据的几个主要方面。从那时起,人们在这个列表中添加了更多的Vs(例如Variability,Veracity)。然而,3Vs(或4Vs,5Vs,...)真的捕捉大数据的核心特性吗?可能不会。我们正在处理的数据的规模是PB甚至是亿字节。但大的总是相对的?虽然1TB的数据今天不是那么大,但它在20年前是巨大的,非常具有挑战性的处理。回顾1994年最快的超级计算机,Fujitsu Numerical Wind Tunne,峰值速度为170 GFLOPS @Top500。那么,Nvidia K40 GPU在PC上的能力相当于GFLOPS@ Nvidia2014。除了软件,创新(例如GFS和MapReduce)也有助于处理越来越大的数据。随着技术的进步,今天的大数据将在未来的标准中迅速变小。同样的事情适用于“高速度”。所以高容量和高速度不是大数据移动的核心,即使它们是技术进步的驱动力。那什么是”高品质“?许多人将其看作非结构化数据,RDBMS无法很好地处理这些数据。但是非结构化数据一直存在于那里,无论它们如何被存储,处理和分析。我们今天通过NoSQL,自然语言处理,信息检索,计算机视觉和模式识别的进步,能更好地处理文本,语音,图像和视频。但它仍然是关于技术进步的内容,而不是大数据的内在价值。

从业务角度来看,我们可以更好地了解大数据。虽然数据是一个有价值的企业资产,但它只是土壤,而不是石油。没有分析,他们几乎没有啥用。但是可以从数据中发现非常有价值的知识和见解。无论您如何称呼这个分析过程(数据科学,商业智能,机器学习,数据挖掘或信息检索),业务目标都是一样的:从发现的知识和见解中获得更高的能力。但等一下。数据分析是否存在很长时间?那么,今天的“大数据”分析和传统数据分析之间的真正差异是什么?回顾web数据分析,大数据的起源,我们将发现大数据意味着主动学习和了解客户,他们的需求,行为,经验和趋势接近实时和全天候。另一方面,传统的数据分析是被动的,将客户作为一个整体或部分,而不是个人,并且存在明显的时间滞后。

大数据的应用主要关注于下面三个方面:

  • User Experience and Behavior Analysis
  • Personalization
  • Recommendation

新应用,例如智能电网和物联网,正在推动这种实时主动分析向整个环境和上下文发展。因此,大数据的基本目标是帮助组织将数据转化为可操作的信息,以识别新的机会,识别操作问题以及更好的决策等。这是企业接受大数据的动力。

这种转变是如何发生的?数据已经改变。传统上,我们的数据库只是记录的系统,由人手动输入。相比之下,大数据的大部分是日志数据,它由应用程序生成并记录用户和系统之间的每个交互。有些人称之为机器生成的数据,以强调数据生成的速度和数据的大小。但事实是,它们是由人类行为触发的(事件可能是这些数据的更好的名称)。物联网将帮助我们甚至了解用户行为的环境和语境。对事件的分析可以更好地了解每个用户,从而获得更好的用户体验和更高的收入,为客户和企业带来可喜的双赢。

Business Use Cases

大数据不仅仅是一个炒作,而是能为业务带来巨大的价值。接下来,我们将讨论不同领域和行业的大数据的一些使用案例。该列表可以很长,但我们将重点关注几个重要案例,以显示大数据如何可以帮助解决业务挑战。

CRM

客户关系管理(CRM)是用于管理公司与当前和未来客户的互动。通过将大数据集成到CRM解决方案中,公司可以了解客户行为,确定销售机会,分析客户的情绪,改善客户体验,增加客户参与度并带来更大的利润。

使用大数据,组织可以收集更准确和详细的信息,以获得客户的360度视图。对所有客户的接触点(例如浏览历史记录,社交媒体,电子邮件和呼叫中心)的分析使得公司能够更全面和更深入地了解客户行为 - 哪些广告吸引他们,为什么他们购买,他们如何购物,他们一起购买什么,他们将下一步购买什么,他们为什么改变,他们如何在他们的社交网络中推荐一个产品/服务等。一旦发现可行的洞察,公司将可能超过行业标准。

大数据还能够在一段时间内进行全面的基准测试。例如,银行,电话服务公司,互联网服务提供商,付费电视公司,保险公司和报警监控服务通常使用客户流失分析和客户流失率作为其关键业务指标之一,因为保留现有客户的成本是远远少于获得一个新的。此外,大数据使得服务提供商能够在客户明确启动交换之前,从预防性模型管理转变为主动的保留客户。

HCM

人力资本管理(HCM)是假定在服务于雇主的战略目标时最大限度地发挥员工绩效。然而,当前的HCM系统大多是簿记。例如,许多HCM软件/服务提供

•注册或更改福利信息

•报告生活事件,如移动或有婴儿

•承认公司政策

•查看付款报表和W-2信息

•更改W-4税务信息

•管理401(k)帐户

•查看公司目录

•提交请购单请求

•批准请假

•管理绩效和目标

•查看团队日历

这些都是重要的人力资源任务。然而,他们几乎不关联“最大化员工绩效”。更糟的是,当前的HCM系统是被动的。以绩效和目标管理为例,他/她的经理在年初选择目标,并在年底输入绩效评估和反馈。所以呢?如果低效率发生了,那么它已经发生在大多数年份!

利用大数据,HCM系统可以帮助人力资源从业者和管理人员积极衡量,监控和提高员工绩效。虽然很难实时测量员工绩效,特别是对于长期项目,研究显示了参与度和绩效之间的明确相关性,最重要的是在提高参与度和提高性能之间有明显的相关性。也就是说,拥有高度参与的员工队伍的组织明显优于那些没有员工的组织。

参与分析一直是CRM的一个活跃的研究领域,许多技术可以借用到HCM。例如,流失分析可用于了解员工流动的潜在模式。使用大数据,HCM系统可以预测哪些高绩效员工可能在下一年离开公司,然后提供可能使他们停留的行动(更高的薪酬和/或新工作)。对于公司,他们只想知道他们的员工就像他们知道他们的客户一样。从这个角度来看,将HCM和CRM与大数据连接起来以缩短内外部之间的通信路径确实很有意义。

IoT

物联网是互联网基础设施中唯一可识别的嵌入式计算设备的互连。物联网代表了互联网进化的下一个大浪潮。大数据和物联网的结合为所有行业的公司创造了巨大的机会。诸如制造业,移动性和零售业等行业已经利用了数十亿台设备生成的数据,以提供新的操作和业务洞察力。

通过收集和分析大量的机器传感器数据,工业公司正在进一步创造财务价值。此外,一些公司正在利用机器资产数据的洞察力来提高运营效率,并以更大的信心推动市场优势。例如,英国最大的供水和污水处理服务供应商泰晤士水利设施有限公司正在使用传感器,分析和实时数据来帮助公用事业部门更快地应对关键情况,如泄漏或恶劣天气事件

智能电网是物联网的高级应用,正在深刻改变着世界各地城市地区的基本面。世界上的多个城市正在进行所谓的智能城市试验。例如,西雅图市正在通过识别设备和系统低效率来应用分析来优化能源使用,并且告知建筑物管理者废弃能源的区域。建筑物每个房间的元素 - 如照明,温度和窗帘的位置 - 然后可以根据数据读数进行调整,以最大限度提高效率。

Healthcare

医疗保健是一个大行业,是一个国家经济的重要部分(实际占美国GDP的17.7%)做出贡献。大数据可以提高我们治疗疾病的能力,例如识别有严重健康问题风险的个人。它还可以识别医疗系统中的浪费,从而降低整个医疗保健的成本。

最近在将大数据应用于医疗保健方面取得了令人兴奋的进展是IBM Watson。 IBM Watson是一个人工智能的计算机系统,能够回答由自然语言提出的问题。 Watson可以作为医疗专业人员的临床决策支持系统,基于其自然语言,假设生成和基于证据的学习能力。当医生向Watson询问症状和其他相关因素时,Watson首先解析输入以识别最重要的信息;然后挖掘患者数据以发现与患者的医疗和遗传史相关的事实;然后检查可用的数据源以形成和测试假设;并最终提供个性化的建议的列表。 Watson用于分析的数据来源包括治疗指南,电子病历数据,医生和护士的说明,研究材料,临床研究,期刊文章和患者信息。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-01-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档