首页
学习
活动
专区
工具
TVP
发布

如何应对大数据的挑战?数据湖是正确的选择

大数据的挑战

这些年大家对大数据概念的热议,想必对于什么是大数据以及大数据的数据量巨大都有着自己的认识和见解。

麦 肯 锡 全球 数据 分析 研究所( Mckinsey Global Institute) 在 2011 年 5 月 发表 的 一篇 论文:“ 大数 据 是指 大小 超出 了 典型 数据库 软件 工具 收集、 存储、 管理 和 分析 能力 的 数据 集。”

这是最简单的一种理解,那也就是说我们之前的数据处理方法是把数据导入数据库来处理。那对于大数据场景,这样的方法有哪些挑战呢?

多样化数据:数据库只能处理结构化、半结构化数据,比如传统的ERP、CRM等传统业务系统数据。而无法处理非结构化数据,比如图片、视频等。

数据加载:传统的数据处理方法采用批量加载,而传感器等机器无时无刻不在产生数据,还没有等你加载进数据库,新的大量数据又产生出来了。

表结构:数据库加载依赖元数据,简单讲它需要表结构,否则无法加载,而一些数据文件根本没有人提供这些信息,需要分析人员一边分析一边理解数据。

数据湖是正确的选择

Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首先提出了数据湖的概念:

有人问数据湖是什么时,我告诉他们,它就是你以前在磁带上拥有的东西。拿来你在磁带上的东西,把它倒入到数据湖,然后开始探索该数据。我们的看法是,只把需要的数据倒入到Hadoop;如果你想结合来自数据湖的信息和客户关系管理(CRM)系统里面的信息,我们就进行连接,只有需要时才执行这番数据结合。

Source: 《Data Lake Architecture》

数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据转换为用于报告、可视化、分析和机器学习等各种任务的转换数据。湖中的数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON的日志),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频)从而形成一个集中式数据存储容纳所有形式的数据。

数据湖是一种数据管理方法

综上所述,数据湖通过直接搜集、存储原始文件来完成数据管理,可以有效的解决大数据的挑战。数据湖是一种数据管理方法,它不是一个产品、一个系统,那我们该如何具体去构建一个大数据平台呢?下期继续。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171224G0DAAT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券