大数据存储

从本章开始,涉及的大数据名词越来越多,开始大家觉得晦涩难懂,随着课程的推进,一些技术及名词会慢慢熟悉,希望大家耐着性子学习。坚持下来,不要让东哥唱独角戏哈!

01

概览

02

云存储

云存储没有行业权威的定义。云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是一种新兴的网络存储技术,是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。云存储不仅是存储设备或技术,更是一种服务的创新。

特点:可靠性、可用性、安全性、规范化、低成本。

架构(动物园):访问层、应用接口层、基础管理层。

技术:存储虚拟化(齐天大圣)、分布式存储、数据缩减、负载均衡。

云存储的虚拟化将存储资源虚拟化为全局命名空间(动物园的名字),并通过多租户技术(跟着旅行社的导游参观动物园)给使用者提供存储资源。

分布式存储分为分布式块存储,分布式对象存储以及分布式文件系统。

数据缩减一定程度上节约企业存储成本,提高效率。包括自动精简配置(欺骗),自动存储分层(超市摆放物品),重复数据删除(自己产生的数据)。

负载均衡技术,节点的负载均衡能够更好的实现系统的动态扩展,即若系统收到的请求均匀分配给每个节点后超出节点的处理能力,只需通过扩充节点的数目就可以减少系统所有节点的压力,而无需对内部的负载均衡机制做任何处理。(4x1接力比赛,体育委员根据每个人的速度,耐力分配接力顺序)。

03

大数据存储

大数据存储系统架构分为DAS,NAS以及SAN。

DAS

适用环境:①服务器地理分布很分散,通过SAN或NAS互联困难。②存储系统必须直接与应用服务器连接。③小型网络。

缺点:①扩展性差。②资源利用率低。③可管理性差。DAS的数据分散在应用服务器各自的存储设备上,不变集中管理、分析和使用数据。④异构化严重。

NAS

优点:①即插即用,可以基于已有的企业网络方便连接到应用服务器。②专用操作系统支持不同的文件系统,从而可以支持应用服务器不同操作系统之间的文件共享。③专用服务器上经过优化的文件系统提高了文件的访问效率。④独立于应用服务器,即使应用服务器故障或停止工作,仍然可以读出数据。

缺点:①共用网络的模式使网络带宽成为存储性能瓶颈。②NAS访问要经过文件系统格式转换,故只能以文件一级访问,不适合块级的应用。

SAN

04

数据仓库

从决策支持角度来看,数据仓库可以简单定义为:专为决策支持服务的数据库系统 ,它并非对原有业务系统的取代,而是在所有业务系统之上建立一个统一的、一致的企业级数据视图。

特点:数据仓库的的数据是面向主题组织的;数据仓库中的数据是继承的。数据仓库的数据是稳定的。数据是随时间不断变化的。

数据仓库与数据库的区别

在物理实现上,数据仓库与传统意义上的数据库并无本质的区别,主要是以关系表的形式实现的。更多的时候,我们将数据仓库作为一个数据库应用系统来看待。

数据仓库体系架构:数据仓库从多个信息源中获取原始数据,经过整理加工后存储在数据仓库的内部数据库。通过数据仓库访问工具,向数据仓库的用户提供统一、协调和集成的信息环境,支持企业全局决策过程和对企业经营管理的深入综合分析。整个数据仓库系统是一个包含4个层次的体系机构。

05

后记

耐心是一切聪明才智的基础。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20181014G1LGBJ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券