前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据科学通识第五讲:数据管理

数据科学通识第五讲:数据管理

原创
作者头像
数据酷客
修改2020-04-22 14:50:16
6100
修改2020-04-22 14:50:16
举报
文章被收录于专栏:数据科学人工智能
视频内容

我们当前生活在一个数据化的时代,几乎每时每刻人们都在制造数据、分享数据、应用数据。我们在淘宝、京东、亚马逊、当当等购物网站上购买产品的时候,通过微信、微博进行实时交流互动,利用百度、谷歌等搜索引擎来查询搜集各类信息,使用各种地图和导航软件来进行汽车行驶导航时,其实都在产生数据,分享数据和使用数据。

当前也是一个信息爆炸的时代。面对数据量的急速增长,人们如何对数据进行有效的管理并从海量的数据中挖掘出有用的信息,这就需要数据管理

数据管理概述

数据管理是指利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。

数据管理的意义在于它可以从大量原始的数据中抽取 、推导出对人们有价值的信息,然后再利用这些信息作为行动和决策的依据;也可以借助计算机科学来保存和管理复杂的大量的数据,以便人们能够方便而充分的使用这些数据资源。此外,数据管理的意义还在于其确保了数据的高效使用和数据的安全性,保证了数据的真实性和数据的质量。

总而言之,数据管理的目的和意义在于充分有效地发挥数据的作用。而实现数据有效管理的关键就是数据组织,即如何对数据进行有效的组织。

数据管理的发展历史

随着计算机技术的发展,数据管理也经历了从人工管理文件系统数据库系统 的三个发展阶段。

人工发展阶段

在计算机出现之前,数据管理一直处于人工管理阶段。人们运用常规的手段对数据进行记录、存储和加工。在20世纪50年代中期以前,计算机主要是用于科学计算,我们知道世界上第一台计算机是1946年的“ENIAC”,它是一个体积特别庞大的机器,它最初问世也主要是为了将人们从繁琐的科学计算劳动中解放出来。由于当时还没有磁介质的直接存取设备,所以数据通常就存储在穿孔的纸带上,以及后来发明的磁带上。

人工管理阶段的存储设备——纸张,是由中国人在西汉初期通过造纸术发明的。在造纸术之前,人们基本是靠在龟甲上、兽骨上、石头上、竹简上来记录文字和数据。纸的出现,使得信息的记录、传播和继承有了革命性的进步,也促进了人类文化的传播。纸张的广泛应用,也为后来计算机使用穿孔纸带的出现奠定了重要的基础。

穿孔纸带是早期计算机,即上世纪四五十年代的重要输入输出设备。早期的程序员在纸带上打孔,来实现把程序和数据转换成二进制码:有孔的地方表示1,无孔的地方表示0,利用光电扫描一排一排地进行扫描,读进一串串二进制数字。

1928年,弗里茨·波弗劳姆(Fritz Pfleumer)发明了录音磁带,用来存储模拟信号,即声音信号。1951年,磁带首次被用于计算机上进行数据的存储。

磁带存储的优势在于其可以支持离线保存。磁带有个盒子,可以把它从计算机上拿出来,进行单独保存。因此与传统的的纸带打孔的方式相比,寿命长、容量大、性价比高。一直到今天,很多大型的计算机也仍然支持将磁带存储作为一个后备的存储方式。

文件系统阶段

20世纪50年代后期至60年代中期,计算机从最早的科学计算转向了更广泛的应用,开始被应用在企事业单位的数据管理中。在同一时期,计算机的硬件技术方面有了磁盘、磁鼓等可以直接存储的设备;软件方面,当时的操作系统也开始支持专门的数据管理功能,有了专门的软件,称作文件系统

文件系统是一种存储和组织计算机数据的方法,它使得访问和查找数据变得容易。数据以文件的形式存储在计算机中,而文件以树形目录的形式记录在硬盘,即光盘、磁鼓等物理设备上。我们可以用一定的命令来访问、读取文件系统中的文件,基本的实现方式是按文件名来进行存取。对于文件系统来说,当时最重要也是最需要解决的是如何提高访问文件的速度,如何能够快速的存取这些数据文件。

用户使用文件系统来保存数据时,不用关心数据实际保存在硬盘(或光盘)的哪一个数据块或哪一个位置上,只需要记住这个文件的所属目录和文件名。在写入新数据之前,用户也不必关心硬盘上的哪个数据块地址没有被使用,或是哪一块被使用了需要把这个地址空间释放出来。硬盘上的存储空间管理(分配和释放)功能由文件系统自动完成,用户只需要记住数据被写入到了哪个文件中。与人工管理阶段相比,在实际中大大释放了程序员的繁琐工作。

下图展示了文件系统阶段的存储设备,包括磁鼓、软盘、硬盘、光盘、U盘,存储卡等。实际上在二十年前,软盘还是一个特别常见的介质,但是现在已经退出了历史舞台。现在大家对于U盘、存储卡这些方式更加熟悉。

数据库系统阶段

20世纪60年代后期以来,随着计算机管理的对象规模越来越大,数据管理也进入到了数据库系统阶段。这一时期的数据量急剧增加,为了满足各种数据的存储、管理、共享的需要,数据库系统便应运而生了。

数据库是指长期存储在计算机内有组织的、可共享的数据集合。数据库中的数据按照一定的规则组织、描述和存储,具有较小的冗余度。数据的独立性好,而且易扩展,也可以为各种应用和用户来共享使用。

常见的数据库管理系统使用一系列的二维表来存储数据和表示数据之间的关系。一张二维表就代表一个关系,二维表是由行和列组成的,每一行称为一个记录或一个元组,每一列称为一个字段或一个属性。例如在下图这张二维表中一共有4个字段,有3条记录,表示了不同年份、不同国家在总二氧化碳和人均二氧化碳排放方面的数据记载情况。

数据库管理系统(DBMS)是一种操纵和管理数据库的大型软件,它可以用来建立、维护和使用数据库,对数据库进行统一的管理和控制,来保障数据库的安全性和完整性。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据管理概述
  • 数据管理的发展历史
    • 人工发展阶段
      • 文件系统阶段
        • 数据库系统阶段
        相关产品与服务
        数据库管理
        数据库管理(Database Management Center,DMC)是一个高效,安全,可靠的数据库一站式管理平台。DMC 提供可视化的库管理、实例会话管理、SQL 窗口、SQL 安全审计、SQL 变更审批、实时监控、操作审计等数据库管理能力,集成诊断优化和数据可视化分析能力,从而简化和规范数据库管理操作、降低数据库运维门槛、提升运维效率。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档