事务是数据库系统运行的基本工作单位,相当于操作系统中的进程,事务具有ACID特性。从用户的角度来看,事务中的操作要么都做,要么都不做。
多个用户对同一数据进行并发操作时,如果没有控制,可能会产生丢失更新、读到过时的数据(不一致分析问题)、读到脏数据(依赖于未提交更新的问题)的情况。并发控制的主要方法是采用封锁技术,有两种类型:排他型封锁、共享型封锁。
并行控制主要通过封锁协议来进行处理。
采用封锁方法可以防止数据不一致,但是会带来死锁问题。死锁的避免一般有预防法和解除法。
数据库的故障主要分为4类:
针对不同的故障,可以采用不同的恢复策略:
为应对数据库损坏的可能性,需要指定合适的备份和恢复计划。备份计划制定的原则包括:
根据备份内容,分为物理备份和逻辑备份。根据效率,分为完全、增量、累积三种备份方式。
分布式数据库系统是相对于集中系统而言的,确切的含义是通过数据库技术与网络技术相结合,由一组数据组成,这组数据分布在计算机网络的不同计算机上,网络中的每个节点具有独立处理的能力,成为场地自治,它可以执行局部应用,同时,每个节点也能通过网络通信子系统执行全局应用。
负责分布式数据库的建立、查询、更新、复制、管理和维护的软件,称为分布式数据库管理系统(Distributed Database Management System,DDBMS)。
分布式数据库系统具有以下几个特点:
分布式数据库系统的模式有6个层次:
对比互联网领域的技术发展路径来看,目前基本上看不到并行数据库系统使用的场景。教材中提到的Sequent系统在网上也是资料寥寥,建议可以直接略过这一节了。但是后面提到的并行处理技术,可能和目前的大数据处理、人工智能平台有结合点,感兴趣的可以自己研究下。
数据仓库的概念:Data Warehouse 是一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策。
数据仓库的结构包括: