学习笔记1:数据库—流数据分析与处理

1.什么是流数据?

流数据是连续的、没有边界的、快速的、随时间不断变化的系列数据项(如为结构化数据就是元组,如图片文档也可以构成流数据)

2.流数据产生于哪些应用领域?

(1)网络监控,流量监控

(2)传感器网络,RFID

(3)电信呼叫记录,通讯记录

(4)金融应用,欺诈识别

(5)网络日志,点击流

(6)制造过程,对制造安全性质量进行监控

数据流管理系统DSMS

3.为什么需要对流数据进行分析?

规律:数据用于决策的价值随着时间递减,批处理:针对一天及以上,价值没有那么大了

4.传统的数据分析处理与流数据分析处理技术的差别是什么?

主要是查询和处理的方式不同:传统数据分析处理技术,相对比较静态,一般在系统不繁忙的时候,将数据批量的导入到数据仓库中,所以是“store first, query later”的方式;而流数据是不断的流入系统当中,系统要处理这些数据,用在线的处理方式“On-the-Fly”,通过数据不断的来,不断的处理,处理完的结果也不断的交付给用户来分析决策,它是一个流动方式来处理的,是动态的来处理数据的方式。

5.流数据处理模型是什么?

一个数据流是持续不断没有边界的数据集,一个表是给定记录的集合,SQL语句是作用在表上的。通过时间窗口将流转换成表,每个时间窗口内的数据变成一个表,通过改变时间窗口而改变表,并重复应用SQL,结果不断追加到输出流中。

6.时间窗口如何截取表?

时间窗口截取表有不同的方式

(1)滑动窗口,相邻时间片会有重叠,不是完全隔离开的,是一种滑动的方式,不断往前推动的

(2)非重叠式切片窗口,相邻时间片没有重叠

(3)起始位置固定,结束位置根据情况变化,这种不太常见

7.传统的数据管理系统如何处理流数据?

传统流数据管理系统对于流数据需要解决的问题:及时数据处理,SQL语义支持,处理流数据的质量问题,预测,实时数据与历史数据的融合,保障数据的可获得性,数据划分并获得好的可扩展性,实时处理能力

8.DBMS与DSMS的对比有什么区别?

主要可以根据以下指标,进行对比:

(1)数据类型:DBMS是持久化的数据,DSMS是挥发性流数据

(2)访问模式:DBMS是随机读取,DSMS是连续读取

(3)查询特点:DBMS是一次性查询,DSMS是连续查询

(4)存储假设:DBMS是外存空间无限,DSMS是有限内存

(5)更新频率:DBMS是低更新速度,DSMS是高更新频率

(6)数据质量:DBMS是高质量数据,DSMS是过期、不精确、错位数据

(7)查询处理:DBMS是一次性查询计划,DSMS是计划需要随数据特征变化

9.形成的典型流数据处理系统(略)

10.流式分析处理VS批处理系统之间的区别与联系是什么?

参考资料:

MOOC中国人民大学《数据库系统概论(新技术篇)》

第14讲流数据分析与处理/流数据分析与处理陈跃国

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180910G1F6XK00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券