前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MMD_3b_StreamAlgorithms

MMD_3b_StreamAlgorithms

作者头像
用户1147754
发布2018-01-02 17:17:21
4620
发布2018-01-02 17:17:21
举报
文章被收录于专栏:YoungGyYoungGy
  • Stream概述
    • DBMS的区别
    • Stream模型
    • Query种类
    • 应用
  • Sliding Windows
    • 简介
    • 例子
  • Bloom Filter
    • motivation
    • Continued
    • LookUp
    • Performance
  • Sampling a Stream
    • motivation
    • 原因与解决
    • 其他

“Streams” are data inputs to a system that arrive at a very high rate,typically too fast to do anything significant with each arriving input. Examples include data beamed down from a satellite, or click streams for a en necessary to accept a less-than-accurate answer to questions such as “how is stream?” .

Stream概述

遇到的主要问题是:同一时刻来的数据太多,一方面来不及存储到DB中,另一方面来不及处理和计算。 所以,问题的核心是抽样,不必先保存所有stream在计算。

一方面,可以实时计算,老的就扔了,比如sliding window;另一方面,可以对stream抽样,选取研究的关键变量,减少数据量。

DBMS的区别

这里写图片描述
这里写图片描述

Stream模型

这里写图片描述
这里写图片描述

Query种类

这里写图片描述
这里写图片描述

应用

这里写图片描述
这里写图片描述

Sliding Windows

就像一个滑窗,每进来一个数据只计算当前数据,不需要重复计算之前的数据,增快了速度。

简介

这里写图片描述
这里写图片描述

例子

这里写图片描述
这里写图片描述

Bloom Filter

motivation

sliding window的区别,不仅仅只看一个window,而是关心整个stream.

爬虫的时候,已经爬过的URL需要放在一个list中。这样当新的URL进入时,判断是否已经爬过。

但是,当list中的URL很多的时候,查询相当费时间O(N∗M)O(N*M)。 即使用HASH-TABLE,只能减少单个URL查询的时间,但是返回的URL很多,这样还是很消耗时间的。

所以,需要一定的手段对URL进行过滤。

Continued

这里写图片描述
这里写图片描述

LookUp

这里写图片描述
这里写图片描述

Performance

positive定义为list中已经存在的url。 那么,Bloom Filter会有一定的false positive,即把没有看过的url当成看过的,但是整个问题不大,因为重要的网页一般会有很多url指向它,所以不必担心单个url的遗漏问题。 同时,他没有 false negtive,即不会把看过的当成没看过,这样就可以保证爬虫的效率,不会重复爬相同的url。

false positive的概率与bit的个数还有hash function的个数有关。 试想,如果1的比率很高的话,那么false positive的概率变回很大。因此,增大bit的个数和hash-function的个数,可以有效地减少false positive

这里写图片描述
这里写图片描述

Sampling a Stream

motivation

简单的random sample无法完成对于unique query fraction的查询,往往会高估了这个值。

这里写图片描述
这里写图片描述

原因与解决

这里写图片描述
这里写图片描述

其他

这里写图片描述
这里写图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Stream概述
    • DBMS的区别
      • Stream模型
        • Query种类
          • 应用
          • Sliding Windows
            • 简介
              • 例子
              • Bloom Filter
                • motivation
                  • Continued
                    • LookUp
                      • Performance
                      • Sampling a Stream
                        • motivation
                          • 原因与解决
                            • 其他
                            相关产品与服务
                            流计算 Oceanus
                            流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
                            领券
                            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档