前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >spark任务中的时钟的处理方法

spark任务中的时钟的处理方法

原创
作者头像
zunhuahu
发布2021-08-24 10:51:37
5260
发布2021-08-24 10:51:37
举报
文章被收录于专栏:分布式数据一致性

spark任务中的时钟的处理方法

典型的spark的架构:

日志的时间戳来自不同的rs,spark在处理这些日志的时候需要找到某个访问者的起始时间戳。 访问者的第一个访问可能来自任何一个rs, 这意味这spark在处理日志的时候,可能收到时钟比当前时钟(自身时钟)大或者小的情况。这时候在计算会话持续时间和会话速度的时候就会异常。

从spark的视角看,spark节点在处理日志的时刻,一定可以确定日志的产生时刻一定是spark当前时钟前, 因此在这种异常情况下,选择信任spark节点的时钟。如此一来,一定不会因为rs的时钟比spark节点时钟快的情况下出现计算结果为负值的情况。

基本的思想:“当无法确定精确时刻的时候,选择信任一个逻辑上精确的时刻”

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • spark任务中的时钟的处理方法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档