前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >spark分析网吧同行朋友思路

spark分析网吧同行朋友思路

作者头像
Spark学习技巧
发布2019-08-23 19:42:14
8530
发布2019-08-23 19:42:14
举报
文章被收录于专栏:Spark学习技巧Spark学习技巧

有粉丝留言了一个这样的问题

你好,我们现在正好遇到一个spark的问题。 在mysql库中有2.5kw网吧轨迹数据, 需要计算同行关系:计算两人在相同网吧十分钟前后上下网三次及以上 (如:a和b在19号十分钟前后出现在了A网吧,又在21号十分钟前后出现在了B网吧, 再在22号十分钟前后出现在了D网吧) 就需要保留他们的身份ID和一起上下网的次数。 2.5kw轨迹中有8k+网吧请问有什么思路吗? 如果flink有更好的处理方式也可以。 使用用一个mysql的连接器,但是这东西需要配置一个分区列。 直接用的网吧编号。这样会分8000多分区(而且后面的逻辑也没有用到这个分区列), 是不是有问题?今天测试了一下。 两个网吧,3w多数据,两个小时没跑完。。 (我们是先用连接器抽出数据,按照网吧分组计算单次然后聚合筛选3次及以上的) 网吧数据从几条到几万条不等。

分区列的问题解决:

  1. 可以采用时间戳(long型)分区,会造成多余的一次shuffle。
  2. 自定义jdbcRDD,我记得以前分享过网上也有资料,这样就可以自定义分区策略了。数据还是要有明显的分区列的
  3. 增加自增ID列。

处理思路:

  1. 按照网吧ID进行group by,然后同组内两两组合,判断A,B进入网吧时间差值是否小于10min,同时判断离开网吧的时间是否相差10min以内,如果两者都是true就保留,否则过滤。保留人物ID要进行两两组合,比如,A#B;两者的顺序可以定义个排序策略,比如字符串的话字典排序,这样下面可以用。flatmap展开之后key和value翻转。
  2. 然后在进行一次group by(key),此时的key就是A#B的组合了,value是网吧,然后统计value的size是否大于三。
  3. 有疑问就是两个人相同时间下班,住的距离比较近,就经常去相同的离他们都近的网吧,同时上下网,不是同行,确实巧合。这个是否要处理。
  4. 相约同一网吧。
  5. 其它,肯定还有其它问题或者思路欢迎大家留言。

这应该是没有敏感信息吧,会不会被你同事看到。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 浪尖聊大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 SQL Server
腾讯云数据库 SQL Server (TencentDB for SQL Server)是业界最常用的商用数据库之一,对基于 Windows 架构的应用程序具有完美的支持。TencentDB for SQL Server 拥有微软正版授权,可持续为用户提供最新的功能,避免未授权使用软件的风险。具有即开即用、稳定可靠、安全运行、弹性扩缩等特点。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档