SparkInAction 图计算 用户关系染色分析

前言

需求:如果一个用户使用了某个手机,这个手机上登录过其他的用户,那么这些用户是有关系的,同样用户关联到的用户又可以通过手机关联到其他用户 这样就构成了一个强大的关系网。现在给出用户与手机登录关系表,请找出所有的用户是有关系的。

问题分析

整个用户手机关系网拓扑图如下图所示:

从图中可以发现,找到有关系的关联的用户,就是要找出上面无向图的所有联通分支。比如上图有两个联通分支。

测试数据集

对应上图,测试数据集合如下:

希望的输出结果为所有关联的用户对应同一个ID。

测试代码

运行结果:

可以发现,结果正如我们所料。

总结

基于 Spark GraphX 可以做很多图计算方面的事情,而且是分布式,速度比单机处理快,值得好好研究。

原文发布于微信公众号 - 腾讯大数据(tencentbigdata)

原文发表时间:2015-12-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏运维一切

为什么我们不能使用KUBERNETES 原

kubernetes的服务发现到node创建启动,最终到提供服务,中间都离不开iptable的nat模块,在业务高访问量的情况下,这是无法满足性能要求的。

812
来自专栏Netkiller

打破软件自动化测试的格局

打破软件自动化测试的格局 自动化测试的误区 自动化测试仅仅被认为是替代人工,所以我们看到很多企业实施自动化测试仅仅是将现有的 Test Case 转换成自动化脚...

4125
来自专栏程序员的知识天地

为何Node.js 能成为 Web 应用开发最佳选择?【强推理由】

一项颠覆性的技术进入技术市场总会带来一阵震惊,但随之而来往往是被放弃。然而,Node.js 当然不是这样的情况,它是一个开源的、跨平台的基于 Chrome 的 ...

1571
来自专栏编程

大型分布式服务器架构原理解析

作为技术人员,我们都知道:几乎所有的项目,都是由简单到复杂,从单一服务器到集群服务器进行开发。但又有多少人知道这其中的技术原理呢?其实,这并不是那么深奥难懂。那...

4519
来自专栏杨建荣的学习笔记

今天琢磨的几件事情(r7笔记第74天)

今天在琢磨几件事情,也是和工作相关。 数据灾难切换的几点认识: 在unix中可能会碰到在处理网络问题时,超时时间会远远高于linux的情况,这个时候如果尝试做f...

3064
来自专栏Java技术交流群809340374

最新鲜的美团现场面试41题(三面技术+HR面):Redis+Kafka+分布式

互联网特别是电商平台,阿里双11秒杀、还有12306春运抢票、以及平时各种节假日抢购活动等,都是典型的高并发场景。

4160
来自专栏xingoo, 一个梦想做发明家的程序员

如何构建高扩展性网站?

本篇通过阅读《高扩展性网站的50条原则》,总结出以下内容。 一方面博主没有实际的架构经验,另一方面知识面也不够宽阔,所以只能系统的总结书中的要点,并根据自己...

2465
来自专栏云计算D1net

企业内部部署IaaS经验之谈

1.虚拟机(VM)的操作系统和应用程序必须是被锁定的,同时必须使用现有的规则进行正确的配置,如来自于互联网安全中心(CIS)的指导准则。 2.确保虚拟环境安...

3307
来自专栏Java编程技术

乐观锁原理与实战演练

最近在做一个简单审批流程的项目,由于只有固定二级审批所以没有工作流组件,然后就遇到一个审批节点捞单时候,多个人同时审批时候如何保证业务正常运行的问题,我采用的就...

1092
来自专栏CSDN技术头条

实用简介:MQTT协议及其在物联网中的应用

MQTT (Message Queuing Telemetry Transport,消息队列遥测传输) 是一种标准化的发布/订阅消息传输协议,设计于1999年,...

4456

扫码关注云+社区

领取腾讯云代金券