前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >以百度贴吧为典型的社交网络隐私主动泄露分析

以百度贴吧为典型的社交网络隐私主动泄露分析

作者头像
FB客服
发布2018-07-31 10:46:03
8010
发布2018-07-31 10:46:03
举报
文章被收录于专栏:FreeBufFreeBuf

某个闲的无聊的人: site:tieba.baidu.com 01010101@qq.com

本文主要以百度贴吧和微博为例,分析探讨社交网络上的隐私主动泄露现象。

一、主要思路

如果是针对个体用户,比如已知个人信息,且这个信息可以与其社交网络中的某账户形成单射关系。那么利用信息X构造payload,直接使用百度的site语法对目标SNS进行检索即可。

此时不一定能够获取足够的数据,因为单一目标是否曾泄露隐私是一个未知数,其SNS使用深度也是未知数。因此,改使用敏感信息的通配体进行检索,先获取用户集合,再获取发言情况。具体流程如下:

二、针对单一用户的工具实现

因为代码水平太差我就不放github了,emmmm其实就是简单的爬虫,具体的架构如下:

部分核心功能代码及注释如下:

那么完成的效果就是,输入某一个信息,它返回给你指定社交网络中与其相关的用户。你确定用户名,它继续爬取该用户的所有发言记录。以后翻东西再也不用自己慢慢找了~

另外由于比较懒,只做了贴吧及微博两个SNS

三、思路推广,即获取大量数据的方法

说起来麻烦,其实就是简单替换了个payload,不再局限于看某个人,而是ummm你们这些留过邮箱的都给我过来。最后如上图所说,拿了个23MB的文本。

由于有大量正则操作,爬虫跑的很慢,在云上跑了有个四五天才把这七千多个用户跑完。加了多线程但是似乎没有什么改善?

四、文本语料处理

4.1 语料预处理及后续操作

此时手里有一大批主动泄露个人隐私的用户发言,那当然要分析一波。分析前,先洗一波语料,之后分词加向量化。具体主要步骤如下:

去停用词有用正则有用结巴,具体停用词库是几个院校的合订版。向量化直接word2vec,其实SNS发言包含大量的短语和短对话,使用文本向量可能更好,但笔者技术有限也比较懒,直接分词用词向量做了。

4.2 对照组选择

对照组的选择其实比较麻烦,按正常来说,此时获得的是主动泄露隐私的不安全用户的发言,你对照该选个安全用户。可安全用户太难界定了,即我找到一条你留有个人隐私的发言你就是不安全的,可你要所有发言都没有问题才是安全的。这里偷工减料选用2012年ccf的微博分析文本。长这个样子:

4.3 可视化结果

其实向量化过程中,初始是3M+个300维向量,然后降维到二维的话,我的小破本有点跑不动,就在分词阶段按照权重先做了个筛选。对更具有代表性的若干个向量进行了降维。如下图所示,这是前三次:

可以看到蓝色对照组,此时存在小规模的聚类情况,这是由于对照组文本本身具有一定的话题性。

而当权重为Top20k时,对照情况如下:

与之前三次实验有所不同,随着考虑范围的扩大,对照组的小规模聚类情况也逐渐消失。两组向量分布范围接近,无明显差异。此时证明,SNS隐私悖论导致的泄露隐私用户,在发言上与一般用户无明显差异,发言无明显聚类。即通过发言判断某用户是否存在安全隐患,不可行。

基于上述结论,有如下推测:若将SNS的用户有特定需求包括不限于共享性需求时,记为一个触发条件。隐私悖论导致的隐私泄露,为偶然事件。则遭遇该事件的用户在正常活动与泄露隐私两种状态中随时切换。当触发条件满足时,用户牺牲个人隐私换取满足需求;而在需求满足后,又继续正常的社交活动。所以该类用户属于普通用户的子集,且未必是真子集。

五、建议的解决办法

SNS服务端的安全策略

1)创建资源共享特殊域,用以资源共享及分发,完成站内资源交流,避免SNS之间产生交叉,导致用户SNS间关系被攻击者连接。 2)以用户关系深度作为信任度。 3)资源共享区域信息对低信任度用户不可见,过滤部分非活跃SNS攻击者及攻击账户,增加攻击成本。 4)进入资源共享区域需要SNS交流损耗(包括不限于论坛币),进一步增加攻击成本,避免出现大规模批量攻击。

通过隔离开SNS中用户共享性需求与表达性需求的实现区域,将隐私信息分离并保护起来。并且通过权限设置以及有偿获取在不影响用户使用的情况下增加获取难度。增加攻击者自动化攻击SNS的成本,增加了攻击者进行社会工程学攻击的难度,从而保护了用户的信息安全。

搜索引擎端的使用限制

1)制作SNS网站名单,收录该名单内信息,并提供普通检索服务。不提供或有限制提供如site,inurl等语法的使用。 2)对搜索语句进行分析,如发现包含敏感信息且使用了高级语法,则拒绝服务。 3)使用IP白名单策略,仅对指定教育或研究机构IP段提供高级语法服务 4)关闭高级语法

上述四条可行性依次递减,安全性依次递增。话说百度网盘都能过滤,给自家贴吧过滤一下很过分?

*本文作者:不朽三不朽三不朽三,本文属 FreeBuf 原创奖励计划,未经许可禁止转载。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 FreeBuf 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、主要思路
  • 二、针对单一用户的工具实现
  • 三、思路推广,即获取大量数据的方法
  • 四、文本语料处理
    • 4.1 语料预处理及后续操作
      • 4.2 对照组选择
      • 五、建议的解决办法
        • SNS服务端的安全策略
          • 搜索引擎端的使用限制
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档