如何将Pastebin上的信息应用于安全分析和威胁情报领域

FreeBuf百科

Pastebin是一个便签类站点,用户可以在该平台任意储存纯文本,例如代码,文字等内容。Pastebin支持的编程语言种类也非常齐全,还会自动判断语言类型并高亮显示代码内容。除了直接在网页內操作外,Pastebin 最大的特色是提供了许多相关工具和应用,包括 Windows、Mac、UNIX、Firefox、Chrome、Opera、iPhone/iPad、Android、WinPhone 以及 WebOS 等等,让使用者随时随地都能夠存取使用。

但从安全分析和威胁情报的角度来看,Pastebin却是一个信息收集的宝库。特别是那些上传到pastebin却未明确设置为private(需要一个账户)的内容,将会被所有人公开查阅。

tl;dr 使用Yara规则从pastebin中查找和保存有趣的数据:https://github.com/kevthehermit/PasteHunter

很多黑客团队都喜欢把自己的攻击成果(比如数据库、代码)贴在网站上来炫耀,包括一些开发人员/网络工程师意外的将内部配置和凭据泄露。

那么作为安全分析人员,我们又该如何筛选这些数据为我们所用呢?

我们可以检索pastebin上所有被上传的数据,并筛选出我们感兴趣的数据。这里我要向大家推荐使用一款叫做dumpmon的推特机器人,它监控着众多“贴码网站”的账户转储、配置文件和其他信息。值得一提的是, Pastebin虽未禁止我们爬取它的数据,但在IP方面却有一定限制,一旦触发IP锁将会被临时甚至永久封禁。

幸运的是,Pastebin为我们提供了一个专门为这种任务所设计的API。目前只需支付19.95美元,即可永久免费使用该功能。

有了专业版的账号,我们就可以从一个白名单列表以每秒钟调用一次API的频率来检索数据了。实际上,你并不需要以如此高的频率进行查询。

现在我们可以访问所有的数据了,那么该如何处理这些数据呢?我们可以使用PasteHunter。

这是一个简单的脚本和一组Yara规则,将从pastebin API获取粘贴,并将任何匹配的粘贴存储到具有漂亮的Kibana前端的elastic搜索引擎中。

如果你对Yara不是特别了解,这里我简单的为大家介绍一下。Yara是一种模式匹配引擎,主要用于扫描文件和分类恶意软件家族。有了它我们就可以简单的构建一些较为复杂的匹配规则。

安装比较简单。如果你希望通过Web UI搜索内容,请安装elastic搜索和Kibana。

我们还需要python3,Yara并将Yara和python绑定。

安装完了所有的依赖关系后,我们从代码库克隆代码并设置一个cronjob来定期运行脚本。更详细示例及说明请参阅Github文件。

代码中已经有一些为我们设定好的采集规则,可以用于扫描一些常见的数据,例如密码转储,泄露凭据被黑客入侵的网站等。此外,你也可以通过创建一个这样的custom_keywords.yar文件来轻松添加自己的关键字。

/*
    This rule will match any of the keywords in the list
*/
rule custom_keywords
{
    meta:
        author = "@KevTheHermit"
        info = "Part of PasteHunter"
    strings:
        $my_email = "thehermit@techanarchy.net" wide ascii nocase
        $my_domain = "techanarchy.net" wide ascii nocase
        $this_word = "This Word"
        $other_word = "More Words"
    condition:
        any of them
}

通过自定义的规则你可以查找域名、邮件地址、文档名等意外泄露或者被他人窃取的信息。

有关创建yara规则的更多详细信息,你可以参考其官方文档。

随着脚本的启动和运行,你应该可以看到数据不断的被开始采集。

以下是一些被捕获数据的示例。

需要提醒的是这些规则可能会出现误报,对于数据的可信程度我们也不能一概而论。

最后,我要感谢@tu5k4rr,是他的pastabean工具给了我本文的思路!

原文发布于微信公众号 - FreeBuf(freebuf)

原文发表时间:2017-09-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏java一日一条

测试代码时你会犯的 11 个错误

我遇到的大多数开发人员都不怎么热衷于测试。有些会去做测试,但大多数都不测试,不愿意测试,或者勉而为之。我喜欢测试,并且比起编写新的代码,愉快地花更多的时间在测试...

702
来自专栏Vue ssr

php,vue,vue-ssr 三版本页面对比Demo

目前我这边的web页面,都是采用php+smarty模板生成的,是一种比较早期的开发模式。好处是没有现阶段常用的前后端分离出现的首屏问题,因为其本身就是服务器渲...

4090
来自专栏PPV课数据科学社区

【学习】深度解析LinkedIn大数据平台(一)

我在六年前的一个令人兴奋的时刻加入到LinkedIn公司。从那个时候开始我们就破解单一的、集中式数据库的限制,并且启动到特殊的分布式系统套件的转换。这是一件令人...

3554
来自专栏运维一切

关于docker的存储驱动 原

#背景 一直以来我的业务都是跑在aufs+ext4的存储驱动结构上,看上去没有什么问题,直到业务报告: 在高并发场景下,aufs因为锁争抢的原因,导致cpu高负...

1452
来自专栏JavaEdge

分布式MySQL集群方案

1.4K6
来自专栏Python数据科学

33款你可能不知道的开源爬虫软件工具

爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

7402
来自专栏IT技术精选文摘

Go语言构建千万级在线的高并发消息推送系统实践

3812
来自专栏进击的程序猿

不妥协:分布式事务的一致性,可用性和性能

本文是论文No compromises: distributed transactions with consistency, availability, an...

1496
来自专栏沃趣科技

沃趣科技火线救援某公安系统核心业务数据

求助电话 只剩下键盘敲打声的办公室,被一个突如其来的电话打破了宁静。电话那头,是某公安客户的紧急求助。 案发现场 其核心数据库,由于存储突然断电,导致数据库实例...

3557
来自专栏杨建荣的学习笔记

了解一下Lua,没准用得上

记得在知乎里面有一个网友提问:写工业级别代码是怎样一种体验?褚霸回复到:看lua源码就知道啥叫工业级 什么是Lua,我们有必要花一点时间来了解一...

3436

扫码关注云+社区

领取腾讯云代金券