首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

如何有效收集公开来源的威胁情报

一、前言 威胁情报作为信息安全领域一个正在茁壮成长的分支,在当下依旧处于混浊状态。即网络中存在着大量的所谓“情报”,它们的结构不同、关注方向不同、可信度不同、情报内容不同、情报的来源也是千奇百怪。这使得威胁情报在实际的运用中面临许多问题,而这其中的关键问题在于,在现阶段无法统一有效的提取出威胁情报中能够应用的关键信息。 为了在一定程度上解决这一问题,我们做了一点微小的工作,通过爬取网上已经公开的威胁情报内容,提取其中的域名、URL、IP等数据,作为威胁情报库的基础数据。由此可以看出,威胁情报库的丰富,在于情

06

搜索引擎中的URL散列

散列(hash)也就是哈希,是信息存储和查询所用的一项基本技术。在搜索引擎中网络爬虫在抓取网页时为了对网页进行有效地排重必须对URL进行散列,这样才能快速地排除已经抓取过的网页。最理想的状态是对联网上所有的网页都分配一个哈希地址,可想而知这是一个相当宠大的数字,但实际上往往是无法做到这一点。虽然google、百度都是采用分布式的机群进行哈希排重,但实际上也是做不到所有的网页都分配一个唯一散列地址。但是可以通过多级哈希来尽可能地解决,但却要会出时间代价在解决哈希冲突问题。所以这是一个空间和时间相互制约的问题,我们知道哈希地址空间如果足够大可以大大减少冲突次数,所以可以通过多台机器将哈希表根据一定的特征局部化,分散开来,每一台机器都是管理一个局部的散列地址。

03

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券