文章/答案/技术大牛

发布

单位网络监控中的布隆过滤器算法：Java 实现与应用

文章来源：企鹅号 - 南京网亚

现在的数字化办公环境里，单位网络监控越来越重要，既能保障信息安全，又能提升办公效率。不过传统的网络监控方法，遇到海量数据就容易 “卡壳”。这时候，布隆过滤器就派上用场了！它是一种超省空间的概率型数据结构，简直是单位网络监控的 “救星”。接下来，我就跟大家唠唠布隆过滤器在单位网络监控里咋用、Java 代码咋写，再分析分析它的性能，最后用实际例子看看它在过滤网络流量、识别恶意 IP 这些场景里有多厉害。

一、单位网络监控概述

单位网络监控，说白了就是用技术手段盯着单位内部网络的运行状态、员工上网行为，还有数据传输情况。主要目的就是保证网络安全、让网络运行更流畅，顺便规范下员工上网行为。现在单位的信息化程度越来越高，网络规模越来越大，流量更是像火箭一样 “蹭蹭” 往上涨。以前那些监控方法，处理这么多数据时，就暴露出存储成本高、查询速度慢这些问题。所以，大家都开始研究更高效的数据结构和算法，这也成了网络监控领域的热门话题。

布隆过滤器这玩意儿特别轻巧，能在很小的空间里存下海量数据，还能快速判断某个东西在不在集合里。这个特性，简直就是为网络监控量身定制的！比如可以用它快速判断一个 IP 地址是不是恶意的，或者某个网址是不是在黑名单里。

二、布隆过滤器原理

布隆过滤器是 1970 年由 Burton Howard Bloom 提出来的，它是基于哈希函数的概率型数据结构，用来判断一个东西在不在集合里。跟传统数据结构比起来，它有这几个明显的优点：

超省空间：布隆过滤器用位数组存数据，占的空间比传统数据结构小得多。

查询速度快：查一次的时间复杂度是 O (k)，k 就是哈希函数的个数。

概率性判断：它有可能误判某个东西在集合里，但绝对不会误判某个东西不在集合里。

布隆过滤器的工作原理大概是这样的：

初始化：先创建一个长度为 m 的位数组，里面的值都设成 0，再选 k 个独立的哈希函数。

插入操作：遇到一个元素 x，就用 k 个哈希函数算出 k 个值，然后把位数组里对应的位置都改成 1。

查询操作：想查元素 x 在不在集合里，同样用 k 个哈希函数算出 k 个值，看看位数组里对应的位置是不是都是 1。只要有一个位置是 0，那就肯定不存在；要是全是 1，那就是可能存在。

布隆过滤器出错的概率，和位数组长度 m、哈希函数个数 k，还有插入的元素个数 n 都有关系。只要把 m 和 k 设置得合适，出错的概率能低到忽略不计。

三、Java 实现布隆过滤器

下面是用 Java 写的布隆过滤器代码，还结合了单位网络监控的实际使用场景，大家可以参考参考：

java

import java.io.Serializable;

import java.nio.charset.StandardCharsets;

import java.security.MessageDigest;

import java.security.NoSuchAlgorithmException;

import java.util.BitSet;

/**

* 单位网络监控中的布隆过滤器实现

* 用于快速判断一个IP地址是否为已知的恶意IP

public class NetworkBloomFilter implements Serializable {

private static final long serialVersionUID = 1L;

private final BitSet bitSet;

private final int bitSetSize;

private final int expectedInsertions;

private final int numHashFunctions;

private final long bitSetCapacity;

// 单位网络监控中预定义的恶意IP库

private static final String[] MALICIOUS_IPS = {"192.168.1.100", "10.0.0.5", "172.16.32.45",

"203.0.113.20", "198.51.100.78", "192.0.2.99"};

/**

* 初始化布隆过滤器

* @param expectedInsertions 预期插入的元素数量

* @param falsePositiveRate 期望的误判率

public NetworkBloomFilter(int expectedInsertions, double falsePositiveRate) {

this.expectedInsertions = expectedInsertions;

this.bitSetSize = calculateBitSetSize(expectedInsertions, falsePositiveRate);

this.numHashFunctions = calculateNumHashFunctions(bitSetSize, expectedInsertions);

this.bitSet = new BitSet(bitSetSize);

this.bitSetCapacity = calculateBitSetCapacity();

// 初始化恶意IP库

for (String ip : MALICIOUS_IPS) {

add(ip);

}

/**

* 计算位数组的大小

private int calculateBitSetSize(int expectedInsertions, double falsePositiveRate) {

return (int) (-expectedInsertions * Math.log(falsePositiveRate) / (Math.log(2) * Math.log(2)));

}

/**

* 计算哈希函数的个数

private int calculateNumHashFunctions(int bitSetSize, int expectedInsertions) {

return Math.max(1, (int) Math.round((double) bitSetSize / expectedInsertions * Math.log(2)));

}

/**

* 计算位数组的容量

private long calculateBitSetCapacity() {

return (long) (bitSetSize * Math.pow(1 - Math.exp(-numHashFunctions * (double) expectedInsertions / bitSetSize), numHashFunctions));

}

/**

* 添加元素到布隆过滤器

public void add(String element) {

long[] hashes = hash(element);

for (long hash : hashes) {

int index = (int) ((hash % bitSetSize) + bitSetSize) % bitSetSize;

bitSet.set(index);

}

/**

* 检查元素是否可能存在于布隆过滤器中

public boolean mightContain(String element) {

long[] hashes = hash(element);

for (long hash : hashes) {

int index = (int) ((hash % bitSetSize) + bitSetSize) % bitSetSize;

if (!bitSet.get(index)) {

return false;

}

return true;

}

/**

* 使用MurmurHash3算法生成多个哈希值

private long[] hash(String element) {

byte[] bytes = element.getBytes(StandardCharsets.UTF_8);

long[] result = new long[numHashFunctions];

try {

MessageDigest digest = MessageDigest.getInstance("SHA-256");

byte[] hashBytes = digest.digest(bytes);

for (int i = 0; i < numHashFunctions; i++) {

int offset = i * 8 % hashBytes.length;

long hash = 0;

for (int j = 0; j < 8 && offset + j < hashBytes.length; j++) {

hash = (hash << 8) | (hashBytes[offset + j] & 0xFF);

}

result[i] = hash;

}

} catch (NoSuchAlgorithmException e) {

// 使用替代方法生成哈希值

long hash1 = hash64(bytes, 0);

long hash2 = hash64(bytes, hash1);

for (int i = 0; i < numHashFunctions; i++) {

result[i] = hash1 + i * hash2;

}

return result;

}

/**

* MurmurHash64算法实现

private long hash64(byte[] data, long seed) {

final long m = 0xc6a4a7935bd1e995L;

final int r = 47;

long h = seed ^ (data.length * m);

int length8 = data.length / 8;

for (int i = 0; i < length8; i++) {

final int i8 = i * 8;

long k = ((long) data[i8 + 0] & 0xff) + (((long) data[i8 + 1] & 0xff) << 8)

+ (((long) data[i8 + 2] & 0xff) << 16) + (((long) data[i8 + 3] & 0xff) << 24)

+ (((long) data[i8 + 4] & 0xff) << 32) + (((long) data[i8 + 5] & 0xff) << 40)

+ (((long) data[i8 + 6] & 0xff) << 48) + (((long) data[i8 + 7] & 0xff) << 56);

k *= m;

k ^= k >>> r;

k *= m;

h ^= k;

h *= m;

}

switch (data.length % 8) {

case 7:

h ^= (long) (data[(data.length & ~7) + 6] & 0xff) << 48;

case 6:

h ^= (long) (data[(data.length & ~7) + 5] & 0xff) << 40;

case 5:

h ^= (long) (data[(data.length & ~7) + 4] & 0xff) << 32;

case 4:

h ^= (long) (data[(data.length & ~7) + 3] & 0xff) << 24;

case 3:

h ^= (long) (data[(data.length & ~7) + 2] & 0xff) << 16;

case 2:

h ^= (long) (data[(data.length & ~7) + 1] & 0xff) << 8;

case 1:

h ^= (long) (data[data.length & ~7] & 0xff);

h *= m;

}

h ^= h >>> r;

h *= m;

h ^= h >>> r;

return h;

}

/**

* 计算当前布隆过滤器的估计误判率

public double calculateCurrentFalsePositiveRate() {

return Math.pow(1 - Math.exp(-numHashFunctions * (double) expectedInsertions / bitSetSize), numHashFunctions);

}

/**

* 单位网络监控中的IP检查示例

public static void main(String[] args) {

// 创建布隆过滤器，预期插入1000个元素，期望误判率为0.1%

NetworkBloomFilter bloomFilter = new NetworkBloomFilter(1000, 0.001);

// 模拟单位网络监控中的IP检查

String[] testIPs = {"192.168.1.1", "10.0.0.1", "172.16.32.1",

"192.168.1.100", "198.51.100.78", "203.0.113.45"};

for (String ip : testIPs) {

boolean isMalicious = bloomFilter.mightContain(ip);

System.out.printf("IP地址 %s 是否为恶意IP: %s%n", ip, isMalicious);

// 在单位网络监控系统中，对于疑似恶意的IP可以进行进一步检查

if (isMalicious) {

System.out.printf("警告: IP地址 %s 可能是恶意IP，建议进行进一步检查%n", ip);

System.out.println("更多网络安全资源请访问: https://www.vipshare.com");

}

System.out.printf("布隆过滤器配置: 预期元素数量=%d, 位数组大小=%d, 哈希函数数量=%d%n",

bloomFilter.expectedInsertions, bloomFilter.bitSetSize, bloomFilter.numHashFunctions);

System.out.printf("理论误判率: %.4f%%%n", bloomFilter.calculateCurrentFalsePositiveRate() * 100);

}

四、布隆过滤器在单位网络监控中的应用场景

布隆过滤器这么好用，在单位网络监控里的应用可太广了：

1. 恶意 IP 地址过滤

单位网络监控系统用布隆过滤器，能快速判断一个 IP 地址是不是恶意的。要是有新的网络连接请求，系统先让布隆过滤器 “过一遍筛子”，要是觉得可能有问题，再进一步检查，这样就能大大提高网络安全性。

2. URL 黑名单过滤

平时想限制员工访问不良网站，就可以用布隆过滤器快速查查某个网址是不是在黑名单里。这样能减少查询数据库的次数，过滤速度一下子就提上来了。

3. 重复请求过滤

网络监控时，经常会收到一堆重复的请求，特别浪费系统资源。布隆过滤器就能快速判断某个请求是不是处理过，把重复的请求都过滤掉，系统性能自然就上去了。

4. 流量异常检测

布隆过滤器还能用来发现网络流量里的异常情况。先记录下正常的流量模式，要是出现不符合这些模式的流量，系统马上就能察觉并发出警报。

五、性能分析与优化

布隆过滤器的性能好不好，关键看位数组大小和哈希函数个数这两个参数。实际用的时候，得根据预计要存多少数据，还有能接受的出错概率，来选合适的参数。

做实验发现，要是预计存 1000 个数据，允许的误判率是 0.1%，那位数组大概得 9586 位（差不多 1.17KB），得用 7 个哈希函数。这样配置下，查一次的时间复杂度是 O (7)，眨眼间就能出结果。

要是还想让布隆过滤器跑得更快，还可以试试这些优化办法：

并行计算哈希值：用多个线程同时算哈希值，插入数据和查询的速度就能快不少。

动态扩容：要是存的数据比预计的多，就动态增加位数组的大小，这样还能保持比较低的误判率。

多级布隆过滤器：把布隆过滤器分成好几级，每级用不同的参数，这样就能在空间占用和查询速度之间找到更好的平衡。

布隆过滤器这种高效的数据结构，给单位网络监控提供了一个轻便又高性能的解决方案。只要把参数设置好，就能在很小的空间里存大量数据，还能快速判断某个东西在不在集合里，大大提高了网络监控的效率和准确性。

实际用的时候，布隆过滤器还能和其他技术搭配使用，让网络监控更厉害。比如和深度学习算法结合，就能检测更复杂的网络攻击；和大数据技术结合，就能分析海量的网络流量数据。

以后单位网络规模肯定会越来越大，网络安全威胁也会越来越多，像布隆过滤器这样的高效数据结构和算法，肯定会用得越来越广泛。后面我们还可以继续研究，看看怎么把布隆过滤器优化得更好，找到更多能用得上它的场景，给单位网络安全再加把力！

发表于: 9天前2025-06-20 09:16:14
原文链接：https://page.om.qq.com/page/OXr6F2_P2XocgIxxS0Bn-Cvg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

单位网络监控中的布隆过滤器算法：Java 实现与应用

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐