网上发不出去的那些敏感词，是如何被屏蔽掉的？

文章来源：企鹅号 - 刘小爱

今天是刘小爱自学Java的第94天。

感谢你的观看，谢谢你。

话不多说，开始今天的学习：

一、用户评论功能

网络上很多平台都会有敏感词屏蔽，有些词语打出来会被和谐掉。

虽说现在主张言论自由，但我大中华自古以来便是礼仪之邦，很多粗鄙之语能不允许就不允许的好。

那这些词汇是如何屏蔽的呢？

利用昨天学的Filter过滤器技术就能实现。

这就是一个很简单的form表单：

action：提交跳转的路径为wordServlet。

method：提交方式为get提交。

textarea：文本域，属性分别为列数、行数、名称。

input type="submit"：提交按钮

那么肯定要有一个Servlet要和表单提交的路径对应，从而获取文本域中用户输入的数据。

处理乱码问题

通过request的setCharcatierEncoding()方法设定字符集为utf-8，解决乱码问题。

获取用户输入的数据

通过request的getParamter()方法获取用户输入的数据。

文本域对应的name为word，所以这里参数也为word。

当然按照实际情况，获取用户数据后，会将用户的评论展示在对应的评论区中。

我这边业务逻辑没有这么复杂，就直接用一个输出语句来代替了。

二、敏感词汇获取

既然是要屏蔽敏感词汇，肯定需要先确定哪些词算是敏感词，再以这些词汇作为标准作为屏蔽。

在web包下创建一个word包，专门存放需要屏蔽的词汇文件，根据分类肯定是有很多很文件的。

为了更好地测试，我写了一个刘小爱，将其设定为1级，毕竟总不可能真的写那些敏感词。

好，敏感词汇准备好了，就要创建Filter过滤器以及编写如何屏蔽的业务逻辑代码了。

首先要获取敏感词汇，在init()方法中实现该需求，因为代码太长不好截图，故分成了两部分：

1获取words文件夹里的各个文件

创建三个集合

前面也说了，敏感词有三个等级，就创建三个成员变量来专门存放获取的词汇。

获取words文件夹

在初始化方法init中，有一个参数FilterConfig。

利用它的getServlerContext()可以获取web应用中的servletcontext ，从而使用servletcontext接口的一些方法。

getRealPath()里面填入words包的相对路径，就能获取words这个包了。

使用文件过滤器过滤文件

我们刚才将敏感词汇文件放入words这个包中了，里面有很多文件，为了防止被其它文件混入，我们只读取后缀名为“.txt”的文本文件。

使用FileFilter接口就能达到过滤文件的效果。

2获取words文件夹里的各个文件里的内容

代码接上图，增强for循环遍历上述过滤后的words文件夹：

转换流与缓冲流

使用转换流在于其可以设置编码字符集：utf-8。

使用缓冲流在于可以一行一行地读。

同时也算是对这两种IO流的一个回顾与复习。

迭代器读取文件

这就是IO流中的核心代码，一行一行地读取各个文件里的内容。

切割字符串

字符串为一行的内容：是以“|”为分隔，前面为敏感词，后面为屏蔽等级。

所以使用split()方法来将其分隔成一个数组，数组里0索引位为敏感词，1索引位为屏蔽等级。

根据屏蔽等级分别存入对应集合

split[1]表示的也就是屏蔽等级，trim()方法可以去除空格。

split[0]表示的也就是敏感词内容，将其存入对应集合即可。

三、过滤代码编写

上述是对过滤器中init()方法里的代码编写，用于获取敏感词一共有哪些。

现在对doFilter()方法里的代码编写，用户获取用户输入的信息，再进一步判断是否符合要求。

处理乱码并获取用户数据

和在wordServlet中编写的代码一样。

遍历敏感词汇并与用户数据匹配

敏感词汇一共有三个级别，可以分别对应不同的处理方式，比如永久封号、封号7天，禁言……

现在毕竟学习阶段，只遍历等级为1的集合，正则匹配涉及到一个工具类Pattern：

compile(str)：以遍历的敏感词为标准。

matcher(word)：以上述标准匹配获取的用户数据。

通过matcher的find()方法可以判断，若为true即表示匹配，不符合要求。

不符合要求反馈并提醒用户

在request域对象中设定一个名为msg的值，值为“评论内容不规范”，再跳转word.jsp页面。

最后在word.jsp中使用EL表达式获取request域对象中的数据。

$获取的也就是中设定的msg对应的值，如果用户输入的内容不规范，在word.jsp页面就会出现警示信息。

做个测试

刘小爱在前面已经被我设置成了1级敏感词，所以在评论的时候输入刘小爱，过滤器中会截取到。

从而跳转word.jsp页面并附带警示信息。

嘻嘻嘻不为敏感词汇，则不受影响。

最后

谢谢你的观看。

如果可以的话，麻烦帮忙点个赞，谢谢你。

发表于: 2020-07-192020-07-19 08:40:34
原文链接：https://kuaibao.qq.com/s/20200719A05F4L00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

网上发不出去的那些敏感词，是如何被屏蔽掉的？

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐