学习
实践
活动
专区
工具
TVP
写文章

怎么设计高效的敏感过滤系统(一)

IM项目需要对上边传输的消息进行必要的过滤。如果总是对着某人输入f**k就显得不太文明了。 一个通用且简单的做法是,设定一批敏感词,如果消息中出现这些词,由系统进行必要的处理。怎么实现这个功能呢? 显然,方法1和方法2在性能上基本无法满足IM系统高效处理消息的需求,放弃。 方法3,采用Lucene建立本地分词索引,将消息内容分词后,在索引库里搜索。这个方法较复杂,且分词效率也不会很高,放弃。 大多数的敏感过滤系统采用的是方法4,DFA算法。 二、DFA简介 DFA是什么?这里有必要简单介绍一下这个概念(这部分看不懂没关系,可以跳过)。 如果看懂了DFA的介绍,我们可以这么理解敏感过滤系统。用需要被过滤敏感词构建一个DFA(确定有穷自动机 ),然后遍历需要过滤的文本,判断文本中是否有DFA可接受(识别)的字符串即可。 过滤敏感词,就是把需要过滤的文本,从第一个字开始,逐个字往后在Trie树中查找。如果能走到树的结束节点,则就能发现敏感词!

4.4K20
  • 广告
    关闭

    出海文娱解决方案,提供架构师1v1支持

    腾讯云提供AI创新文娱玩法及强大的TRTC音视频能力,为用户提供低延时和高品质的社交娱乐体验,帮助企业快速搭建精品秀场直播间

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    怎么设计高效的敏感过滤系统(一)「建议收藏」

    IM项目需要对上边传输的消息进行必要的过滤。如果总是对着某人输入f**k就显得不太文明了。 一个通用且简单的做法是,设定一批敏感词,如果消息中出现这些词,由系统进行必要的处理。怎么实现这个功能呢? 显然,方法1和方法2在性能上基本无法满足IM系统高效处理消息的需求,放弃。 方法3,采用Lucene建立本地分词索引,将消息内容分词后,在索引库里搜索。这个方法较复杂,且分词效率也不会很高,放弃。 大多数的敏感过滤系统采用的是方法4,DFA算法。 二、DFA简介 DFA是什么?这里有必要简单介绍一下这个概念(这部分看不懂没关系,可以跳过)。 如果看懂了DFA的介绍,我们可以这么理解敏感过滤系统。用需要被过滤敏感词构建一个DFA(确定有穷自动机 ),然后遍历需要过滤的文本,判断文本中是否有DFA可接受(识别)的字符串即可。 过滤敏感词,就是把需要过滤的文本,从第一个字开始,逐个字往后在Trie树中查找。如果能走到树的结束节点,则就能发现敏感词!

    42720

    小程序-云开发-如何对敏感词进行过滤内容安全的检测(下)

    小程序端进行文本内容的弱校验,减少API的请求 如何将涉及违规的文本内容用*号代替,进行过滤处理 云函数调用方式的优点(推荐使用) 本文重点在于 学会如何在小程序云开发中的云函数后端进行配置,实现文本内容的校验 小程序端在什么时机进行弱校验,为什么有必要这么做 遇到违规文本内容用特殊字符替代 · 正 · 文 · 来 · 啦 · 在前面一文小程序-云开发-如何对敏感词进行过滤内容安全的检测 (输入一段违规的文本进行校验,点击图片可查看) 当您输入符合规则的文本时,便会返回成功时的状态码,以及对应合规的信息提示 ? 对于一些常规敏感词,在小程序端是可以手动的进行自定义校验的,一种处理方式就是 但凡违规内容,可以强制用户不能输入,发布,或者评论等,还有一种处理方式就是,针对敏感词汇,用*号进行替代,如下所示 ? ,云开发团队都已经帮你解决了的 至于图片内容安全校验,限于篇幅所致,放在下一节介绍

    79810

    小程序-云开发-如何对敏感词进行过滤内容安全的检测(上)

    作者 | 随笔川迹 ID | suibichuanji 前言 撰文:川川 您将在本文中学习到如何在小程序中对一段文本进行检测是否含有违法违规的内容 遇到涉及敏感文本问题,以及接入内容安全的校验 具体有哪些应用场景 接入内容安全检测,规避输入一些违法违规低俗等内容,避免幸辛苦苦开发出来的应用 被恶意上传反动言论或上传一些违规内容(文字/图片/视频等),导致小程序或应用被下架,或遭永久禁封,或个人及公司被公安机关打电话 ,约喝茶等,这样的话,就得不偿失了的 02 应用场景 用户个人资料违规文字检测(个人信息等,一些过于商业以及营销之类的词可以进行过滤或禁止输入) 用户自行发表的信息,评论,留言,内容检测等 03 解决办法 方案2: 公司后台小伙伴自行开发文本,图片,音视频等内容审核接口 优点: 后台小伙伴自己造轮子,根据自己的业务需求以及用户属性,自定义内容审核机制 缺点: 开发周期长,成本大,难以覆盖全面 方案3: 小程序服务端提供的 promise风格的 处理方式大同小异,大家可以去npm或github上阅读相关使用文档的 结语 本篇主要介绍到了当遇到敏感文本过滤及规避违规内容的处理问题 在小程序中有多种解决方案,其实推荐使用第三种小程序端请求云函数的方式的

    1.2K10

    基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(4)-包过滤模块和内容过滤模块

    过滤模块和内容过滤模块 2。1 技术背景 采用技术 2。1。1 模块编程 2。1。 3 TCP/IP协议 一般网络上传输的数据包有IP包、TCP包和UDP包,由于UDP包不包含文件内容,所以我们不对UDP包进行过滤,而IP包和TCP包都包含我们所需要的数据,我们要获得这些包里面的数据 3 程序工作流程: image.png 在本程序中,内容过滤模块是嵌套在包过滤模块之中,而这两个模块都使用了模块编程,放在同一个模块中(这里的模块是Linux的内核编程方式,不同于前两个模块所讲的意思 ),我们要进行内容过滤,首先必须先插入模块(当我们不再进行检测的时候,我们可以卸载模块),那么程序就可以在我们指定的过滤点(系统有五个过滤点,每个过滤点叫做一个钩)进行检测,当有IP包和TCP包通过过滤点时 ,系统就会捕获到这些数据包,我们就可以读取数据包,获得我们所需要的数据(比如,IP包里面的源地址和目的地址,TCP包里面的源端口和目的端口),当TCP包里面包含有rar文件或rar文件的一部分时,我们就调用内容过滤模块对对这个

    35220

    基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(3)-内容过滤防火墙系统简介

    内容过滤防火墙系统简介 1。1 技术背景(方法,软件) 所采用的技术: 1.1.1 模块编程 也可以叫做内核编程,因为系统对数据包进行过滤的工作量非常大,使用模块编的话,可以提高系统的效率。 在本程序中,包过滤模块,内容过滤模块和数据交互模块都使用的模块编程。 1.1.2 防火墙技术 作为一个内容过滤防火墙系统,具有防火墙功能可以说是必不可少的(虽然本程序主要功能是对内容进行过滤),事实上,在Linux下已经有了一个很好的防火墙过滤规则,叫ipchains, 1.1.5 数据交互技术 在本程序中,包过滤模块和内容过滤模块都是在内核中实现的,而界面又是在用户空间中实现,要怎样才能把包过滤模块和内容过滤模块所获得的数据显示在界面上呢? 3 开发过程 总的流程图如下: image.png 其中,用户界面模块负责用户界面的实现,防火墙规则模块负责设置系统的防火墙规则,包过滤模块负责对网络上传输的数据包进行过滤内容过滤模块负责对数据包的内容进行过滤

    28810

    基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(5)-包过滤模块和内容过滤模块所采用的各种技术详述

    过滤模块和内容过滤模块所采用的各种技术详述3。1 module编程 module可以说是 Linux 的一大革新。 这是为了避免对系统造成不稳定。我们知道 Linux 的 kernel 更新的很快。 那当此 module 用在 2.2.1 kernel 上时,如果它没去检查 A 的值就直接使用的话,就会造成系统的错误。也许不会整个系统都死掉,但是这个 module 肯定是很难发挥它的功能。 image.png 下图是卸载到datafilter3模块和interdata模块之后,系统中的模块,可以看到,系统中已经没有这两个模块了。 nf_register_hook(&iplimitfilter)是对数据包进行过滤的函数,当加载模块时,则对数据包进行过滤,当卸载模块时,则取消对数据包的过滤

    43430

    推荐系统学习笔记之二 基于内容的推荐系统(CBRS)+Collaborative Filtering 协同过滤

    基于内容的推荐系统 (CBRS) 首先介绍一下最简单的一个推荐算法模型CBRS。在这个模型中我们用线性回归的基本思路拟合出每个用户对每个电影的评分向量,预测出用户没有评分的电影并进行推荐。 Collaborative Filtering 协同过滤算法 在之前基于内容的推荐系统中,我们必须要有电影的特征向量才能求出每个用户的参数向量,但是这样会带来很大的麻烦,原因是每个人对电影的分类概念都不同 −y(i,j))θjk+λxik) x^i_k:=x^i_k - a(\sum_{j:r(i,j)=1} ((θ^j)^Tx^i-y^{(i,j)})θ_k^j +λ x^i_k) 注:在协同过滤从算法中 协同过滤算法使用步骤如下: 初始 x(1),x(2),…,x( nm n_m),θ(1),θ(2),…,θ( nu n_u)为一些随机小值 使用梯度下降算法最小化代价函数 在训练完算法后,我们预测

    22820

    推荐系统-通过数据挖掘算法协同过滤讨论基于内容和用户的区别

    - 商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品 - 浏览大量无关的信息和产品,信息过载问题,用户难以获取所需要的信息 分类 基于内容的推荐 根据用户的历史数据,推荐用户感兴趣的产品 产品表示: 为每个item 抽取出一些 特征来表示此item;结构化属性如身高、学历、籍贯等;非结构化属性如item自己写的交友宣言,博客内容等等,需要转化成结构化属性 2. 把模型预测的用户最可能感兴趣的n个item作为推荐返回给用户即可 协同过滤推荐 根据与目标用户兴趣类似的用户,预测目标用户对特定产品的喜好程度。 特征提取、建模 依赖用户 方法 新用户 新商品 冷门商品 特殊商品 潜在兴趣 特征提取、建模 依赖用户 基于内容 × √ √ √ × 需要 × 协同过滤 × × × × √ 不需要 √ 基于内容的推荐 推荐系统思维导图:直通车 ?

    55050

    基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(8)-附录

    附录A 常见端口详解 0 通常用于分析操作系统。这一方法能够工作是因为在一些系统中“0”是无效端口,当你试图使用一种通常的闭合端口 连接它时将产生不同的结果。 因此防火墙常常过滤或记录 53端口。 需要注意的是你常会看到53端口做为UDP源端口。不稳定的防火墙通常允许这种通讯并假设这是对DNS查询的回复。Hacker常 使用这种方法穿透防火墙。 69 TFTP(UDP) 许多服务器与bootp一起提供这项服务,便于从系统下载启动代码。但是它们常常错误配置而从系统 提供任何文件,如密码文件。它们也可用于向系统写入文件。 CORBA是一种面向对象的RPC(remote procedure call)系统。Hacker会利用这些信息进入系统。 许多程序并不在乎用哪个端口连接网络,它们请求操作系统为 它们分配“下一个闲置端口”。基于这一点分配从端口1024开始。这意味着第一个向系统请求分配动态端口的程序将被分配 端口1024。

    37520

    基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(2)-概要引言

    概要:在Linux系统下,具有图形界面的防火墙系统很少,而包含内容过滤的防火墙系统更可以说是少之又少,本程序不仅具有防火墙功能,而且可以对rar、zip压缩格式的文件进行过滤。 对于输入的数据包,系统将先进行包过滤,如果通过了包过滤,才会进行下一步的内容过滤,做出基于信息内容的决定。本过滤系统就是把包过滤技术和内容过滤技术二者结合起来,做到防御网络攻击和过滤垃圾信息。 整个系统由各种功能块组成,主要包括包过滤模块、内容过滤模块、用户界面功能块、数据交互模块、过滤规则、过滤日志等。 3.把包过滤技术和内容过滤技术结合起来,根据数据包的头信息和内容信息判断网络攻击的类型,同时也能进行内容信息的过滤。 4.系统具有自适应能力。 本系统不断的采集网络负载、CPU负载和内存负载的信息,当这三者的综合信息过大时,系统将不再进行内容过滤,当综合信息下降到一定的值时,系统重新进行内容过滤

    25330

    “净网2019”行动即将开始,企业如何做好内容安全?

    先梳理下互联网“扫黄打非”的历程, 不难发现出现了三次显著的技术对抗更迭: 1.互联网起步阶段,互联网鉴黄主要走“人肉攻略”,人工完成图片鉴定工作; 2.随着互联网的发展,网络数据量骤增,以肤色识别算法过滤 “黄色”图片成为了主流手段,机器鉴黄与人工鉴黄相互配合; 3.如今,到了移动互联网阶段,网络数据再次骤增,人工鉴黄已经很难适应如今的工作量,加上视频、直播等业务的暴涨,纯靠肤色识别算法作为“过滤”的方式 首先,面对图片内容会有相似度识别通过与过往的数据内容相比,判断该图片是否属于违法范围。如果命中将会给予客户拦截的建议,否则将送到后续的智能识别模块识别色情、暴力、敏感等非法内容。 针对视频内容,腾讯云天御会根据一定频率截取视频图片,得到视频按帧记录的图片库。去掉重复的和模糊的,提取关键因素的图片送到产品后台系统。之后对其采用图片识别模块的操作,对其视频内容进行判断。 此外,在面对文本内容信息时,腾讯云天御通过智能模型处理系统,对其包含的内容做检测,识别其中是否包含色情、暴力、敏感等违法要素,给予迅速地拦截。

    1.4K32

    基于机器学习的敏感信息泄露治理探索

    敏感数据治理系统架构 敏感信息检测系统的设计采用机器学习为主导,人工干预为辅助的处理机制,并随着算法的不断优化与数据模型的不断完善,逐步降低人工干预的比例,整体架构如图2。 敏感信息检测系统分为流量识别、数据处理、模型层处理和运营四个阶段: 流量识别:对流量进行分析,去除无用页面,同时构建模型监控数据外泄。 数据处理:对响应内容进行去脏、分词、过滤等预处理步骤。 图6.png Step1: 对待分级内容进行分词、过滤等预处理步骤,通过word2vec模型获取词向量,并输入k-means聚类模型中。 Step2: 聚类模型自动学习信息间的相似度,并输出待分级内容所处的簇,我们默认规模最小的一个簇最可能具有最高威胁等级。经过前面步骤,可过滤掉大部分误报或低风险内容,并筛选出疑似的高危信息。 当然,目前机器学习方案还有很多可以优化的空间,比如针对图片类、视频类等相关场景。

    55910

    “净网2019”行动即将开始,企业如何做好内容安全?

    先梳理下互联网“扫黄打非”的历程, 不难发现出现了三次显著的技术对抗更迭: 1.互联网起步阶段,互联网鉴黄主要走“人肉攻略”,人工完成图片鉴定工作; 2.随着互联网的发展,网络数据量骤增,以肤色识别算法过滤 “黄色”图片成为了主流手段,机器鉴黄与人工鉴黄相互配合; 3.如今,到了移动互联网阶段,网络数据再次骤增,人工鉴黄已经很难适应如今的工作量,加上视频、直播等业务的暴涨,纯靠肤色识别算法作为“过滤”的方式 首先,面对图片内容会有相似度识别通过与过往的数据内容相比,判断该图片是否属于违法范围。如果命中将会给予客户拦截的建议,否则将送到后续的智能识别模块识别色情、暴力、敏感等非法内容。 针对视频内容,腾讯云天御会根据一定频率截取视频图片,得到视频按帧记录的图片库。去掉重复的和模糊的,提取关键因素的图片送到产品后台系统。之后对其采用图片识别模块的操作,对其视频内容进行判断。 此外,在面对文本内容信息时,腾讯云天御通过智能模型处理系统,对其包含的内容做检测,识别其中是否包含色情、暴力、敏感等违法要素,给予迅速地拦截。

    32240

    轻松几步,给蘑菇博客接入图片审核~

    因此,蘑菇也在积极的探索内容审核。例如,之前蘑菇通过 字典树 实现了 敏感过滤算法 ,能够让用户输入的敏感词都被过滤掉,从而实现文本数据的自动审核。 敏感过滤 但是,上面的方法,只能用于处理文字类型的敏感词,对于图片来说,就爱莫能助了,只能寻找其它方式。 支持的审核类型包括:图片鉴黄、图片鉴暴恐、图片敏感人物识别、图片广告识别。 suggestion=block:表示系统确认审核内容违规,建议您将其删除。 suggestion=review:表示系统无法确认审核内容是否违规,建议您进行人工复核。 suggestion=pass:表示系统确认审核内容正常,建议您忽略该文件。 好了,关于内容审核的接入就到这里了。

    200

    博客系统知多少:揭秘那些不为人知的学问(二)

    4.13 敏感过滤及评论审查 4.14 静态化 4.15 通知系统 5. 图片水印 给上传的图片自动加水印有助于保护版权,水印内容一般是博客的地址或博主名字。添加水印时要注意图片尺寸调整水印的比例,以免挡住图中重要内容影响阅读。对于过小的图片,可选择性的忽略水印。 另外,考虑到博客有可能会在发展过程中改名,建议添加水印的时候在系统中保留一份原始图片,以便于后期更新水印内容。 具体方法可参考我的文章《ASP.NET Core 给上传的图片加水印》。 ,需要花费大量时间…… 13 敏感过滤及评论审查 博客难免引来一些抱有敌意的人,也会引来发广告的人,所以通常需要敏感过滤和评论审查。 图 | 网络 因此我强烈建议个人博客启用敏感过滤及评论审查功能。WordPress及我的Moonglade博客系统均支持敏感过滤和评论审查。

    31010

    为裸女自动穿上「比基尼」,借助GAN打造强劲的内容审核方法

    互联网易于访问和使用广泛的特性使其比以往更容易地在任何时间搜索到任意的内容。然而这种便利性是有代价的:在很多情况下,人们都会搜索到不希望出现的内容。而研究如何自动过滤这些内容就显得非常有必要了。 早期在裸露和淫秽内容审查的工作主要聚焦于检测敏感媒体文件中的身体部位,例如脸部、人体皮肤和乳头 [1]-[4],而近期的研究使用当前最佳的表征学习方法,来自动学习可以辨别敏感内容和非敏感内容的特征以解决这个问题 该方法可以转换敏感内容域 X(包含裸女的图像池)的一张图像 x 到非敏感内容域 Y(包含穿比基尼女人的图像池)的一张图像 y,其中敏感部位被比基尼覆盖,同时保留原始图像的语义。 在本文中,我们提出了一种成人内容审查文献的范式转变:不是检测和排除识别到的内容,而是自动过滤掉图像中的敏感部位。 其中 D_X 试图区分真实图片 {x} 和转换的图片 {F(y)} = {x hat},而 D_Y 试图区分真实图片 {y} 和转换图片 {G(x)} = {y hat}。 ?

    65010

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 图片审核

      图片审核

      图片审核(Image Auditing,IA)基于腾讯云天御业务安全防护为用户提供图片内容安全智能审核服务,帮助用户有效识别色情低俗、暴力恐怖、违法违规、恶心反感等违禁内容,规避运营风险。

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券