我们继续上一期的内容。
4.感知哈希算法
在内容审核和分析中,主要存在两种类别的机器学习,分别是匹配模型和预测模型。匹配模型旨在识别出相似或相近的媒体文件,使用的关键技术是感知哈希。
在E2EE环境下,如果要对明文做感知哈希分析并且分析模型放置在服务器端则可能会违反用户的隐私保护政策。针对这种限制,有学者提出了在服务器端通过感知哈希算法来匹配加密文件与违规内容的相似度的方式来达到内容审核的目的,但是这种方案很容易出现误判,毕竟是对加密后的密文做分析。相反的,如果将匹配模型放置在用户客户端上,违规内容的指纹库存储在客户端中,并且指纹库匹配结果仅仅反馈给客户端本身则不会侵犯到用户的隐私。但如果将结果反馈给服务端则侵犯了用户的隐私,所以这也是在E2EE环境下,厂商需要考虑的实际问题。
感知哈希算法还存在一个现实问题,感知哈希匹配模型仅仅能匹配一些曾经出现过的类似的违规内容,对于未出现过的内容则无从下手。有研究显示,84%的CSAM内容仅仅上报过一次,也就是说这些内容在以前都从未出现过,那么感知哈希匹配模型则没有办法监测到这些违规内容。
5.内容预测模型
内容预测模型和感知哈希匹配模型不同的是,感知哈希匹配模型通过对比待检测内容与以往违规内容的相似度来判定内容是否违规,而内容预测模型则基于机器学习的手段预测内容是否违规。内容预测模型不依赖于该内容是否曾经出现过或者有类似的内容存在,更多的是依赖大量的数据进行机器学习训练,最后得到预测模型,该预测模型可以对从未出现过的内容进行判定。
我们用两篇文章给大家分享了关于在端到端加密环境下的5种内容审核技术,大家都了解了吗,如果您对端到端加密技术感兴趣,可以持续关注我们后续的文章。
领取专属 10元无门槛券
私享最新 技术干货