00:12
我是来自股东的那个郑中业,然后现在主要负责这个盆境安全技术方面的一个工作,今天主要会跟大家分享一下,在虎扑社区这么一个环境下,呃初步验证是一些有效的一些做法,整个这个呃辅扑的三大块这样构成的这样一个内容形态的自己的体系,从这个体系上面看,有点像一个足球队的这种呃阵容啊,就最下面是一个三名后卫,然后中间是中呃五个中场,然后前面是两个两个两个前锋,加攻模型呢,其实就属于一个比较技术,而且他是一个比较重要的一个角色,可能平时感受不到他,但是呢,他却发挥了一个比较重要的作用,虽然呃默默无闻,但是可能缺了他可能就会出杂事。
01:03
对于过往一周内发布违规内容超过一定阈值的用户,我给他呃扣上一个高危的帽子,然后对于从未发布过一些那个违规内容的用户,都是在正正经的聊,聊那个詹姆斯,聊这个梅西,都在正经的聊一些那个呃影视的作品的一些演员的演技,那这些用户我们会把它诶发一个好人卡,对这部分用户就是区分区别去对待他很多策略,包括他将来划分内容,我们可以去做一些呃优化,这样的话一方面去降低我们成本,另外一方面我们对用户精准的去做一些画像之后呢,整个的内容审核的这个效率也会提升,成本也会相应的有下降。呃巡查的环节,其实它的主要目的是为了从一个相对外部的一个视角去评估我们整个审核这个机制是否是一个正常运转的,把自己当成一个虽然是我们。
02:03
呃,一个一个部门或者几个同事在做这件事情,他会从一个更外的表,他把把我们整个审核流程当成一个黑配合去评估,说你的审核质量怎么样,有没有一些呃流程上面的漏洞,或者说安全上面的一些具体的case的一些一些投放,投毒的话,其实是我们呃针对性的去对于成审环节去做一些模拟,虽然我们呃整个审核流程当中,包括像一些红线内容,或者些严重回归内容会有,但是呢,在正常的这个呃社区整个内容的这个呃总量当中,其实是占比比较少的审核人员,其实对这种内容平时比如做一些培训,可能他真正在审核当中遇到的会比较少,然后呢,这个的话,其实就是从我们怎么样去避免这个审核人员,诶,我一直碰不到这个内容,我其实对他放松警惕,所以去定期的去投放一些这样的内容,对于审核人员来说,他可能是无感触的,在他看来是一个正常的内容,但是是其实我们在流程当中插进去的。
03:03
这些人工的处理的内容,我们一些未知的一些呃内容,通过我们一些模型的一些训练,一些特征的提取,然后尤其是半年跟咱们虎国的一些合作,然后从语义理解啊方下文感知上面,能够更多的去识别出风险的内容。第一期是根据这个呃虎扑提供的一些回帖的一些样本,然后仅从回帖本身去看,去训练,去标注,去那个呃呃训练模型去测试验证到呃近期正在尝试的,包括准确率后召回率的指标上看的话,确实是有效的这么一个呃方式,社区性产品,它都有一个引用,引用其实他就是上下文一个讨论串,在之前我们是没有尝试过,然后近期也在跟我做一些呃沟通尝试,然后呃从目前看,不管是从准确率上面还是从高回上面,虽然是5%-6%,看上去绝对数字不高。但实际是对于模型到后。
04:03
对的,其实每一个百分,每一个百分点的提升可能都是很难的一个事情,所以从单一的这个策略上面能够去有这么大的装的这样的提升的话,其实是还是目前看还是很不错的。
我来说两句