00:00
各位直播间的小伙伴大家晚上好,欢迎来到云家社区直播间,今天是我们数据万象应用叔叔直播第三期,本期我们邀请到了讲师是腾讯云存储高级经理穆林老师和研发经研发工工工程师郭天老师,他们要给我们分享的内容是云上数据的内容安全管理。接下来有两位老师给大家打个招呼吧。然后这边穆林老师先来。大家好啊,那这次的话就由我给大家分一的啊,一个内容全相关的一些知识以及应用的一个实践技巧。好的好的,那这边感谢穆林老师,接下来郭老师也跟也跟大家打个招呼吧。啊,大家好,我叫郭天,是负责内容审核的技术人员。
01:03
一会我将会给大家讲一个那个内容审核具体场景的具体实践。好的好的,谢谢,那呃,在直播开始前呢,我还是跟大家说一下我们的抽奖机制,然后我们在报名环节的话是有抽奖激励的,然后这个这个抽奖链接我们是附在那个推广表门当中,然后只要在明天中午12点开奖之前抽奖都是有效的,然后直播中呢,我们也设置了抽奖激励,是有三个问题奖以及三个幸运观众奖,然后这个的话都是会在评论区去抽取的。好的,那接下来,嗯,然后结果的话是在直播结束之后就会公布,那接下来然后有两位讲师跟我们分享一下云上数据是怎样做内容安全管理的,好的我们把时间交给他们。
02:00
好的,那谢谢主持人的开场,那我们就直接进入正题。那本期的主题呢,就是啊,我们数据的一个啊,核心的产品功能一个啊,有关内容安全方面的一个核心能力。那首先啊,我们来看一下就是啊,我们现在呢,其实啊互联网已经在大家身边随处可见了,那互联网中其实也啊会有很多这种啊恶意的内容,那有恶意的内容呢,可能会啊造成一些比如说我们啊观感上的不适啊,或者是可能会甚至会涉及到这种违法违规,那通常来说呢,可能就是啊比较常见的像色情啊,政治敏感,还有一些像啊暴力恐怖啊,以及啊一些像广告啊,谩骂呀啊低俗啊低俗的这种啊语言呐,或者欺诈等等啊这些场景呢,其实在互联网中也是比较常见的。那啊这些恶意内容的危害呢?啊,其实也是非常多,就是啊分几个方面吧,首先啊一个方面呢,它可能会让这种啊,我们正常的一个用户啊,比如说他在浏览你的这个平台的时候,诶,发现里面有很多这种啊恶意的内容啊,有很多广告啊,有很多这种啊色情图片啊是吧,或者这种啊微商在上面去啊推一些这种小二维码,对吧?这种可能就会让一些正常的用户诶,他们在使用你平台的时候啊,对你的平台的好感度下降,造成你的一个啊用户的流失。
03:36
那还有一点呢,那就是啊,国家方面的,那国家的话一些监管部门。对,我们现在的不管是企业也好啊,平台也好啊,在内容方面的一个监管啊,也是越来越严格啊,其实早早先呢,在前几年就已经国家已经推出了这个网络安全法啊,其中呢啊,甚至也有将这个就除了这个黄赌毒以外啊,也将这种像啊宣扬恐怖主义,极端主义啊,煽动这种比如说有颠覆国家政治啊,推翻这种社会主义制度等等的这些信息啊,如果会涉及到这种传播扩散,甚至能够啊危害这个国家的安全与社会公共利益的。
04:20
啊,都列为当前这种比较凸显的一个网络安全问题,都会要求这各大企业去采取一些技术手段去进行控制,那我这边截图截的也不全,也是可能有一些也是前几年的一些信息,那可以看到啊,啊比如说像某一些直播平台啊,被关停啊,有一些这种啊。这种啊,可能涉及到一些啊不好内容的,比如说诶这个平台可能本身它其实是啊合规的平台,但是因为里面的一些非法用户上传了一些这种非法的内容啊,导致这种啊被啊网信办要求下架啊,要求整改这种其实啊包括在最近一段时,最近几年,最近一段时间都很常见。
05:06
那所以呢,我们现在其实很多企业经很多用户啊,他们都急需一种啊专业审心的一个内容安全的方案,那这个方案呢啊,我们数据万像给大家提供了,那我们提供的内容审核的方案呢,首先不需要你们有自己去搭建这个人工审核的团队啊,而且你们自己,而且甚至很多企业,你如果说要去啊,自己建一个去维护自己啊网站内容的一个这种人的团队啊,这个有很多问题啊,比如说这种你招来的人啊,不专业,你还要去对他进行培训啊,培训的成本其实也很高,那或者说是诶,你招来的人员就是比较专业的,但这种专业的人员他们管理成本也很高,而且效率其实。并不会,我一个人啊,我一天其实能看啊,就是其实所谓的鉴黄师吧,我一天能看。
06:01
1万张图啊,已经非常了不起了。那那这个是,呃,我们的话就不需不需要你去建这个人团队,那另外呢,我们也不需要你去自己搭建这个啊识别模型啊,因为现在有一些可能大家也清现这种A器经常的成熟了,那也会有这种机器审核,机器审核的话需有算模型,那甚至你这个机器保。那这个呢,不管是机器也好啊,还是啊,你们要去的算法专家也好,这都是非常昂贵的,那啊除了除此以外呢,如果你们自己诶去搭建这个模型,你们还要自己去收集这种啊违规的图片的样本啊,你们要有数据集啊,如果数据集不足的话,可能还会导致这个模型的精准度有限,那可能识别出来的效果就不好。
07:04
啊而且呢,你们可能就是呃,大家呢,可能会缺少一些比如说像实时舆情的检测那啊比如说我之前的这个样本,诶覆盖的也比较全面了,但是诶我们的身边的事情是实时发生的,那除了这种已有比如说色情啊这些啊违规的事件,那其实还有很多可能涉及到一些敏感人物,对吧,比如说像一些劣迹的艺人啊,比如说之前的吴叉叉对吧,这些这些人啊他们诶有了这种劣迹的这个形象了之后,那可能在网络上就会进行封杀,那不允许传播他们的内容,那你们要去诶非常。高效的,非常实时的,能够保证你们的模型去识别到这些人物,其实也是很难的,那当然我们提供的服务呢,其实就能够提供到这一点,供家种四两或千金的一个效果,不但成本非常的低,而且呢还能省心,那下面呢,我就具体的给大家讲一下。
08:13
那我们这个内容审核产品呢,其他的核心价值呢,就在于我们有一个这种高可用的人工运营的结果啊,高精准性的这个机器识别,以及能够快速响应不同客户的一些审核需求,因为啊可能我们也知道现在的互联网上面的行业很多啊,电商啊,房地产金融。游戏等等啊,不同的行业可能面对的审核的需求不同,监管的能力也不一样。那要能够覆盖这么多。能够覆盖这么多啊,监管的需求,我们也是做了不少的努力,也是能够尽力的满足各行各业的一个审核需求。而且我们的这个内容审核的产品,它的接的简单,调用接口的形式能够审核啊,平台上面的这一个违规的图片,违规的视频等等啊,我们也支持通过控制台去进行一个自动化的配置啊,就是啊这种呢,可能主要针对一些这种。
09:15
啊,技术能力不太强的一些用户,那他们呢,可以啊,直接在我的控制台上面有一个可视化的界面啊,去配置去进行这种啊。可视化的一些配置啊,就能够达到,就是我们后台自动帮你去审核,并且能够自动帮你处理啊,一站式的完成你的这种所有的一个内容审核工作。那这里可以看一下,我这里画了一个这个架构图啊,从我们主要审核的这个内容,可能就涵盖的其实也比较全啊这种啊直播点播的音频视频啊,一些标题文章的这种文本啊,留言区里面诶,有一些电商啊,可能在评论里面发的这种啊买家秀对吧?有一些这种图像图片,或者是一些游戏里面的啊,表情包或者是这种头像的啊,一些头像或者一些个人相册等等里面涉及到的图片啊,我们都能够去进行这个识别,那我们审核的能力呢,那涵盖除了前面提到的一些这种黄赌毒啊,暴力恐怖啊,敏感政治以外,那还有可能有一些这种啊,特殊服装,特殊符号啊,特殊旗帜啊,我只要跟违法违规相关的,我们基本上涵盖的都比较全了。
10:33
那基于这前面的这一些方前面的这一些能力呢,我们啊对外提供了啊,一些场景化的运营策略啊,一些定制的识别服务,而且呢,我们也有一套这个人工审核的一个方案,就是你可以啊用户呢,可以基于我们的这一个审核的能力啊,自己只出少量的一个人就能够进行一些复审啊,保障你们平台的一个更高级别的一个全。
11:02
那最终识别的结果呢,我们会啊,以这种啊评分的形式给到啊,比如说我一张图,我给你打了一个100分啊,其实就说明我们认为它是一个百分百有问题的图片,那如果打的零分呢,我们可能就是大概率呢,这个图基本上就是一个正常的图片。而且这种呢,也非常的好去辨别啊,一个零到100分。那啊讲完了我们这一个整个内容审核的一个框架呢,啊,我具体讲一下我们已有的一个审核的啊能力,那首先呢,在这个图片方面啊,我们采用的这种前沿的图片识别算法啊能够,而且我们底层的这个。训练的数据集是非常庞大的,而且我们每天都在不断的增加这个样本,而且不断去增加这个贴合这个实施政务啊,能够对这种用户上传的这个违规的图像进行这个安全的服务。
12:02
能够做到这个识别的准确率足够高,召回率也高啊,多维度的去这种啊监管的要求,并且呢,能够实时跟进监管的要求啊,尽大可能的来保证我们的用户啊,不被监管去进行这个处罚。那下面呢,可能也列了一些啊,具体的一些啊例子吧,像这种色情里面,其实每一个这个场景我们也都支持啊,更加细力度的一些这个啊,自定义控制这个标签的这个审核,那比如说我在色情识别里面啊,用户可以去选择啊,我只去审核类似于漫画色情啊,或者是直接裸露的一些场景,其他场景我就不审核,那这种都可以让用户去自定义配置,那自定义配置的话不只是在那个。啊,就是调用的接口上可以置控制上面也可以进行这个可视化的一些选其他的呢,里面的啊,一些枪支啊刀具啊,啊广告里面的像一些二维码呀。
13:07
或者啊敏感敏感内容啊,里面可能有些敏感人物啊,敏感场景等等啊,违法违规里面可能主要就是一些赌博啊,封建迷信,抽烟吸毒等等这些场景了。好,那啊,除了图片以外呢,我们还有这个文本的一个内容安全,那文本呢,其实也是啊,在我们日常的互联网中,其实见的啊比较多的一个,其实我们现在这个啊,就是网络上传播的一个信息啊,其实图片占的这个比重是最大的啊,然后除了图片以外呢,剩下的就是文字了,但其实文字的数量是更加多了,是因为它比较它不占地方,所以它本身占的那个存储就比较少一点,但其实它的量也是非常大的,那文本这一块呢啊,我们能够啊也是支持这个像啊色情啊等等这一系列的这个审核,并且我们啊采用了啊一些啊先进的算法啊,能够啊去对一些拆分字。
14:09
啊,或者一些形式字音字啊,或者其中的啊,包含了一些干扰的符号,或者有一些歧异的短语啊,这些我们都去进行了优化啊,都能够啊去啊对这些场景能够做到更高精度的一个识别,那有的时候可能甚至比一比你们啊一自己进行一些人为的审核还要更加的准确。那在音频审核方面呢,我们则使用的啊是一种这个啊比较先进的一个啊语音识别的引擎,那我们也是通过将这个啊语音转化成这个文本的形式啊去进行一个识别,当然了除了这个啊转化成文本识别以外呢,我们也会去对一些啊语音语调进行识别,那比如说像如果说它的这个啊。
15:00
音频里面有一些声娇喘之类的这种啊,偏向色情一点的声音,我们也能够去进行识别,那除了中文呢,我们还支持像英文啊,粤语啊,以及一些民族语言啊,地方性的像样这种啊语啊,藏语啊,阿拉伯语等等,那这些语言我们也啊进行了一个优化识别,当然海外呢,像一些可能一些常常见的一些大语种,像什么葡萄牙语啊这种啊,比较常见的一些啊,海外语言我们也能够支持审核。那在视频审核方面呢啊,我们就结合了这个视频里面的图片,音频,以及视频里面出现的文本啊,多个这种啊,多个算法,多个场景来综合的对一个视频进行这个审核,那啊从这个我这个图里面可以看到我们啊一个视频啊,去识别它的这个首先是视频的标题有没有问题啊,这里面可能提到了法轮功,那法轮功呢,可能就是。
16:02
对吧,这是这种啊,明令禁止的一个违法的一个群体嘛,那这个肯定是属于这个啊违规内容了,那再就是对这个画面,那可能我这个画面里面啊,比如说诶看见的是这种属于一个啊人群聚集,而且场景里面呢,可能就是一种啊非法的人群聚聚集,那这种场景我们也能够识别得到,那最后呢,可能就是啊对它里面讲的话去进行这个识别,那我可能这一句话里面,诶大家是在这个推广法轮功推行,大家可能都在诶呼吁再讲一些口号,那我们去识别到了之后呢,也能够啊去判断。是一个违规违法的一个内容。那除了这个啊常见的这个英式图文啊四类就四大类以外,我们也啊支持一些啊比较冷门一些景的这种内容审核,比如那呢最PPL啊等等,就日常用的办公文档,那可能有些用户他接触这种场景比较少,可能觉得诶我这个PPT或者这个word里面啊,能有什么这种违规的内容啊,其实也是有的,就是比如说像现在也有很多这种啊黑产或者一些这种不法分子,他们通过把一些比如说啊营销的广告,广告语,手机号或者一些二维码,诶,他放到这个Excel里面,或者放到PP里面去对外进行一传播。
17:30
那这种呢,其实啊,可能有一些这种厂商,一些内容安全的识别的厂商,就做不到对他们去进行识别,那我们呢,就能对这些啊。文档里面的内容也能够进行一个提取,进行一个审核。那另外一个呢,就是直接对这个网页去进行一个审核,那比如说我现在有一条这个网页链接啊,我直接将这个网页链接网网页链接输入,哎,比如说通过调用我们的接口,那我们就会提取这个网页中的内容,那主要是里面的一个图片或者一个文本,我们来能够通过这种方式去判断一个网页到底是一个正规的网页还是一个啊非法的网页。
18:18
那除了我们啊,就是啊已有的这个啊审核的就是对格式上的一个支持以外呢,啊,我再从这个我们功能点上面去进行一个介绍,那我们呢,就是支持这个定制化的一个内容审核,那我们的定制化的一个内容审核可能可以针对这个啊,让客户自己去针对他的一个这个业务啊,深度的一个结合啊,帮助用户去这个行业的一个专业的模型,因为我们本身呢啊,支持的审核的场景呢,能够达到上百种,并且呢,可以让用户自己去定义自己的一个风险库啊,比如说呃,有一些这种可能我们觉得是正常的语言。
19:03
啊。可能我们觉得是正常的语言,但是对于用户来说呢,这种语言他们觉得不应该他们平台上出现,那他可以把这里的这个关键词。加到我们的这个风险库里面,那在后续呢啊,我们就会啊,在识别的时候也会去调用客户自己添加的这个风险库啊,来结合我们后台的这个帮助一起啊,给到用户一个啊综合的审核结果。那啊,除了前面提到的啊,其前面提到的能力都是属于这个啊,人工智能的个范畴,家明A这个海大数据基能基本肯定没办分之肯定这种审情况。
20:06
那为了能够弥补这种情况呢,我们其实啊,数据万象后后台呢,也有提供了这一个人工审核服务,那我们的人工审核服务呢,啊不需要呃,客户就不需要你们啊自己去啊出什么人力之类方面的问题啊。通过同样的这种调用方式,我们调用这个内容审核的一个接口,我们后台能够自动帮你转为这个人工审核。然后呢,人工审核,我们啊,人工审核呢,基本上这个准确率就能够达到99.99%了,因为我们啊招聘的这个啊,所谓的就是建黄其实都是比较专业的,当然了,这个毕竟是人工审核嘛,整个的这个。流程那可能就会啊,稍微时间要久一点,那啊比如说我机器审核,我审核你用户上传一张图片,我发这个审核大概只需要啊100毫秒啊,0.1秒的时间就可以把这个审核结果反馈给你了,那人工审核呢,可能需要啊一到五分。
21:12
对,但是如果说啊,这个时效性你们能够接受的话,其实啊,并且呢,又希望有更高的这个准确率的保障,那使用这个工审核服务是啊可以的,而且我们工审核服使这动的派的形式啊,根据后台这个审核员的一些闲时空闲的程度去自动的调度来保障这个整体审核的一个效率。啊,那我们的内容审核呢啊。前面可能就是给大家把一些这种啊,我们的一些功能啊,或者一些啊特点啊讲完了,那可大家比较关注,就是用我们的这个内容审核服务到底会有一些怎样的优势呢?那我们的这个优势的话,集中在几个几个方面,经济,便捷,高效。
22:05
那经济呢,我们这个,因为我们这个啊审核的话,它是跟我们的腾讯的对象存储是完全打通的,如果说你的这个数据是存在这个腾讯上去进行这个审核,是不会产生任何的一个外网的流量,那我们也知道其实很多用户啊,比如说你们之前用了一些其他平台的,其他平台的一个审核的服务,那你的数据存在啊个上面你去调用那个。啊,审核的服务肯定会产生这个云的一个出口的流量,那大家也知道流量的费用其实是很贵的,那如果说你的数据本身就是存在这个上面,你使用我们数据象的这一个内容审核服务,那我们都是啊通过这种内网审核的方式来减少用户的这个外网的一个流量,相相比其他的审核呢,整个审核的成本够。
23:02
下降25%以上,并且呢,因为我们走的是内网,这里的网络。网络的一些,比如说可能会有一些网环啊,其实不存在了,就网络也是非常定的,那审核的这个效率能够提。那另外一个呢,就是便携,那前面也提到啊,我们这个数据万象,因为跟我们的这个内容审核完全打,跟我们的这个对象存储完全打通了,并且呢,我们提供了各种各样的这个可视化的界面,以及自动化的配置啊,就算是完全不技术的人员啊,你是一个企业的运营同学或者企业的这个管理者,我不说管理者不懂技术,是大多数的这个啊管理者已经。已已经可能更加关注这个审核的一个效果,那我们呢啊,能够支持这个一键开启内容审核的服务啊,在控制台上面一键就能够开启我们整个的审核的服务,并且啊对这个审核的结果去进行一个自动的处理,那更加方便我们的这个企业的各个各个岗位的人员都能够来啊操作这一个服务。
24:16
那另外呢,就是我们的一个高校,我们因为基于这个机器学习,我们后端呢,有非常庞大的一个机器集群啊,尤其是针对一些,如果说我们发现这个用户他调用的量非常的大,那我们会帮用户去免费的扩容。增加审核大,因为正常来说,可能甚至有些用户整个。整个业务的这个数据量都没有这么大,但是我们都能够做到每每天审核上一张的图片。那最后呢啊,我就可能也算秀一下我们的这一个肌肉,那我们呢,就是在前以前的一些时间段里面呢,也获得过不少的这个。
25:12
就是大赛上的一些,就是呃,图像违规以及这种啊敏感logo等等的一些啊,识别检测类的比赛的冠军以及第一名,那这个呢,也能够啊,侧面的证明我们这个审核服务的准确性,以及我们审核服务的一个可靠性。好了,那啊讲讲完前面的就是我们的一个整个内容审核的服务啊,以及他的一些用法,那肯定也很多小伙伴会关注我们审核服务的一个费用,那这里呢,我简单的讲一下我们的这个费用,比如说像这个图片审核,图片审核的话啊。就是采用这个量计费,也就是啊,每1000张图片,每一每1000次图片的审核啊,我们会去进行一次收费,那费用呢,会啊,通过你调用的量级不同,你调用的越多肯定越便宜,大概是在一块一到一块五,每千次大概是这么一个啊梯度,那视频审核呢,因为视频审里面涉及到了这一个画面的审,那视频的画面我们通常是通过这个的方式,那视频呢,我们是0.1元。
26:29
零一次,然后呢,大家是可以自定义,比如说。视频我可以自己去定义,我去截十张里面的十个画面,还是100个画面,那这样子呢,也是为了让用户能够自己啊可控来控制这个审核成。审核费用进行一个收取。
27:05
那我们频审核呢,则是按时去收费的啊,每小时在这个啊五到之间。那文本呢,我们是按式进行收呢,我们是每1万个字符,我会一条,那每千条大概是在一到两块二之间。还有呢,像文档审核以及网页审核,那这两个审核呢,主要也是涉及到了,呃,里面的一个啊图片以及里面的一个文本的审核,那这里呢,都是用的这个图片审核的费用,以及文本审核的费用。所以这一块呢,其实啊,在费用这一块呢,大家也不用特别的担心啊,因为除了我我们除了这个正常的这个按次,就是按次按量计费以外,我们也提供了这个优惠的资源包,那资源包的折力度也是非常大的,我们的官网上可以直接去进行一个购买。
28:04
好了,那啊我也就不多说了,因为时间关系,那下面呢,啊,让我们的这个啊研发工程师给大家介绍一下我们的一个内容安全的实践啊,来以这个具体的一个场景给大家看一下我们这个内容审核到底是怎么运作的,那这里就。好,那天。来给大家分享一下。嗯,大家好,我是郭天,嗯,是负责内容审核的技术人员,首先感谢木林的精彩讲解,通过林的讲解后,大家对内容安全应该都有一个大致的了解。
29:01
但如何将我们的审核能力应用到各位的产品上,我将从业务和技术角度大家具体讲解一下。这次我们用到的场景是I'm时聊天通讯工具,这是我们公司的一个产品。即时通讯简单来说就是和QQ、微信类似,能够发送文本、图片、音视频等多种内容。但其提供的不是一个聊天软件,而是一种通讯能力。比如说是微博的私信聊天,淘宝中卖家与买家的沟通,都是通信能力的体现。今天的具体实践就是在聊天工具的场景下,对消息内容包括文本、图片、音频、视频这种常见的内容格式进行审核。先来看一下我们的搭建环境。I'm使用的是版和安卓版,我们可以看一下这两个版本之间的差别,最核心的是我们的cos SDK,我们的审核是以接口的形式提供给客户,SDK封装了计算、签名、拼接、请求解析、响应包等很多麻烦的操作,能够更方便的。
30:18
给客户使用,当然SDK封装的不是审核能力,还有其他多种业务接口,感兴趣的可以下来尝试一下。假如我们这是一个相亲平台,在这种公共平台上都是会禁止很多非法操作的,就比如说是打广告,色情图文。所以在发送广告内容时,消息被拦截,无法发送,并给出相应提示。后台人员也可以收到提示,然后去人工处理。禁止打广告,其实就是大家经常遇到的一种场景。当然,审核还包括黄、赌、毒多种审核用途,违法、涉政涉黄是我们审核的重点打击对象。
31:12
嗯,这个是当前场景下的具体审核流程图,包括'终端消息内容回调审核回调违规消息禁止发送以及撤回等多个操作步骤。嗯,可以简单总结为四个步骤,第一步就是设置'消息发送回调。我们可以设置一个回调接口,在消息发送成功之前接收消息内容,然后给出响应来通知I'终端是否发送消息。第二步是拿到消息内容,比如说是文本,文本内容,或者是图片、音频、视频。第三步是对我们的内容进行审核,这是我们的最重点的一步,是拿到审核内容做出相应处理,比如说是文本图片禁止发送,或者是语音、视频等消息进行撤回。
32:13
嗯,在这个页面呢,我们可以。下载M即时通信的DEMO版本,体验一下M的通讯能力。配置回调就是在控制台。右侧的页面我们可以看到有群主回调,群资料修改回调,单聊消息回调,嗯,为了简化流程呢,我们就只设置了单聊消息。之前回。就是私聊,这样我们就能够在消息发送出去之前判断是否违规,然后判断是否发这条消息。但这种也只是针对文本和图片,音频和视频的审核,又是另外一种形式。这里就是两种审核形式,文本、图片可以快速响应结果,属于同步审核,在回调请求响应超时前就可以拿到结果,然后判断是否违规,是否允许发送消息。但是音频和视频的审核时间较长,都属于异不审核。
33:18
就是先提交审核任务,审核完成后会发送审核回调,返回审核结果,所以呢,我们当前的聊天场景下,我们以先发后审的形式处理语音视频消息,就是先允许发送,审核完成后发现违规自动撤回。嗯,我们可以看一下聊天消息的回调内容这个。给出的就是聊天的消内类型,比如说是文本、图片、语音是以及对应的消息内容,如图展示的话是我们的文本内容。其他参数的话,可以拿到消息的发送方、接收方,以及该条消息的唯一标识这个message。
34:08
这三个参数我们会在后面的消息撤回的时候用的。嗯,拿到消息内容之后,可以进行最关键的一步内容审核,这个是SDK文本审核的DEMO。参数有文本内容审核项,就比如说是色情广告,我们可以选择其中一项或多种来。审核越多,成本越高,我们可以审核我们具体需要的某一项。DNA type的话是我们的审核策略是可以定制化客户需求,也可以就走默认策略。最后呢,我们会拿到一个审核结果。这个就是我们的审核结果的一些字段,审核结果有很多字段,包括各个场景的结果分析。
35:06
以及给出一个总的结果。通常呢,我们就只要关心result这个字段就可以了,如果是一的话,就表示命中,说明违规。也可以看分数,这个阶段可以看到它具体有多少分,分数越高的话是说明违规比例越高。如果消息内容违规了,我们在消息回调时给出响应。上面所列的三个字段l code等于一的时候,就表示拒绝发送,这是I'm。设置的响应。用户侧就会提示消息发送失败,也可以自定义消息提示。这里我们要注意的是,回调请求超时时间,不会一味的等待审核结果,比如说是文本图片审核超过了消息回调。
36:01
的超时设定,即便消息违规了也会正常发送,但是这并不意味着我们审核就失败了,只是聊天工具为了保护用户,保证用户的体验,我们可以在后台看到我们的审核结果,然后进行手动撤回。嗯,到这里呢,我们的聊天DEMO搭建,SDK审核消息内容等准备工作已经完成了。我们看一下具体的审核效果,就比如说我们审核的时候开启了枪支检测,就我们可以看左侧这个版的。第一张图已经发出去了,是因为那个超过了设定的超时时间。虽然后台呢,已经拿到了审核规的结果,但还是会发送成功,他也不会一味的让那个用户在那个发送时候一直在等待。然后第二张图呢,枪制图就是属于正常拦截的情况,一般来说呢,文本审核图片文本审核比较快,属于可以正常拦截,有的图片就比较大,或者一些GIF图,动图,或者是网络卡顿之类的情况发生,审核时间就属于略属于正常情况。
37:18
就我们可以看到两张图上可以看到消息内容审核拦截成功,并成功给出提示。这是文本和图片的审核效果。嗯,接下来我们可以看一下语音消息的审核,是异步请求,这个的审核后台呢,是一个简单的。手动写了一个简单的后台,然后我们可以看到发送消息之后。是。我们可以看到消息。发送之后,我们后台就会处于那个审核中的状态,然后我们发现审核完成之后,发现消息违规,然后消息就会自动撤回,我们可以看到那个聊天窗口的上面显示你已撤回一条消息。
38:09
后台其实也可以看到这两种状态。然后。这是I'的提供的回接口,就个就我们才到的接方方,还有那条消息的唯一标识。嗯,我们可以看一下。那个视频审核的具体的动态效果。这里呢,视频会点击发送语音消息。然后消息发送成功,然后后台进行审核,审核完成之后消息自动撤回。我们可以再看一遍。嗯,点击发送语音消息。
39:00
消息发送成功,然后后台正在审核,审核成功发现违规自动撤回。事实上。那个它自动撤回的时间长短,在我们和那个视频的大小,和那个语音的那个时长其实是很有关系的,如果你发送时间文本,或者是一些视频发送过过大的情况下,就会产生很长时间就在处于审核中。接下来呢,我们可以看一下我做的一个简单的一个。那个聊天界面,我们可以实际的感受一下。我们可以打开一个随便登录一个用户。这里我们已经登录一个用户,这是右侧是外部版,左侧是,呃,左侧是外部版,右侧安卓版。
40:01
这里已经登录了一个用户,我们。添加一下这个用户。嗯,我们已经看到我们已经添加用户了,我们可以打个招呼。然后我们已经接收到了这个。这条消息。我们可以看一下我们的审核后台。可以看到我们属于打招呼的,你好,其实是属于正常文本,我们可以发一个。嗯,打广告。这里可以看到视频,不是那个文本消息,打广告的话其实是会被拦截掉的,我们可以看一下审核后台。
41:07
可以看到广告信息呢,已经被发现,然后我们的接收方其实也是没有看到的。没有收到任何消息。然后我们可以发一些正常图片。呃,我们可以看到,我们可以到一些正常的文本消息。然后我们可以看一下。图片消息。这里呢可以提一点,就是我们的控制台可以提供给用户一些自定义的业务相关的非法内容。比如说我们。
42:00
为什么百里守约呢?因为大家都不希望看到他,所以我现在把他送上位,每次呢,发送这条消息的话,其实都会被拦截。这个是我先在我们的控制台增加的自定义词库。嗯,这里可以看到我们确实是拦截到了,我们可以看到我们的审核后台。我们审核后台其实已经拿到了,我们可以看一下审核的具体返回结果。这里的话呢,就是我们看到。我加入的是一个广告的一个关键词,这里我们可以看到,我们确定确实是在这个文本中。我们。捕捉到了百里守约这个违规词汇。
43:05
我们可以再看一下。图片。这个可以。这个图片的话,我们也正常拦截,因为我现在后台的策略里面开启了枪支检测,所以我后台能够捕捉到枪支检,检测到枪支违规,所以其实我们也是可以能够拿到的,而且接收人员也没有。收到条消息。我们可以测一下视频。就还是以关键词为例吧。我们可以看到。视频先发后审,先发送成功,后台正在审核。
44:07
消息已经自动撤回,因为我们后台已经发现审核完成。这就是我们所有的。这里就是我内容审核的所有的内容实践。谢谢大家。接下来的问答环节,我们交给主持人。好的,那这边非常感谢两位讲师的精彩分享,然后通过他们的讲解呢,我们也了解到什么是云上数据的内容,内容审核,然后他们也通过详细的审核案例展示了那个审核效果到底是怎么样的,当然我们也就知道那个就是内容审核的话,主要是过滤一些涉黄涉报以及违违法违规的内容,然后会还给我们一个安全舒心的网络环境,那接下来呢,进入我们的答疑环节,然后今天的问题我看不是很多,基本上问问题的小伙伴都会有奖品吧,然后这边的话,呃,由穆林老师给我们解答一下问题,选三个回答就可以。
45:27
好的,那啊,我来看一下今天小伙伴们提的问题。嗯,首先有一个人问到内容审核都会使用哪些资源包,那这个呢,我们其数据像有提供一个内容审核的资源包,而且啊,而且我们是为了这个用户的方便,我们只提供了一个内容审核的资源包,那这一个内容审核资源包其实里面就涵盖了所有内容审核功能的一个用量,我们通过一些这种。啊,不同的权重啊,来去啊,对这个内容审核的次数进行一个啊划分,所以说呃,大家也不用担心说,诶我买一个包会啊,有这种啊,自己的这种感觉,这种是不存在的。
46:15
好的,那下一个问题,我看一个小伙伴问到文档审核都可以审核什么文档呢?那这里呢,其实啊,我们可以审核的文档涵盖的非常的全,因为我们文档审核呢,使用的是呃,我们数据画像的另一款产品啊,文档转图片的一个产品的功能,我们将这个文档转成图片之后呢,去对这个图片进行一个啊图片内容的审,以及图片中文字的一个审核,那我们PP。
47:07
啊那啊,我看这里给小伙伴问到啊,语音消息的审核会自动识别语音语语言吗?像这种中英日韩语自动识别,那这个呢,其实啊,我们是会自动的识别的,但是我们不会说啊告诉你。这个语言是什么,就我们现在的能力是说啊,比如说你这里面讲到的讲到了日语,那我们的后台呢,其实就会调用这个日语的审核模型,去给你日语的方式去进行这个审核,但是我们只会啊,会把这个审核的结果告诉你这个是违规的还是正常的,但并不会告诉你这一条语言是日语。对,目前的话是这样的。好的,那这边感谢孟林老师的解答,然后刚刚呢,如果是呃,被戳中问题的同学,然后凭借您的问题截图,在我们腾讯云存储公众号下面回复收货地址问题截图,我们将会在一周之内将礼品送到您的手中,然后直播开始前呢,我们也有说是会抽取三位幸运观众的,然后这边的话,我公布一下我们这一期的幸运观众,然后是。
48:24
呃,分别是那个迪奥迪奥娜,山山大王,凯瑞跟小雨这三个人,然后你们呢,也需要将这个就是评论截图以及就是您的收货地址回复到我们腾讯云存储公众号,完了之后我们将尽快将礼品送到您的手中,然后接下来呢,我做一下我们下一期的就是呃预告,就数据向下一期的预告。然后下一期的话,我们讲的是文档服务篇,然后主要是从以下这三个维度来讲,就是文档服务能力介绍,版权保护以及持久化处理这三个方面,然后这个二维码呢,是我们腾讯云存储公众号的二维码,您可以扫码加我,呃,关注我们腾讯云存储公众号,或者是通过搜索的模式去关注都是可以的。
49:20
嗯,好的,那这边的话非常感谢直播间的各位小伙伴,以及感谢我们的讲两位讲师,我们今天的直播的话就到此结束了,谢谢大家。
我来说两句