控制台指南

最佳实践

开发者指南

API 文档

SDK 文档

设置文本审核

最近更新时间:2022-05-10 11:03:23

简介

本文介绍如何通过控制台使用对象存储(Cloud Object Storage,COS)的文本审核功能。该功能可对文本内容进行安全审核,检测场景包括鉴黄违法违规检测广告检测谩骂检测

开启文本审核功能后,该存储桶中新增的文本文件将在上传时自动进行检测,并支持自动冻结(禁止公有读访问)已检测的违规内容。

您也可以对 COS 中的历史文本进行扫描审核,详情请参见 设置历史数据审核任务

说明:

  • 文本审核是付费服务,由数据万象收取,详细的计费说明请参见 内容审核费用
  • 文本审核按条数计费,每10000个 utf8 编码字符计算为一条,不足1条按1条计算。
  • 当前文本审核功能支持 TXT 格式文件,支持空后缀,且文件大小不超过1MB。
  • 文本审核功能可识别普通话、英语。

操作步骤

  1. 登录 对象存储控制台
  2. 在左侧导航栏中,选择存储桶列表,进入存储桶管理页面。
  3. 找到需要操作的存储桶,单击该存储桶名称,进入存储桶配置页面。
  4. 在左侧导航栏中,选择内容审核 > 自动审核配置,单击文本审核
  5. 单击添加文本自动审核配置,进入文本审核配置页面,并按照如下配置项说明进行配置:
    • 审核范围:可选择审核的范围为整个存储桶或指定范围。
      • 审核路径:当选择指定范围,则填写您希望审核文本所在的路径。
        示例1:如您需要审核指定目录 test 内的文件,则需要填写指定前缀为 test/。
        示例2:如您需要审核指定前缀为123的文件,则需要填写指定前缀为123。
        注意:

        您可以添加多条审核配置,但审核路径不能重复或存在包含关系。例如您已经配置了审核整个存储桶,则不能再添加针对存储桶内某个路径的审核。

    • 审核后缀:目前支持 txt、html 格式和空后缀。
    • 选择审核策略:请选择您配置的审核策略,不同审核策略对应不同的策略分类,您可以通过自定义策略定制个性化场景审核。支持审核涉黄、违法违规、广告审核场景,可勾选一种或多种检测场景。您可以前往 设置审核策略 查看如何配置审核策略。
    • 审核场景:支持审核涉黄、违法违规、广告审核、谩骂场景,可勾选一种或多种检测场景。
    • 敏感文件冻结:您可以选择开启敏感文件冻结服务,开启后将授权数据万象对相应类型文件进行自动机审冻结或人工审核冻结,从而禁止公有读访问已检测的违规内容。
    • 冻结方式:当前支持以下两种冻结方式。
      • 将文件变为私有读:通过将文件的访问权限修改为私有读(private),达到文件冻结的效果。使用这种方式,再次访问文件将会返回“403”状态码,表示无权访问文件。有关文件权限的信息,可参见 文件 ACL 概述
      • 将文件转移到备份目录:通过将文件移动到备份文件目录,达到文件冻结的效果。使用这种方式,再次访问文件将会返回“404”状态码,表示文件不存在。备份目录由后台自动生成,位于当前存储桶下的路径为:audit_freeze_backup/increment_audit。
    • 冻结类型: 您可指定冻结类型,同时选择冻结机制。默认选择机审自动冻结,若您选择人工审核冻结,则天御专业团队将会对机审结果为敏感的文本文件进行二次复检。
      注意:

      人工审核冻结价格为70元/千次,每10000个 utf8 编码字符计算为一条,不足1条按1条计算,详情请查看 内容审核费用

    • 回调设置:开启回调后将把相应的审核结果反馈给您。您需选择回调的审核类型、回调内容,同时设置回调 URL。回调详情请查看 回调内容
  6. 配置完成后,单击保存即可启用该功能,后续将对您新上传的文本进行审核。

回调内容

开启回调后,系统会发送一份默认回调信息至您设置的回调地址,以检测回调地址是否能够正常接收回调信息。默认回调信息如下:

{
   "code": 0,
   "data": {
       "forbidden_status": 0,
       "porn_info": {
           "hit_flag": 0,
           "label": "",
           "count": 9
       },
       "result": 0,
       "trace_id": "test_trace_id",
       "url": "test_text"
   },
   "message": "Test request when setting callback url"
}

说明:

  • 对于腾讯云冻结的文本文件,如果勾选了回调,此类文本也会返回给您,但是无法进行公有读访问。
  • 回调 URL 需以 HTTP 或 HTTPS 开头且默认返回200正确码才可使用,请在保存设置前进行检查。
  • 回调 URL 预计30分钟后生效。

回调 URL 设置生效后,当发现上传的文本文件符合审核规则,系统会默认回调该 URL,并向其发送一个标准的 HTTP POST 通知消息。HTTP 包信息如下表:

参数名称 描述 类型 是否必选
forbidden_status 冻结状态,0表示正常,1表示文本已被冻结 Int
porn_info 涉黄信息,包括是否命中、审核分数及详细标签等 json
ads_info 广告引导信息,包括是否命中、审核分数及详细标签等 json
result 供参考的识别结果,0为确认正常,1为确认敏感,2为疑似敏感 Int
trace_id 提交的审核任务的 jobid String
url 上传后的资源 URL,包括域名 String
illegal_info 违法信息,包括是否命中、审核分数及详细标签等 json
abuse_info 谩骂信息,包括是否命中、审核分数及详细标签等 json

审核信息(porn_info、ads_info、illegal_info 和 abuse_info)中包含如下内容:

参数名称 描述 类型 是否必选
hit_flag 是否命中该审核分类 Int
label 识别出的文本标签 String
count 文本文件回调参数,命中该审核分类的文本条数 Int

以下为回调内容示例:

{    
    "code":0,
       "message":"success",
       "data":{
          "url":"xxxxxxxxxxxxxxx",
          "result":1,
          "forbidden_status":1,
          "trace_id":"xxxxxxxxxxxxxxx",
          "porn_info":{
              "hit_flag":1,
              "label":"淫秽",
              "count":3
           },
    },
}

目录