文本内容安全服务
对文本内容进行检测,识别其中不安全、不适宜的信息,帮助业务有效降低风险内容的传播。
风险识别项 | 风险定义 | 示例场景 |
色情 | 识别性相关的低俗内容,包含性行为描述、性器官描述、色情段子、性暗示词汇等违规内容 | 直播间的色情引流弹幕 社群内发布低俗交友信息 |
暴恐 | 识别暴力恐怖相关内容,包含暴恐行为、血腥描述、恐怖事件、恐怖组织、武器等违规内容 | 社区论坛发布令人不适的血腥虐待文字描述 评论区宣扬恐怖组织头目言论 |
违法 | 识别法律法规禁止的违规内容,包含赌博、毒品、妨碍社会安全秩序及各类黑灰产活动等违规内容 | 社群内发布非法博彩网站链接或信息 聊天群中传播违禁药品的购买渠道 |
谩骂 | 识别侮辱谩骂相关攻击性内容,包含人身攻击、不文明用语、色情粗口、地域歧视、祖安段子等违规内容 | 评论区针对特定用户进行恶毒人身诋毁 直播间对主播进行带有地域偏见的言论攻击 |
广告 | 识别广告营销相关内容,包含个人引流、商业推广、黑灰产宣传、违规营销等违规内容 | 私信中通过隐晦话术引导用户添加第三方社交账号 论坛中发布根治慢性病的民间偏方 |
灌水 | 识别互动场景中无意义、机械重复的内容,包含中文、英文、数字等重复性干扰正常交流的违规内容 | 用户在帖子下回复大量如“123456789”等无逻辑的数字串 互动区内通过脚本发送由大量表情符号混杂标点组成的乱码内容 |
自定义识别 | 支持配置中英文关键词库进行定向匹配,无需训练模型即可适用于个性化识别需求 | 社区评论包含引流至第三方平台的特定关键词 社群内传播根据实时热点紧急配置的自定义敏感词组 |
文本 AI 生成识别服务
识别文本中是否存在 AI 工具生成或篡改的痕迹,适配业界主流模型,帮助业务确认内容的原创性。接口返回包含三种识别等级,相关概念如下:
识别等级 | 风险定义 |
Block | 文本大概率 AI 工具生成或经 AI 大幅改写 |
Review | 存在一定 AI 生成或辅助改写特征,建议人工复审 |
Pass | 文本未检测出明显的 AI 生成特征 |
文本金融大模型审校服务
适配金融行业合规要求的文本检测服务,特点是理解金融行业黑话语义、支持长文本多违规点检测及客服多轮对话合规性检测。服务包含26个合规识别项,以下是其中5个合规识别项的定义及示例:
合规识别项 | 定义 | 示例 |
违规荐股荐基 | 识别直接或暗示性提供具体投资建议、预测确定性走势等违规内容 | 证券直播脚本中直接指导用户“XX 证券目前已底部,建议全仓杀入” 投顾人员在企微对话向客户断言“这只基金下周一定会反弹突破高点” |
暗示内幕背书 | 识别暗示掌握非公开信息、利用监管备案进行误导性增信的行为 | 在新闻通稿中暗示“公司近期重大利好即将释放” 客服回复客户“本项目已在官方报备,安全性等同于政府背书” |
夸张片面宣传 | 识别夸大收益、功能、排名等过度承诺宣传的违规内容 | 在理财产品宣传页中使用“收益稳超银行存款,理财首选,100%保本获利等片面承诺 销售人员向潜在投保人发送“名额仅剩3个,最后两小时封盘,不买错过一个亿” |
确定性宏观预测 | 识别对大盘、板块或行业走势使用绝对化词汇、进行确定性预测的违规内容 | 投顾直播中主播预测 A 股未来3个月必定暴涨 社交媒体发布新能源板块分析文章,表示新能源板块本月必然翻倍,毫无悬念 |
负面评价 | 识别公开渠道恶意贬低、质疑或攻击公共事务、行业环境、监管体系的内容,或传播负面谣言的违规言论 | 投顾人员和客户企业微信对话中表示“ 这些数据都是假的,根本不可信” 投顾直播中主播对监管体系大放厥词 |