本月,北京首次关停涉黄直播平台“夜魅社区”。此前,映客、花椒等在直播、陌陌等平台的数十位主播因涉黄被永久封禁,商业需求激增“鉴黄师”职业,“鉴黄”势在必行。 AI鉴黄效果怎么样,真否能解放鉴黄师? 识别色情、暴恐、时政敏感信息、小广告等违规图片和视频方面都要表现卓越,才能真正解放鉴黄师。 极限元 CEO 雷臻表示:目前直播平台涉黄图像检测的准确率高达99%以上,误报率低于1%,需要客户进行人工复核的比例不超过3%。 识别图像中是否存在人物体征,统计人数;识别图像中人物的性别、年龄区间;识别人物的肤色、肢体器官暴露程度;识别人物的肢体轮廓,分析动作行为;除了图像识别之外,还可以从音频信息中提取关键特征,判断是否存在敏感信息;实时分析弹幕文本内容 事实上,无论是智能鉴黄还是人工鉴黄,其目的都是为了营造一个更健康的网络环境。相对于人工鉴黄耗费大量的人力、财力,以及对员工身心的影响,依托大数据和云计算的智能鉴黄显得更为“现代化”。
使用探探交友软件后,经常能看到一些穿着性感暴露的女性(用户)照片,涉黄用户把招嫖的微信号和QQ号发布在头像和签名上,诱导用户添加。经网友举报后,情况依旧没有得到解决。
2核2G云服务器 每月9.33元起,个人开发者专属3年机 低至2.3折
B站封杀涉黄VR游戏试玩直播 近日,视频网站B站(哔哩哔哩)发布公告封杀包括涉黄的VR试玩直播在内的多项直播内容。 VRPinea独家点评:吓得我赶紧上B站溜了一圈,嗯,你们的VR女友不涉黄!
随着视频互动、语聊交友等场景应用的飞速发展,用户的内容也以多种形态在广泛的传播,如何有效的识别应用中潜在的涉黄、涉暴、低俗等不良内容,已经成为了行业的课题。 音频内容检测 对于开启了音频内容检测服务的客户,TRTC 能够实时自动提取音频内容,并送到天御的音频审核服务进行不良内容鉴定,天御完成审核之后通过回调接口通知客户审核结果。 说话人识别:通过声纹识别判断是否为同一说话人; 4、小语种识别:能够支持对蒙藏维哈朝粤日俄越等语种的识别; 5、敏感词唤醒:支持自定义唤醒词针对高频恶意音频进行快速打击识别; 6、音转文识别:将音频转换成文本之后对识别文本恶意 视频内容检测 对于开启了视频内容检测服务的客户,TRTC 通过旁路直播功能将视频流推到云直播服务,云直播从视频流中定期截取图片,并将截取的图片送给天御的图像审核服务进行不良内容鉴定,天御完成审核之后通过回调接口通知客户审核结果 如何接入视频鉴黄 依托云直播的能力,在实时音视频控制台开启旁路直播后可对实时视频流进行鉴黄处理。视频鉴黄功能默认关闭,可登录云直播控制台开启,接入详情请点击“阅读原文”。
对于教学中裸露身体的场景,COS内容审核支持根据审核分数进行灵活配置,控制涉黄尺度。此外,COS还拥有广告审核的能力,VIPKID的存量教学视频中如果有其他厂商的logo,则会自动替换。 ? 如上图,是VIPKID使用内容审核的应用流程:学生在直播上课时,直播数据传输到VIPKID的服务器,VIPKID将直播的视频进行截帧传给COS,COS为其进行涉黄、涉政、广告的审核,审核完后将数据传输给 图片识别场景包括: 色情:识别多种涉黄违规类型的图片,如色情漫画、涉黄图片等 广告:识别多种形式的广告图片,包括网络小广告、微商商品图片、招嫖广告等 违禁:识别多种违法违规内容,包括抽烟吸毒、赌博、打架斗殴等 文本审核 采用前沿的自然语言处理算法,结合海量的敏感关键词库进行建模,并配置有多种预处理和匹配识别规则,快速准确识别各种变形文本,例如拆分字、形似字、音似字、带有干扰符号的句子、有歧义的短语,可有效过滤违规数据 ,打造快速、高质、稳定文本审核服务。
敏感词检测API - 私有化部署提供文本识别、智能鉴黄、敏感词过滤、涉政检测等服务,可部署至「本地服务器」或「专有云服务器」,保障数据私密性,提供一键启动软件部署包私有化。 简介敏感词库从760000词组中整理出来,基于NLP算法检测支持Windows、MacOs、Linux等64位主流系统可以部署在本地服务器,也可以部署至阿里云、腾讯云、华为云、百度云等云服务器通过下载部署包 ,即可一键启动私有化的"敏感词检测 API服务"自动云更新最新词库支持http json方式或grpc方式查询单服务参考查询效率70000次/分钟,同时支持并行服务按需自定义添加文本白名单/黑名单服务运行内存 65M左右,非常轻便应用场景用户昵称、聊天消息、直播弹幕、评论留言、用户简介、商品详情、创作文章等内容合规检测过滤演示地址坚果墙在线敏感词检测服务下载地址https://github.com/bosnzt wordscheck快速接入文档文档地址敏感词分类色情:色情传播、x用品、av女优、色情描写、x器官、x行为、色情行为政治:领导人、官员、政党、国家机关、反动言论、邪教、分裂组织、宗教暴恐违禁:枪支弹药、警用军用、涉黑涉恶
网站被封禁有很多原因,其中最常见的就是网站内容违规,即网页包含了涉黄、广告等违法违规的内容,那么如何有效管理网站内容,防止网站被封呢? 文档等静态资源进行多场景的审核,从而有效地识别并冻结色情低俗、违法违规、恶心反感等违禁内容,防患于未然,这样就再也不用担心你的网站突然被封啦~ 静态资源审核 静态资源审核可以对媒体库中的图片、视频、音频、文档进行审核,识别并冻结涉黄 内容审核服务提供了以下两种使用方法,可以覆盖不同的使用场景: 自动审核 配置自动审核,可以自动检测存储桶中新上传的文件,并支持自动冻结(禁止公有访问)已检测的违规内容。 上述两种审核配置都支持用户自定义审核策略,通过设置自定义策略可以定制涉黄涉政等个性化场景的审核;审核后支持按照指定的分数范围进行冻结,智能机审+精确人审的方式帮你有效避免违法内容的传播;审核结果可以通过配置的回调链接返回给用户 网页审核支持对网页文件进行自动检测,从 OCR 文本识别、物体检测(实体、广告台标、二维码等)、图像识别几个维度,通过深度学习技术,识别网页中的违规内容。
记者调查发现,此类APP确有相当数量涉黄,把网络课堂变成了“污秽温床”。 此前,新浪微博有大V发布截图,称APP“小猿搜题”涉黄。随后,“小猿搜题”发布声明称,这是另一个APP“作业帮”构陷,双方由此互撕并对簿公堂。 APP涉黄,最忧心的还是家长。 记者从安卓、苹果等手机操作平台的应用商店下载了20余款学习类APP,发现其中近1/4存在数量不等的涉黄内容,尤其是一些互动讨论版块,相当程度上已沦为“黄泛区”。 在“猿题库”APP的讨论区,一则感恩节话题“今年你吃鸡了吗”引来众多跟帖,其中不乏涉黄评论。 而在“阿凡题”APP的讨论区,记者随机点击几条普通帖文,也发现评论内容五花八门,且不时出现“可怜身上衣正单,宾馆之中男女欢”等涉黄言论. “黄”从何来?
目录 文本检测概念初识 CTPN总体结构 特殊的anchor 双向LSTM RPN层 NMS 文本线构造算法 文本框矫正 损失函数 效果图 参考 文本检测概念初识 OCR(光学字符识别)是CV一个重要的研究领域 ,OCR分成文本检测和文本识别两个步骤,其中文本准确检测的困难性又是OCR中最难的一环,而本文介绍的CTPN则是文本检测中的一个里程碑的模型。 文本检测有别于一般的目标检测,区别有以下几种:(1)一般的目标检测的每个目标一般是孤立的,所以每个目标的边界框都很明确,而对于文本检测中边界其实没有那么容易界定,因为文本(单词)其实是一个序列,在图像中每个单词中间是有空格的 (2)文本是一个序列,除去空间特征它还具有很重要的序列特征,它的上下文的序列信息对我们检测文本是有帮助的,而传统的目标检测提取的都是空间特征,自然效果不好。 效果图 这是去年做的银行卡号识别项目的效果图,可以看出CTPN对这种横向的文字检测效果还是很好的: ? 对于场景中的文本检测效果也是不错: ?
第三步,因为文本信息的特殊性质,需要进行行列分割,对单个字符,或者是连续几个字符进行检测。 第四步,将分割后的字符图像导入识别模型中进行处理,进而得到原图中的字符信息。 Text Proposal Network)方法就是在场景中提取文字的一个效果较好的算法,能将自然环境中的文本信息位置加以检测。 所以检测的过程中 不妨引入一个类似数学上“微分”的思想,如下图5所示,先检测一个个小的、固定宽度的文本段。在后处理部分再将这些小文本段连接起来,得到文本行。 对比图如下,红色框是使用了side-refinement的,而黄色框是没有使用side-refinement方法的结果: 纵观整个流程,该方法的最大两点也是在于将RNN引入了文本检测之中,同时将待检测的结果利用 “微分”的思路来减少误差,使用固定宽度的anchor来检测分割成许多块的proposal.最后合并之后的序列就是我们需要检测的文本区域。
EAST由旷世科技于2017年发表在CVPR的关于自然场景文本检测的一篇文章。EAST是用来解决多方向文本检测的问题的一种思路。其核心思想体现在了以下几点。 采用了FCN这样一种多尺度融合的方法来进行特征的抽取,用于后续的像素级的文本区域的预测。 EAST能够直接打到倾斜文本检测的目的,能够完成自然场景下文本检测的任务。 支持旋转矩形框、任意四边形两种文本区域的标注形式。换句话说EAST在回归文本区域的时候包括了旋转矩形框、矩形框加旋转角或者任意四边形这样两种不同的区域检测的过程。 由于考虑了方向信息,可以检测出各个方向的文本。 由于感受野的问题,对较长的文本检测效果欠佳。 EAST模型网络结构 在上图中我们可以看到它主要采用了FPN的思想来提取多尺度的融合特征。 EAST模型效果图 针对于自然场景下的文本图片,EAST能够检测出不同方向,不同角度,不同背景,不同环境,不同字体等等各种条件下的文本区域。
PS:近期腾讯云COS对象存储新增对网页内容安全检测能力,实现对网页全部检查,赶快来对接测试下吧! 提交网页审核任务 功能描述 本接口用于提交一个网页审核任务。 该接口支持情况如下:: 支持对网页文件进行自动检测,从 OCR 文本识别、物体检测(实体、广告台标、二维码等)、图像识别几个维度,通过深度学习技术,识别网页中的违规内容。 网页文本审核:将网页内的文本分离出来进行文本审核,审核费用与文本审核一致。 每个审核场景单独计费,例如您选择审核涉黄、广告两种场景,则审核1个网页,计2次审核费用。 调用接口会产生 图片审核费用、文本审核费用 和 COS 请求费用。 String 是 Container 类型 Conf 的具体数据描述如下: 节点名称(关键字) 父节点 描述 类型 是否必选 DetectType Request.Conf 审核的场景类型,有效值:Porn(涉黄
部分平台由于审核人力和技术资源有限,短时间内容易漏过对某些主播视频内容分享的检测,造成平台口碑下降,对观众造成不良影响,甚至触犯法律。 腾讯云天御内容安全解决方案不仅对涉黄、敏感画面有着99%的识别准确率,若遇上主播们通过“声情并茂”的表演获利,发出那羞羞的声音,天御最新的音频识别技术能结合声纹、违禁词汇,来判断出色情娇喘声以及敏感言论 接入腾讯云天御的服务后,天御为「香肠派对」识别出实时语音里的涉黄内容,以及谩骂等。 03 小程序平台 除了常见的直播平台、游戏平台,新兴的小程序平台也被违法的内容制造者盯上,依赖于平台的高互动性,他们开始瞄准这里生产高危内容吸引眼球,其中不乏涉黄、暴力、血腥等各种违法内容。 ,可能存在违法图片上传风险,有可能涉黄、涉敏等,毕竟好赚的钱大都违法。
2、覆盖全面 支持图片、音频、语音、文本等多种媒体数据的审核,覆盖各个行业上百种违规类型,具有模型丰富的机审和专业的人工复审团队。 图片识别场景包括: 色情:识别多种涉黄违规类型的图片,如色情漫画、涉黄图片等 广告:识别多种形式的广告图片,包括网络小广告、微商商品图片、招嫖广告等 违禁:识别多种违法违规内容,包括抽烟吸毒、赌博、打架斗殴等 4、文本审核 采用前沿的自然语言处理算法,结合海量的敏感关键词库进行建模,并配置有多种预处理和匹配识别规则,快速准确识别各种变形文本,例如拆分字、形似字、音似字、带有干扰符号的句子、有歧义的短语,可有效过滤违规数据 ,打造快速、高质、稳定文本审核服务。 3、通过API调用 通过调用内容审核的API接口,用户可以实现对存储桶内指定的文件进行涉黄、广告引导等内容的检测。
再次注意的是也需要创建鉴黄回调模板以及规则,鉴黄结果以 JSON 格式存放在 HTTP Body 中,您可以只通过 type 字段来判断直播是否涉黄。 由于检测系统判定无法做到100%准确率,会有少量图片会识别成疑似色情或识别结果不对,建议可以进行人工二次确认。 ,涉政、涉暴等 常见问题: 在了解完直播审核的使用之后,我们来看下常见的问题: Q:开通了截图功能,但是cos未收到截图 A:可以检查cos是否赋予了写权限,以及截图模板里的region和bucket是否正确 ,发现涉黄违规会进行账号封停操作,封停之后需要再次直播,需要签订协议开通,保证后续不再进行违规直播 Q:开通鉴黄后如何收费 A:需要收截图到cos存储费用和鉴黄费用 Q:云直播鉴黄功能,需确认是否可以对弹幕敏感内容进行处理 A:目前直播仅对内容进行鉴黄,无法对弹幕进行处理 Q:直播 需确定是否有产品能在直播中识别文字 A:可以采用mps产品的直播流审核 Q:使用云直播 调用了直播鉴黄 如果有检测到违规的图片 如何设置能够操作一键结束直播
项目相关代码 和预训练模型 、数据集 获取: 关注微信公众号 datayx 然后回复 文本检测 即可获取。
(摘自arxiv: 1512.02325, “SSD: Single Shot MultiBox Detector”) 文本检测模型 文本检测模型的目标是从图片中尽可能准确地找出文字所在区域。 ·WordSup方案中,采用半监督学习策略,用单词级标注数据来训练字符级文本检测模型。 下面用近年来出现的多个模型案例,介绍如何应用上述各方法提升图像文本检测的效果。 CTPN模型 CTPN是目前流传最广、影响最大的开源文本检测模型,可以检测水平或微斜的文本行。文本行可以被看成一个字符sequence,而不是一般物体检测中单个独立的目标。 ,其训练出的模型对倾斜文本块检测效果更好。 根据开源工程中预训练模型的测试,该模型检测英文单词效果较好、检测中文长文本行效果欠佳。或许,根据中文数据特点进行针对性训练后,检测效果还有提升空间。
文本检测模型 文本检测模型的目标是从图片中尽可能准确地找出文字所在区域。 ·WordSup方案中,采用半监督学习策略,用单词级标注数据来训练字符级文本检测模型。 下面用近年来出现的多个模型案例,介绍如何应用上述各方法提升图像文本检测的效果。 CTPN模型 CTPN是目前流传最广、影响最大的开源文本检测模型,可以检测水平或微斜的文本行。文本行可以被看成一个字符sequence,而不是一般物体检测中单个独立的目标。 根据开源工程中预训练模型的测试,该模型检测英文单词效果较好、检测中文长文本行效果欠佳。或许,根据中文数据特点进行针对性训练后,检测效果还有提升空间。 相比于CTPN等文本检测模型,SegLink的图片处理速度快很多。 如下图所示,该模型能够同时从6种尺度的特征图中检测小文字块。
文本内容安全(Text Moderation System,TMS)服务使用了深度学习技术,可有效识别涉黄、涉政、涉恐等有害内容,支持用户配置词库,打击自定义的违规文本。通过 API 接口,能检测内容的危险等级,对于高危部分直接过滤,可疑部分人工复审,从而节省审核人力,释放业务风险。
扫码关注腾讯云开发者
领取腾讯云代金券