00:00
各位直播间的小伙伴大家晚上好,欢迎来到腾讯云存储知识小课堂数据万象应用叔叔直播,本期是我们数据万象应用叔叔的第七期,也是最后一期,我们邀请到了腾讯云存储。研发工程师许坚老师,他将跟我们分享数据。AR智能存储各位直播间的小伙伴,大家晚上好。相关的内容,然后这边的话,嗯。然后本次分享的主要内容的话,主要介绍支撑数据万象多个产品体系的AR算法能力,揭秘深度神经网、多么多模态技术等AI底层技术原理,探讨其给数据万象产品引入的技术优势,以及如何打造先进的云上智能化解决方案。在直播的过程中,如果有什么问题可以打在评论区我们的老我们的讲师在直播结束后会做相应的解答,如果有幸被抽中的话,将会获得精美礼品一份,好的,接下来我们把时间交给许建老师,由他给我们做分享。
01:11
嗯,大家好,我是来自腾讯云存储产品中心数据万象财政组建,呃,目前的话呢,我在负责数据万象的AI算法模型研究,以及算法中台引擎的开发对接等系列工作,那么今天的话呢,将由我为大家带来数据万象应用最后一期AI算法技术密的一个讲解和交流。呃,我想大家听完前几期我们呃之前同学对数据万象多个产品的一些功能特点,业务流程上的一些讲解培训之后,呃,应该也会对万象产品背后和底层的一些AI技术能力有产生一些好奇,或者继续进一步探索的一个兴趣,那么今天我将和大家一起来探讨交流一下万象产品背后的一个AI技术,尤其是近些年非常火热的多模态技术在万象产品当中的一个落地和应用。
02:00
那么本次的讲解交流的主题呢?我分为以下三个部分,呃,首先第一个是AI技术概览,呃,通过带大家再次回顾一下万象的一个产品矩阵和核心的业务功能模块,呃,由此呢,让大家认识一下这些产品业务背后的一个AI能力模型。嗯,第二部分的话呢,是一个A算法技术揭秘,呃,从算法的技术角度为大家去讲解,介绍一下这些A算法模型背后的一个技术原理,也也相当于抛砖引玉,大家带大家呢,对这些嗯算法模型或者是模型网络也好有一个初步的一个认识。引起大家进一步探索的一个兴趣,那第三部分的话呢,再次大家介绍一下万象的智能化这个方案。嗯,首先是第一部分AI能力概览。呃,这里呢,再再次带大家回顾一下数据万象的一个产品定位,那么数据万象的话呢,是一个专注于数据处理服务的产品,提供图片处理、内容审核、内容识别、媒体处理、文档处理等产品类的多媒体数据处理能力。
03:03
呃结合腾讯云支储,也就是大家熟知的cos,为客户提供一个一体化的云上数据处理解决方案,呃满足客户呃多种场景维度下的一个需求,那么呃的一个优势的话呢,首先它是基于我们的讯对象存储cos构建的,全面集成了cos的API,基于对象存储的cos实现一个数据处理,无需接入和理解成本,实现一个上传自动触发结果回调。呃,一键的一个配置,配置上对来说更加的高效和便捷,第二的话呢,是功能开关的风镜,呃呃,回调上均可以实现一个可视化的一个配置,以及参数的一个呃,可灵活灵活的一个配置,最后一个的话呢,就是实现了存储与处理,数据处理的一个闭环。真正的一个存算一体化,可以灵活的对存量或者增量的数据进行处理,节省了大量的带宽费用,优化了处理链路和极大的缩短了我们的一个处理延时。
04:00
嗯。呃,这也的话呢,是我们展示的万象产品的一个能力矩阵,在图片处理产品当中的话呢,除了一些像图片缩放,图片的裁剪、水印等一些基础处理,以及各种图像的遗呃,图片的压缩算法以及版权保护之外的话呢,我们还集成对对外提供了一些像图片标签,图片质量,人体人脸的检测,引搜索、OCR等一些AI识别能力。第二部分的话,内容审核产品,我们在支持了图片,音频、视频,文本、文档,网页等多种模态的数据的审核处理之外的话呢,也相应的精巧设计的一个多层级力度的一个审核模型标签体系,并对应的构建的呃,对应的标签所对应的AI模型,AI审核模型能力,比如说像对色情,性感,政治敏感,营销暴力。腹部等一系列这种审核标签的一个模型。那同样,呃,那相应的话呢,在这些模型基础上,我们也设计了一些呃,单模型多模型的串,或者多模型并行,以及多个模型的串并的混合的这种处理链路方案。
05:11
呃,在音视频的处理产品当中的话呢,我们除了基础的一些音视频的转码编辑能力,像视频的拼接、转动图,降噪均衡之外的话呢,也具备了AI能力加持的一些智能封面,精彩的精彩集锦,视频的DNA,视频检索,画质增强,呃,人生分离,语音识别等等一些AI能力。那文档处理产品除了基础的文档的转码预览,转换预览,呃,叠压使用之外的话呢,也具备一个通用的OCR能力和定制文档的一个OCR能力,涉及到一些像文本的文档的版式分析啊,关键信息提取等AI算法模型。那么在这张PPT里面可以就是呃呃呃,传览一下我们在内容识别所具备的一些AI能力,像图片标签的话呢,可以广泛应用于像相册分类、内容推荐、视频打标等场景,那人脸检测的话呢,可以用于一些人脸定位啊,美妆美颜啊,以及人流的一些技术等场景。
06:11
语音的arts就是语音识别,以及那个文本转语音,可用一些呼叫中心的质检字母生成、客服中心等场景,图片的OCR话呢就是更多的用于一些文档的电子化扫描,呃抓呃拍照等场景。那下面这些图的话呢,是我们在一些这种图片的图片或视频的一些,呃,视频打标签,以及人脸的人脸属性,人脸检测和关键点上的一些应用。那么接下来第二部分的话呢,我将借助万象部分产品的一些重点功能,呃,在这个基础上呢,为大家去展开其背后的一些AI算法技术的一些原理,呃,在这里因为也是时间有限,我们在技术层面的介绍的话呢,更倾向于我之前说的一个抛砖引玉的给大家做一些更偏向于入门的一些介绍和讲解,给带带带来一个更直观的一个印象,如果大家对某项技术更深层次的一些原理比较感兴趣的话呢,也欢迎后续我们再继续展开深入的一个讨论和交流。
07:15
呃,首先第一部分还是我们图像处理产品当中一个图片压缩的一个技术,那这张PPT里边的话呢,我为大家就是展示了我们目前具备的T及web p EF的压缩的一部分能力。那么呃呃,接下来我更想重点的去介绍一下我们最我们那个呃,最近推出的A图片的一个压缩算法。Avf呢是一种来源于AV的图像格式,V是一种AV,是一种新兴的一个视频压缩技术,而avf呢是其中的一个关键帧的图片处理方式。那在这个呃我们呃本身腾讯内部的编码,很多编码团队在AF的压缩算法上面做了大量的一个优化工作,那么呃,我们目前的AF呢,比P压缩能够节省30%。
08:06
耗时的话呢,仅增加呃48%对,在这个在场指标上呢,是原优于竞品,并且支持我们云上一些超大图片的编码,HDR编码,以及阿尔法透明通道的一些编码需求。呃,接下来我想介绍的就是我们的一个图片处理的中的一个盲水印的功能,呃,盲水印功能的话呢,是腾讯云,呃呃数据万象提供的一个特有水印模式,通过该功能的话呢,我可以将水印以一个不可见的形式迁移到源图信息当中,并不会对源图质量产生太大的影响。在图片被盗取之后的话呢,可以针对疑似被盗取的资源进行毛林的提取,验证图片的一个版权归属。呃,左边这张图的话呢,就是我们做盲水印的一个,呃,基础版本的一个处理流程,这个呃,可以看到它主要是分了两个阶段,一个是水印的添加,这个时候我们需要对原图的话呢,做一个频域转换,转到频域上它的频率信息,那同样的话呢,我们对对水添加的这张水印图片,以我们腾讯云的一个logo的一个小图为例,我们通过一些我们。
09:12
特定的一些编码规则去,呃对这张图片做一个编码,然后也同样的做一个平移转换,转换到水印的一个平移信息,将这个水印的频率信息的话呢,和源头频移信息进行一种叠加,那么我们在这个叠加过程当中的话呢,是会尽量的考虑到我们叠加完之后,经过频逆变化之后生成的,呃叠加水印之后的图片,不管是人的人眼主观上对质量画面内容的一个感知上,还是一些类似像S这些客观指标上都没有,呃下降就是保证我们的维持我们源头的一个图片质量。那呃,这是我们的水印添加,那水印添加完之后的话呢,如果就是客户对呃这张他的这张售我们叠加完,叠加完水印的一张图片,呃可能会呃有被侵权的一些呃风险的时候呢,可以进入第二阶段水印提取,那么我们将待检测的这张图片,那这张图片的话呢,很有可能经过了一些被盗用之后的一些攻击,比如说添加一些噪声,或者是做做被图片的能力,做一些平滑的一些处理。
10:20
或者是引入一些压缩的一些噪声,像常用的它可能会去转变图片的格式,或者对图片的尺寸做一些放大缩小的一些变化,但也有可能会对图片做一些像旋转、裁剪黑边等一些添加黑边的一些编辑,或者是一些更高级的一些滤镜啊,调色这样一些特效等等。那么这些呃有可能的一些攻击手段叠到原图之后的话呢,其实我们在呃水晶提取呢,也是可以去有效的去对抗这些的一些攻击或者篡改的手段的,那水性的流程的话呢,还是对检测图片做一个相应的平均转换,也是转换到平均信息之后,我们会通过对原图做一个参考图,做类似的一个变化,经过一个剪辑过一个就是反叠加,或者是一个呃相减的一个一个处理,那处理完之后的话呢,我们会得到经过特殊规则编码之后的我们原文注入的一个水印图片,那经过相对应的一个非对称解码,我们就能获得我们原始嵌入的那张水印的一个图片。
11:18
然后来证明我们这张图片的一个原始的一个版权归属。啊,这是我们的一个视频老鼠音的一个技术介绍。下一页的话呢,是我们在音视频处理的一个极速高清转码能力的一个介绍,呃极速高清呃是我们腾讯云基于深度学习算法,通过优化视频的压缩时真以及纹理的模式信息,呃提供的带有画质增强,画质修复,高质量编码等的一个等等转码功能,为用户带来一个低带宽的一个高清视频,低噪点的视频,超高帧率的一个视频体验,那相对开源的编码呃算法的话呢,同等的一个画呃同等画质下,我们能够节省将近20%,最高的40%的一个带宽。
12:03
那下面两张图的话呢,为大家展示呢,就是经过我们极速高清转码前后原始的原片视频和我们转码后的视频,在一些画面的一些细节,清晰度或者是一些力度等一些呃呃一些指标上的一个对比,可以很直观的看到在呃这些呃转码后的图片上,转码后的这种视频上面一些文字啊,或者是一些呃墙,或者是车身上的一些纹理,得到了得到了更好的一个加强。那么解速高清这块呢,我呃想挑出来重点为大家去呃介绍的就是它的一个HDR转DRR的一个呃一个一个一个feature一个一个呃一个产品功能点,那么我想大家也知道就是这种4K呃或者是高清的这种HDR视频的话呢,也是目前的一个趋势,那么通过更高的一个动态范围和更宽的一个色域的话呢,一方面它能够更真实的还原一个现实世界的一个现实世界的一个色彩,或是另外一块呢,呃,它也可以塑造出更震撼的一个影视特效,从而让用户能够获得更好的一个视觉体验。
13:11
目前市面上随处可见支持HDR的这种终端的一个屏幕或者终端显示设备,呃,还是非常多的,呃,但但相对来说HDR的一些影视资源或者视影资源来说,占比却相对比较偏少,那么目前我们所接触到的一些这种。视频短视频制作,或者是一些自媒体的一些客户的话呢,也是提到了很多这种呃HDRR素材转CR的一个需求。那么我们组合了多种AI的一个图像修复算法,实现了一个SR视频呃作作为输入,然后能够转出为HDRR高质量视频的一个一个产品亮点。那么首先我们就是大概也了解一下,就是DRR和HDR的一个制作的一个流程,嗯,那么像这张PPT里边左上角这个图所展示主要包括就是高动态的真实场景会被SR的相机或处理输出该场景下较为低动态范围的一个数字信号,在经过一些色域变化啊,光电转化等等一些量化操作,得到SR标准下的一个色下的一个图片。
14:11
那么其实这两这呃,左上角这张流程图里边在显示的一些环节的话呢,都会带来一些图像信息的一些损失和破坏,那么HDRR相应的它的一个录制制作过程和SCR视频相比的话呢,它所使用的一个技术站能够使得HR的视频在几乎每个制作环节上,它的一个信息损失都会小于CR视频。所以在嗯,我们做SCR视频重建CR视频的时候,首先会对SR视频SCR的视频做一个该流程的一个逆变换操作,逆逆向操作,然后辅助以适当的一个修复行业,然后再执行一遍系统的一个制作过程,这是我们大致的一个技术原理。嗯,这张PPT的右边的话呢,大家可以看一下,就是我们同样的R的一个,就是呃,一张同样场景下视角下拍摄到的一张图片,在它的一些这种,呃阳光的这种播报啊,或者是一些性质这种草地的一些节子方面,相对它那个图片还是有很大的一个劣势的。
15:13
那么我们呃,这块就是这个高清所做的一个HDR转SR的一个整体的一个流程的话呢,就是PPT右上角这个大致的一个流程图,这边就做了一些简化,我们主要关注的还是一个核心处理模块里边所做的一些密色调的一些映射啊,色域校校准啊,去噪,超分修复等等这些一些画质增强的一些算法的一个组合。那么呃就是我们展开来介绍的话呢,从呃就是逆逆色调的一个映射来说,呃从低动态的一个范围到高动态的范围的还原的话呢,称之为逆色调映射,那么极速高清的话呢,这个技术也是借鉴了我们学术上学术界已知的一些算法。结合每一帧图片全局的亮度信息、统一信息及每个像素点盈异的这种局部信息来设计实现了自己的色调映射算法。
16:04
呃,那么色域校准这块的话呢,我们都知道,就是HR一个主要的特征的话呢,就是它有很宽的一个色域范围,呃,它所使用的色域的话呢,更宽的一个BT2020的色域呢,能够表达出更丰富的一个色彩,所以色域校准可以指的是呃,我们从SDRR的一个窄色域到HDRR的一个宽色映射过程,那么在一些相关的一些这种视频标准协议下的话呢,我们可以很呃就是获取,获取到它的一个这种。思维校准一个转换矩阵。那么去噪超分修复的话呢,都是我们基于深度学习去对我们SR视频转TR之后产生的一些。细节的一些丢失啊,或者引入的一些噪声,像一些毛色点啊,阵灵啊,为影等等一些情况,以及这种因为用HDR视频,它用高比特的位去显示这种色阶的量化,那么这种高比特位,呃,从低比特位到高比特位的一个量化色阶的话呢,也会引入一些这种色阶缺失啊,这种带状效应。
17:04
那最后一点超分的话呢,也是我们就是去修复这个转化成DRHHDR视频的一部分。呃,它因为HRHDRR的这种视频大部分是跟这种2K4K这种高清率去做一些,所以我们一般的情况下对SR视频做一些HR转换之后的话呢,会对他最后做一些超分的一些处理。来去丰富或者加强它的一些细节。呃,可以看到这张PPT下面的话呢,展示一下我们在这张H的呃这张那个HR图上,我们做了一些HR变换之后,相对就是普通下的普通的这种SR转SR的这种变化呢,我们在呃最左边这张,我们就是高清转到SR的这张图片,在一些色彩的这种动态范围啊,或者色彩还原度饱和度上,相对右最右边这张图还是有一个很强的一个优势的。嗯。
18:00
呃,接下来是介绍一下我们数据完项内容审核这块,内容审核产品它所背后背后的,呃,它的一些这个AI模型算法,呃内容审核这块呢,我们目前主要是采用了前前沿的一些图像识别,或者是和目标检测等等一些一系列的算法,结合海量的违规数据进行训练建模,对用户上传的这种违规图片的内容呢,进行安全的审核服务过滤的内容的话呢,包括了像涉防涉政涉报广告与违法违规等等,能够做到准确率高召高召回,高准确率以多维度的覆盖。并且能够实时的跟进我们的监管要求,不断的更新和我们审核能力的一个识别标准政策。那这张图的话呢,我大概就是去把我们内容审核涉及到的一些AI算法做了一个初步的一个分类,我想这些呃分类出来这些A算法模型,或者是AI算法方向的话呢,大家应该也是呃比较的熟知了,因为我们在其他的这种AI领域也会经常会用到,那首先是图片分类的模型,那这块的话呢,在那种审核里面,我们主要是针对一些像穿着暴露啊,一些暴乱场景,游戏,游行示威等等一些这种标签里面,会做这种图片分类模型的一个应用,那它的一个特点的话呢,就是它的资源消耗会相对偏低一些。
19:18
那第二个深目标检测,我们主要会在摄政的一些枪支,地图,旗帜、徽章等等一些标志或者是物品做一些检测类的模型的应用,去呃,在图,在原始图片中去挖掘出这些可能违规违规的一些物品或者标志。另外还有包括一些在色情审核服务当中的一些身体某个器官啊,或者一些新品的一些检测,它的特点相对图片分类来说的话呢,它占用更多的一个,呃,就是相对来说占用更多的一个计算资源,而且速度上会偏慢一些。那第三块的话呢,就是人脸识别,它主要在我们的内容审核里面,用到我们的一个人脸的检测,人脸特征,组队脸质量中的进行一个这种敏感的一个人物的底部积累和召回。
20:04
呃,然后文本识别这块的话呢,主要会用到一些图片音频转文本的,呃,就是一种音转文或者OCR的一个文本的呃,文本识别算法,另外的话呢,还会呃应用到AP知识图谱等等去做一些人物关系的一些,或者用物品的一些,呃审核者拦截。呃,第五块呢,是图片检索,这个主要是用在我们审核当中的一些黑样本图片库的一个检索,包括像一些热点的一些政治事件呢,或者是一些呃热点事件的一些比较有爆发性的一些这种呃违规呃违规事件或者热点事件的一些拦截上,它的特点的话呢,就是在我们这些热点事件爆发的初期的话呢,通过去添加这种事件相关的图片的作为入入户,我们能够实现一个快速见效拦截的,而且快速见快速拦截的一个目的。那音频这块的话呢,主要涉及到一些音转文的一些方法,以及一些特殊的这种音频类型的识别,然后还有一些相关相关的一些反动歌曲啊,歌呀曲啊,以及背景音乐的这种音频别。
21:12
呃,这里的话呢,我想特别就是跟大家去。介绍一下或者是讲解一下为什么就是我刚也提到就是目标审核这个算法相相对图片的分类模型会占用相对比较高的计算资源,呃和或者是计算成本,那么为什么我们在审核当中还会用到目标检测呢?因为嗯,它的原因就是是这样,就是说嗯,呃相呃,在某些情况,某些case里边,我们其实更多的是关注图片当中一些局部的一些物品或者是标识。而是我们更关注它的这一块,局部的一个特征,而不是全局的这种图片的整体的特征。呃,也就是说它那种违规的一些物品或者标识的话呢,在图片中可能只占一个小的,只占相对比较少的一部分占比,那么这个时候我们用图片的图像分类的模型去做的话呢,会引入全局的当中一些和他无关的一些背景,或者是一些噪声的一些特征的一些干扰。
22:07
所以我们。嗯。在一些这种像地图的检测呀,设置建筑物的检测,货币识别以及。这种摄政的一些动摄政,摄政的一些画图片或者动漫的一些签名检测上面会更倾向于用目标检测的一些算法模型来解决这种这类物品,或者是这种标志的一些,呃,审核拦截的一些需求。当然我们也嗯不是在所有的一些整个case下都会用到目标检测,我们首先说呃,看哪些业务适合用的话呢,我们需要去分析我们检测的对象,我们是这种违规的物品标识也好,最好是一些刚性的一些物品,有比较稳定的一些轮廓和纹理,比如说像旗帜或者服饰,它其实并不是一个刚性的物品,它是嗯会在不同的一些场场合下,它的一个姿态啊的一个。
23:01
呃,角度啊,或者是它的一个纹理啊,也会发生一些变化。那么另外一个的话呢,就是有一个较强的一致性特征。嗯。不好意思,呃,就是呃,我们所要去嗯在目标检测去做的,去检测的一些物品的话呢,在纹理形状,颜色轮廓上会相对来说有一个呃特征一致性,另外第三点的话呢,就是它和图片当中的背景和其他物品是有一定的这种可区分性的。那其实它带来的一些优势的话呢,就是相对来说它,嗯,就是局部的这种物品或者是标识的检测,相对全全局的这种图片分类,它的一个可解释性上会更好一点,另外一个就是说它这种检测模块或者模型,它会有一定的一个复用性,比如说我去做这种建筑物的检测,那么在这种,呃,涉及到这种建筑物的这种。违规的图片检,违规图片的审核上我会用到,那么在一些图片的一些检索,地标的一些建筑物的检索,图片检索上,我也会用到这种建筑物的一个检测的模型。
24:03
所以说它还是有很好的一个用的。呃,接下来的话呢,就是向大家去介绍一下我们呃近期会比较火热,以及在我们产品当中的落地应用的一些多模态的一些技术,呃提到多模态的话呢,我们首先呃就是会想到我们人在这种我们现实世界当中,也是通过过多种的一些感官呃去接触到世界,比如说我们的眼睛,耳朵,触觉,那这些感官,它其实接收到的外界的一些呃信号也好,或者是一些信息也好,是通过是通过不同的一个传感器来生成的,它的这种数据生成的这种形成方式和内部结构上还是有很大的一个区别。那么我们,呃,换个角度来说,呃,人工智能或者是AI,或者是机器也好,他要想像人一样更好的去理解它的环境,理解它外从外部给它传入的一些信息,它也需要具备解析这种不同模态信息的一个能力,比如说像文本、图片,音频、语音等不同的一些来自不同模态的一些这种数据或者信息。
25:12
那么呃,通过这种多模态的这种学习的话呢,我们就可以去搭建能够处理和连接多模态信息的一个模型。那么能够在就是我们的内容理解领域,能够去连接到不同模态的一个特征。呃,相对单模态表示学习来说的话呢,因为单模态它就像我们刚才所介绍的一些目标检测,或者是图片分类来说,它将外外部传输的信息表示为机器或者是呃计算机可以处理的一些呃数值向量,或者是进一步抽象为比较更高层的一信息,比如说这个目标的类别和它的一些呃位置,位置位置框等等,那么相呃相对来说呢,多模态的表述学习呢,它通过利用技术呃模态间的一个冗余特征,跨越不同模态间的一个呃,因为它的一个数据生成方式带来的一个意志性,那么最终它学习到多模态间的一个关联和互补性,然后不同模特的特征对我们最终这个业务的一个决策都会产生一个正向的一个影响和收益。
26:18
那么下面这张图的话呢,就是一个比较典型的一个多模态呃,它的一个框架的一个展示,可以看到就是这张呃这我们输,我们对输入的这个短视频的话呢,会分别去提取到它在视频或者是视频图片帧序列上的一个呃图像的一个特征,那么也会对他视频当中做一个这种呃呃声音的一个抽取或人声的一个分离,继取到他的一个呃说话呃人声就是说话人的一个音频,以及背景音乐的一个音频,去体予到音频相关的一些特征,那么对于人生的话呢,也会去体予到。呃做音转文提到他所说的一个SR的一些呃文本相关的一些呃语义的一些信息。
27:03
那么还有一些,还有另外第三块呢,就是它的一个视频的它的一个封面,因为我们知道封面的话呢,那个更呃典型的去代表这个视频它的一个最关键的一些呃语义的信息,那么还有就是它图片当中呃视频的呃画面当中出现的一些文字,也通过OCR的方式的话呢,去提取到它的一些文本,我们还有视频的title也它的标题,标题的话呢,是更精的去呃去表示这个视频当中它会核心的一些呃内容。那这些不同模态的信息经过它的特征提取之后的话呢,会到后面做一些特征的一些融合,以及进一步的做一些呃呃,在深度学习模型里边的一些卷积啊,激活等等一些运算,然后最后通过一些全链接层去输入它的一些标签类,标签的类别,或者是它的一些用于做检索或者是排除的一些呃,Feature一些特征。那右边这张图的话呢,可以看到一些就是这种多模态技术,在视频理解呃领域,或者是其他的一些现有任务当中的一些应用包含了。
28:10
一些视频内容理解,视频的构化,视频的标签啊分类等等,以及视频的检索排除啊,包括呃图文的检索,就是图片去检索视频,或者是文本cap去检索这种项目,视频或者图片一种跨模态的检索的一个应用,那还有就是我们刚刚也提到的这种内容审核,或者涉及些虚假内容的一些鉴定和识别。那么还有一些,呃,可能跟大家业务上不太去他的关联的,像一些视频的一些VQ啊,内容不全啊,视频问答生成等等一系列的一些,呃,一些落地场景。嗯。呃,接下来的话呢,我会举两个我们实际的一个案例去给大家介绍一下,就是多台技术在我们呃万象相关产品当中一些落地的一个应用。呃,第一个例子呢,是和内容审核相关的,呃这块呢,是介绍一下我们台技术在这种违规的色情图片上的一个呃审核,呃审核case上的一个带来的一个技术优势,或者是一个优化的一个过程。
29:17
呃,以我们就是常见到的这种色情呃广告呃小广告来说,它它最简最最常见的例子的话呢,就是它的这个广告,或者是这个画面当中的话呢,有一个年轻女性穿着比较暴露女性的一个形象,然后呢,还会叠加一些她的一些类似微信号,QQ或者是电话等等一些这种联系方式的一些文本。那么呃,我们拆开来看的话呢,这张图片里边它其实有两类模态,一个是图像,那么最常见的就像刚才说的是一个年轻的一个女性,那么可能他会稍微的会穿着上会相对暴露一些,但是这种程度的一些暴露的话呢,它是相对来说比较偏青色性,或者是一些灰原呃灰度地带的一些色情的一些暗示,它并不具备很高的一个这种呃呃色情或者是一些暴露的这种呃图片标签的一种级别,所以单从图片内容来说,我们直接判违规的话呢,是有一定的风,这种误呃误判的一些风险的。那么第二个模态的话呢,就像我刚才说的是一个文本,或者是我们呃或者是可以也是也是一种呃水印的这么一种模态。
30:22
那么常见的内容的话呢,它其实并不是直接对这种呃里边色情内容的一个描述,呃,因为它会为了去我们对抗我们最常用的这种OCR文本识别的模型,它会对里面添加了文字,我做一些这种半透明的水印的处理也好,或者是叠加一些这种噪声,或者做一些文本的变形等等。呃呃,或者是做一些呃这种嗯,其他一些这种术,呃就是术语或者黑化的一些这种呃词的一些变种,呃比如说会用同音词或者是一些火星文啊等等一些字来代替它真实的一些真实的这种违规内容的一个文字描述。
31:03
那么呃,就像我刚才说的,就是我们通过这呃这两类单一的模态分别去做这种图片是否是色情违规图片的一个判断的话呢,其实它是有一定的这种误判的一个风险的,因为呃每个单一模态的提供的信息量并不足以我们做出一个合理的这个判断,并且像我刚才说的就是文本这个模态的话呢,还会存在针对我们OCR模型的一个对抗性的干扰。那么我们就是用运用多模态技术的话呢,就是将可以将我们图像模态和文本模态两种模态的一个呃特征做一个这种模块间的一个融合,然后通过融合后的一个结果的话呢,去最终预测我们这个图片是否违规的一个分类的一个结果。呃,可以看到左边的话呢,我列了两种,就是我们常见的这种呃模态融合的一个方式,呃,第一个呢,就是一个模态的早期融合,在图片和呃和图片和文本的这种模态,数据信息传入之后的话呢,直接通过一个模型提取到它相应特征,从数据层面对呃两类不同的模态做一个融合,那之后的话呢,融合后的话呢,再去经过我们常用的一些CN的网络做一些特征提取,然后一些全链接,最后输出它的一些标签。
32:22
那第二种的话呢,是一个laterion的个一种一种方式,它是呃分别将我们的文本模态和和图像的模态经过呃有的这种训练模型,比如说像文本的话呢,会成一些通用OCR模型,然后图片的话呢,会是一些色情的呃图像分类的一些模型提提提取到它对应的模态特征,那么在模态在提取到的特征层面的话呢,我们做一些类似contact或者是ADD,或者是叠加一些注意力机制之后的一些呃特征层面的一个融合,然后对融合后的特征再去经过后边的一些呃这种卷积poing啊,或者是激活的一些运算,那么最终输出。
33:02
一个我们是否违规的一个标签。呃在这个就是嗯,我们我刚介绍这个就是去融合文本和图像这两个模态,去做这种图片,呃色情违规图片的一个审核的过程当中的话呢,也是呃做了很多的一些不同阶呃不同阶段做了一些模型的一些迭代优化的一些工作,那么我们也就是我们相关团队的同事的话呢,一开始是采用的我们右边这种later的一个过程,因为呃这种方式的话呢,他的一个特点就是可以很好的完呃可以直接去复用我们现有的版本和图像的这种,呃已有的这种训练好的模型,直接去做特征层面的直接做呃little这种融合的话呢,会会很快的去完成两个模态的一个融合,输出一个更优的结果。呃,但是这种的一个融合的话呢,呃,它相对early f的话呢,会有一定的一个局限性,所以第二阶段的话呢,我们直接在两个模态之间做一个扩态的一个模型,模型的一个预训练,呃通过一些并且通过一些自监督的方式的话呢,做了一些更大数据量及上的一些呃翻通一些工作,并且通过一些文本生成或者分生成的方式的话呢,去呃增加了一些data微退培的一些呃数据增广的一些操作,更好的去提他更健壮或者主动性更好的一些特征。
34:24
要相对我们最终实验完的一个效果来看的话呢,呃,这种early的一些模态如何在这这个呃需求或者是这个task上的一个表现,会更优于这种fu的一个一个呃一个方案。呃,第二个我想去重点给大家介绍多模态的一个应用,是在我们的一个视频标签识别或者视频标签分类上的一个应用,那么对视频标签的一个这种识别或者分类的话呢,我们可以用于我们的这种个性化推荐。呃,通过对内容进行标签提取,结合用户兴趣的一个tag,作为用户呢,进行一个精准的一个个性化推荐,那第二个呢,是图片,呃,是视频一个检索,通过对内容关键词或者是一些内容标签跟用户输入的关键词做一个精准或者模糊匹配,返回相对应的一个视频检索结果。
35:18
以及我们的这种视频的分类或者是聚类,应用这种图片标签做文本特征的话呢,能够提升我们单纯靠视频或者是视频帧的这种特征的这种聚类或者分类的效果会更提升一步。那么呃,对应前面我们讲的这种模态间融合一个early和later的一个呃不同的方案的话呢,其实在视频的标签这块也有类似的这种呃,类似的这种呃对应的这个方案,将early的话呢,呃就是一个相对比较简单粗暴的方案,我们直接将视频当中的文本音频呃视频像以及它的title相对应的这些。不同模态的收入去直接去呃,到我们的这种像V这么一个大的一个呃,Model里边去做这种端到端的一个训练。
36:10
呃,那呃相对应的话呢,第二种方案这种的话呢,就能够更好的去复用我们现阶段呃,针对不同这个视频文本音频对应的这种呃特征需取模型上面直接去复用现有的模型,然后输出对应的这种特征,做类的一个特征级别的一个融合,那么这个然后结合完如何合征,再去做后面的一系列的这种整预算,最后输出它对应的视频的一个标签。呃,那么这个视频标签的话呢?呃呃,我就想以我们近最近和呃先交纳的同学做的一个校企合作的项目为例,去展开介绍一下我们在视频标签上应用技术所做的一些工作和或者是探索吧。呃,我们其实是用了我们腾讯内部的之前搞过的一个相似,呃,相似视频检索的一部分的一个数据,复用这么的数据做视频标签的一个模型训练和实验的一个工作。
37:11
那么我们所用的这个类别标签,类别标签的话呢,是有1万类。然后训练的话呢,用了300万条短视频所产生的一个频帧,还有它的一个title,以及视频当中音频转呃是音转文之后的一个呃,文本的相关的一个结果。呃,这三类模态的特征,然后呃,作为我们的一个训练,那么我们测试级的话呢,是是另外一个独立的一个6万多条视频组成一个测试集。呃,在整个的项目推进过程中的话呢,我们也是给他演进了不同版本的一个我们的一个网络结构和方案,去做了很多一些这种相同的实验。那么最终我们就是做了多文本的实验之后的话呢,我们和呃就是贝斯line的一个差距,可以看到呢,明显的在呃缩小,那么不同的呃我们一直代迭代的这种这个七个方案的话呢,我们看到准确率的话呢,也在有一个稳定的一个提升的过程,最终我们其实是选用了呃真特征开头的特征呃,然后去掉SR这个这这这个模态特征,然后引导s vrdp SE这种呃注意力机制以及多任务训练,然后同时也辅以这种不同模态的的这种策略,然后达到了一个63.55%的一个准确率,那么相对我们贝斯用的一个是一个非常。
38:38
参数量非常大,非常复杂的一个video模型,其实我们还是有很好的一个,就是接近这个base的一个一个效果。那么后续的话呢,我们也会在这个项目后续推进的过程当中的话呢,会尝试一些其他的一些优化手段,比如说去用更呃更健壮的或者是更有棒更好的一些这种不同模态的一个特征,抽取模型去替换当前的模型,去抽取的更好的一个隐性特征,去做后面的一个训练,那么嗯,也会对这个模型的呃,整个的架构这块呢,做一些呃想在组函数以及一些中间训练过程当中的一些一些方面的一些优化。
39:22
那么我我们也挺,就是也也对我们当前阶段的一些这种,呃,目前的结果的话呢,也做了一些可视化的一些分析,那么也给大家去做一些就是介绍吧。呃,我们对测试集的这种视频标签分类的结果的话呢,也是做了一些这种呃数据可视化的分析,呃可以给他,呃我们以就是。把召回标签那个他例子30%呃为为分界岭,那么超过30%的话呢,我们认为就是也是这个图片被证确这个视频被正确分类的good case,那么有百超过30%的那个广告出子的标签未被召回的话呢,我们认为是case,就是未呃未被召回的那种未被标召回标签的这种打视频。
40:08
那么有80%的话呢,我们认为就是极端的这种case,那么我们对good case case和极端的这种超过80%的这种极端case做了它的一个标签的一个数,一个这种数据分析,我们会发现就是我们正确做了,我们就是正确预测到的这种。变它对应的标签的这些good case的话呢,它的一个标签的一个分布和整体数据的分布的话呢,是一个高度拟合的一个情况,那么像bad case,还有这种呃更更呃更恶劣的这种呃这种case的情况下呢,它的一个标签分布和我们实际的这种数组的分布的话,是有一个呃非常明显的一个差异,那么也说明了就是我们呃就是在做这种实标签的任务的时候呢,其实存在一些呃难点或者遗留问题,就像像我们的深中签,它其实是一个开放的一个结合。
41:02
那么它存在着非常严重的一个长尾的一个现象,我们可以看到右边这张病图,嗯,那么就是说在嗯这些实标1万类实标签里边的话呢,TOP20的标签的话呢,就占了将近一半以上的一个占比,那么相对应来说的话呢,其他的这种9000多个标签的话呢,就会存在很严重那个床位的一个问题。另外一个就是标签的一个标准不太统一,那么也会存我们在实际业务当中的话呢,也会存在一些向后向向前向后兼容性的一些问题。呃,另外一个就是一些抽象,抽象的一些标签占比相对比较高,那么所所谓什么是这种抽象标签的话呢,我们将这种标签,它没有在标题和开头中出现过的标签定义为是抽象标签,那么我们统计在短视频当中,这种抽现标签占比还是非常高的,将近有40%,同时因为标题也是因为长度非常短,特别是因为有些短视频的标题,很多情况下的话呢,它其实嗯不是一个完整的一个句式。
42:02
是一些关键词的一些拼接,所以在信息少又不规范的情况下,他的理解起来也会带来额外的一些困难。然后最后一个问题就是模态选择的问题,刚刚我给大家介绍的时候看到这个效容实验,最后我们其实最好的我们自己这种简化后的这个网络结构上,最好的一个效果是去掉AR这个模态有特征的,所以在做这种视频标签或者视频用理解的时候,选择哪一些模态,或者是对模态之间的一些,呃,自制义带来的一些权重方面,也是我们后续在做这个业务的时候面临的一个一个上的问题。那最后的话呢,也给大家去介绍一下,就是我们就是在我业务当中,我一个AAI平台,我们内部的一个AI平台,我们的这种。啊,不好意思,我因为会议室要释放,所以我这边会尽快的介绍介绍一下。
43:02
嗯嗯,当然我们在整个五业务当中的话呢,也会有我们腾讯内部其他的一些AI团队的一些这种技术提供的一些技术能力的一些支持。然后最后一部分是我的云商智能化解决方案的一个介绍。呃,我们音视频解决方案的话呢,也是,呃,可以提供一些我们客户便捷的一些API的一些调用,并且支持可定制化的一些处理模板,然后提供功能非常全面的一些功能,并且有基于我们腾讯云的技术的一些基础设施的话,能够提供更高效稳定的服务。那么内容审核的解决方案相对刚才音视频或者图文的解决方案来说的话呢,它更多了一些,基于这种增量审核支持是上传时的一个自动审核,以及对存量数据批量审核,并且对违规数据会触发它的一个违规自动供献以及人工复审的一个,呃。一个一个一个能力。那最后向大家介绍一下我们数据万象的一个体验馆,大家可以登录我们腾讯的官方主页以及小程序,可以去免费体验到我们就是数据万象的多种功能。
44:10
呃,最后是我们就是两个公众号,嗯,也欢迎大家就是关注一下,然后方便我们后续跟深层的一些技术交流。那么好,我时间关系,我今天为大家的一个讲解和介绍就先到这里。好的,那这边感谢徐建老师,呃是这样的,想确认一下,就目前的话,呃,有几个问题还有时间回答吗?这边嗯,还是是他要别的同事要用,我这边已经好,那这个问题的话,我们到时候。一群三回答好吗?好的就是。好的,嗯,那我们今天的直播的话就到此结束了,然后之后的话,我看一下今天的问题呢,是有三个问题,我这边抽一下就是中奖的同学吧,有免费的试用额度吗?还有一个是数据万象能否。
45:04
呃,智能检测和防御病毒入侵,另外一个问题是有文本统一,统一类似于弄文查重的接口嘛,这三个问题就是我们今天抽中的问题,然后这边的话就是感谢各位直播间的小伙伴,感谢讲师,那我们今天的直播就到此结束了,谢谢大家。好,谢谢,嗯。
我来说两句