首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Facebook 开源 SlowFast:基于帧速率分治轻量视频识别模型

这一开源旨在进一步提高系统识别与分类视频内容的能力,并改善视频个性化推荐应用。...SlowFast 是一个新型视频识别方法,它可以模仿灵长类视觉中的视网膜神经运作原理,同时以慢速帧频和快速帧频提取视频中的有效信息,从而提高动作分类及动作识别效果。...一条专注于处理可以在低帧速率下观看的类别语义(如:颜色、纹理和目标),它以低帧率运行,刷新速度缓慢,旨在捕获图像或几个稀疏帧提供的语义信息;而另一条路径则寻找在以较高帧速率显示的视频中更容易识别的快速变化的运动...Facebook AI 也希望通过对这些关系的介绍,能够启发更多用于视频识别的计算机视觉模型。 SlowFast 进展 通过合理的快慢分工,SlowFast 比之前的视频识别系统都更加轻量级。...,包括:改进系统如何自动识别、分类视频内容,以及视频推荐等应用。

2.7K10

准确检测DeepFake视频,阿里新算法从多个人物识别被篡改的人脸

来源:公众号 机器之心 授权 近日,阿里安全图灵实验室和中科院计算所合作提出一种只需要视频级别标注的新型 DeepFake 视频检测方法,该方法更加关注现实中广泛存在的部分攻击(篡改)视频问题,能够从视频中准确识别出被篡改的人脸...例如,今年 2 月份在德里议会选举的前一天,一个被 DeepFake 篡改过的政客讲话视频在 WhatsApp 上流传,对选举造成了极大的影响 [1];而在某成人视频网站上,某女星的脸被「安」在了成人视频女主角脸上...而之前基于视频级别的检测工作,比如 LSTM 等,在 DeepFake 视频检测时,过多专注于时序建模,导致 DeepFake 视频检测效果受到一定限制。 阿里新研究:S-MIL ?...图 2:S-MIL 算法框架图 为了更好地检测部分篡改的 DeepFake 视频,阿里研究人员提出了一种只需要视频级别标注的新型 DeepFake 视频检测方法。...回顾 DeepFake 视频的定义:只要视频中有一张人脸被篡改,那么该视频就被定义为 DeepFake 视频。这和多实例学习是吻合的。

1.4K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    多模态人物识别技术及其在爱奇艺视频场景中的应用 | 公开课笔记

    嘉宾 | 爱奇艺 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 在本期 CSDN 技术公开课Plus:《多模态人物识别技术及其在视频场景中的应用》中,爱奇艺科学家路香菊博士将为大家介绍了多模态人物识别技术及在视频场景中的应用...组织创办“爱奇艺多模态视频人物识别赛”,开放全球首个影视视频人物数库iQIYI-VID,创建百万人物库及四万卡通角色库,相关技术应用到爱奇艺APP“扫一扫”及AI雷达等产品中。...除此之外,在视频中,还需要识别服饰、发型、声纹和指纹、虹膜等生物特征。所以,现在基于视频场景中的人物识别已经成为一个综合需求的识别。 ? 第二,如何识别虚拟人物?...二是爱奇艺员工数据库,是我们内部员工的数据库,里面包含了大量的人脸、姿态、表情等变化;三是爱奇艺在多模态人物识别竞赛中发布的数据集,里面主要是针对明星的视频数据进行身份识别。...数据整理后进行模型训练,训练过程中有一类数据需要特别关注,如下图所示,模型很难识别差异很小的不同人物与差异很大的同一人物,这种现象在实际的视频中是很常见的一种情况,如何解决这一难点?

    2.9K20

    今日 Paper | 神经网络结构搜索;视觉目标;人物识别视频3D人体姿态估计等

    目录 基于进化算法和权值共享的神经网络结构搜索 检测视频中关注的视觉目标 包含状态信息的弱监督学习方法进行人物识别 基于解剖学感知的视频3D人体姿态估计 RandLA-Net:一种新型的大规模点云语义分割框架...在该数据集上进行的实验表明,所提模型可以有效推断视频中的注意力。为进一步证明该方法的实用性,这篇论文将预测的注意力图应用于两个社交注视行为识别任务,并表明所得分类器明显优于现有方法。 ? ?...包含状态信息的弱监督学习方法进行人物识别 论文名称:Weakly supervised discriminative feature learning with state information for...在获取人工标注的训练数据代价太高的现实下,使用非监督学习来识别每个行人不同的视觉特征具有很重要的意义。...而本文就提出了能够利用这些不需要人工标注的状态信息(如摄像头位置或脸部拍摄角度标注)的弱监督学习方法,该方法使用状态信息优化了假定类别的决策边界,以及使用状态信息调节控制了识别特征的偏移。

    1.1K10

    以物识人 | 基于数据推断用户的属性

    事后,夏洛克对自己推断的解释可以参考如下视频。...日常生活中,我们会经常“揣测”他人,比如根据外表来判断一个陌生人的职业,根据面部表情或身体姿势判断对方的情绪状态,听口音来分辨对方来自哪里(南方or北方)等等。e.g....对用户的画像或者识别,是产品运营活动的基础。 比如2016年京东在11做的图书活动,就很好地利用“图书”这个品类来筛选高质量用户来为金融业务拉新,下图是当时笔者在朋友圈的发文。 ?...杯子,粉色的,男生的概率比女生要低很多吧; 个性化的头像、昵称、行为路径、文字使用习惯、关注的话题或明星等,这些也能反映用户的性别。 怎么判断用户的职业?...同样可以参考前面职业判断中用到的4个维度:时间、地点、人物、事件。 e.g.

    3.5K20

    用户横屏竖屏都需要怎么破?爱奇艺的答案:AI任你横竖

    点击之后,我看到的横屏短视频即刻转换为聚焦视频关键人物和场景区域的竖屏沉浸式短视频。...据了解,这一功能实现原理是AI视频分析技术。爱奇艺极速版应用了一种名为“具备智能主体识别能力的竖屏沉浸式播放”的技术。...这一技术通过AI对2D平面视频资源进行处理识别,智能分析提取其中内容主体和焦点区域信息,在手机上竖屏全屏播放呈现,具体在技术实现层面,则包含了对视频内容的云端AI识别分析和终端视频播放多目标实时渲染互动...这几天体验了一下,感觉很新鲜,我在竖屏看一个视频花絮时,点击“沉浸”后在竖屏画面就会看到关键人物,这样竖屏观看横屏内容时,画面放大到全屏了,感觉到手机画面中的明星人物都离着自己更近了。...爱奇艺的创可贴广告会根据AI对视频内容“识别”的结果来决定呈现什么以及呈现在哪里,而爱奇艺AI雷达未来则可应用到电视购物上,用户看中一款视频中的产品如明星的衣服,扫一扫就能

    2.6K20

    Python分析红楼梦,宝玉和十二钗的人物关系

    红楼梦出场人物很多,人物关系极其复杂,这次我们用Python来分析主人公贾宝玉和他的姐妹们,金陵十二钗之间的关系,做一个简要的分析。...出场率 由于我们只统计宝玉和十二钗(正册)这些人物,因此我们需要实现准备一个人物名单: ? 这个后面的nr是表示人物属性,方便分词工具jieba识别。...我们将宝玉加上十二钗出现的图画出来: ? 宝玉,黛玉,凤姐,宝钗属于一线人物,出场率很高;元春,秦可卿还有巧姐出场章节有限,因此总的出场率很低。...可以看出来,宝玉和十二钗的关系十分紧密,尤其是黛玉,宝钗,凤姐。而这些人之间互动也十分频繁。剩下的一些边缘人物仅仅和主角团有互动,他们之间的互动相对很少,或者没有。...人物关系网大全 上面展示的分析仅仅是宝玉和十二钗之间的简单分析,并不能看到整个红楼梦的全貌,这里给大家分享一个人物关系网大全: https://grapheco.github.io/InteractiveGraph

    2.4K30

    雷军把小米发布会开到华为门口,发布了安卓版iPhone X

    类似的AI场景识别,在小米8上已经可以识别206种场景,包括天气、风景、人物、动植物、文档、物件等,实现对照片的实时优化。...AI视频剪辑 在各类短视频火热的时候,如果能用AI把用户从剪视频、编辑这种繁重的工作中解脱出来,想必是个十分有价值的功能。...雷军在现场说,这会是全球第一款L1+L5路定位手机,精度至少提高3~5倍,误差大约在3~5米左右。 定位精准到什么程度?...除了外壳,透明探索版最大的不同在于搭载了搭载“Face ID”身份识别,是全球首款搭载“Face ID”的安卓手机。...最快下个月,米粉不光可以小米的硬件,还能小米的股票啦。 你会成为小米股东吗?

    1.2K10

    《长安十二时辰》背后的文娱大脑:如何提升爆款的确定性?

    二、长视频爆款的复杂与挑战:较高不确定性 长视频爆款的复杂和挑战主要来源于不确定性,并且这种不确定性渗透在内容的采集、宣发和投放的所有环节中。 第一个不确定叫做延迟满足和信息不完备。...长视频通过组织多个有效的事件序列,形成价值转换,刻画出不同人物,最终体现一个或多个价值观,整个过程需要很多剧集逐渐被用户感知。...; 3)檀棋贡献了80%以上的人物关系,在剧中作为功能性人物推动剧情发展。...基于此,建设识别和理解不确定性的预测模型。 预测中会面临数据、模型和应用三方面问题。数据问题分为数据量不够,数据不干净和信息不完备。...从优酷的经验出发,是正确识别应用上的不确定性可以在应用上有很好的改观。 常规解法也分为数据、模型和应用三方面解法。

    82910

    未来以来,虚拟人祝您元旦快乐!

    视频中,华智冰是一名眉目清秀的女孩。她盘腿而坐,抱着吉他忘情地唱着“忘不了你的爱,但结局难更改,我没能把你留下来,更不像他能给你一个期待的未来,幼稚的男孩……”表情动作也十分真实。...二、新华社数字记者小诤 今年6月17日,神舟十二号载人飞船发射成功的同时,新华社也推出了全球第一位数字航天员——新华社数字记者小诤。...四、柳夜熙 2021年10月31日,虚拟人物柳夜熙横空出世,其定位为“一个会捉妖的虚拟美妆达人”,出道仅三天的她仅仅用一条视频便征服了平台内的所有观众。...上线3天涨粉230万,首发视频超过250万点赞,出道即巅峰的虚拟人物柳夜熙用一条视频将内容行业创作水平拔高到一个新的高度。...在翎Ling小红书动态中可以看到,她已经与100年润发和keep有过商务合作,并和天猫合作成为其11的数字推荐官。

    1.3K30

    CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务

    具体来说,如上图(c)所示,基于编码器的结构,该研究进一步设计一个参数化模块 BridgeFormer 作为视频和文本局部特征的纽带。...比如当抹去名词短语“绿草地”,就构成了名词问题“一个穿着短裤,戴着帽子的女孩正在哪里跳舞”,答案就是“绿草地”。...在第一个例子里,当 “一对老年夫妻” 被抹去,构成问题 “谁在喝咖啡”,BridgeFormer 专注于描绘人物面貌的视频特征上。...而当 “乡间草地” 被抹去,构成问题“家长和小孩在哪里踢足球”,BridgeFormer 把注意力放在了视频背景特征上。...本文模型在文本到视频检索和零样本动作识别多个测评基准的结果,显示了 MCQ 这一借口任务的有效性。

    76840

    AI相机,请把我拍成“Angelababy ”!

    所以,这两种都能够实现摄变焦,广角+长焦是通过摄切换,黑白+彩色是通过像素合成的方法实现。 利用摄方案,除了背景虚化之外,也可以实现3D扫描、辅助对焦、动作识别等应用。...让人们想怎么拍就怎么拍,不用再去调整参数、也不用厚厚的书本来学习摄影的专业知识。高度的智能化,让你对准拍照对象按下快门就能拍出好看的照片,也让手机为摄影器材带来了一场革命性的改变。...AI应用于手机拍照时,手机能够自动识别照片的情景,比如蓝天、日出、日落、舞台,花朵、夜景、猫、人等。...还能够让人物即便在暗光下拍照,图像中的人物沦落依旧会非常清晰,并且会让面部光学变得柔和、美颜效果更好。...苹果的相机团队有800名成员负责iPhone相机;雷军也在发布会上爆料小米手机的相机部门人员超过1000人;华为似乎则是将其手机相机部门设立在了芬兰,根据媒体爆料其团队吸收了大量来自诺基亚影像团队的核心人物

    1.5K20

    Video++在用AI帮助视频和直播创收

    机器之心原创 参与:杜夏德 视频互联网 VS 互联网视频,一词之隔,却已等待十二年。 眼下的的互联网科技圈,人工智能技术的火热程度堪比演艺界的小鲜肉。...未来传递信息的主要载体是视频,而视频会产生新的应用入口 「视频行业十二年的发展,其实都是「互联网视频」的发展,只把互联网作为视频媒体的载体,而视频更大的价值并没有深度挖掘。...十二年的积累,行业已经做好了升级到「视频互联网」的准备,随着 AI 技术的成熟打开视频内容的黑盒子、视频互动技术的突破解决了创建场景的瓶颈,视频有能力成为继小程序之后下一代应用的超级入口,也就是视频互联网...Video AI 是 Video++推出的视频自动识别+投放系统。该系统会首先识别视频中的人物(明星)、物体(手机、电脑等)等等,然后给出一些列标签报告,客户可以查看这些明星、手机出现的点位。...在内容层上,首先要通过人工智能技术把视频中的人脸、物体等非结构化数据结构化,分析出人物、地点、品牌、动作等等不同的维度。接着是逻辑层,通过不同的组件,比如说直播、点播等等,组成相关的应用。

    94490

    色情、暴力、血腥等内容屡禁不止,企业如何祛“污”?

    尤记得五年前 扫黄行动肃清了全国多地线下各大小“会所” 五年时间过去了 被清扫的“小姐姐”们都去哪里了?...“护苗2019”“秋风2019”专项行动 剑起直指未及时自查的直播、短视频等平台 而这些平台,可能也有无法言表的“痛” ?...01 直播平台 还记得早年的互联网聊天室,大家卖力的唱着歌,花钱最好的摄像头与麦克风,只为情感得到释放,单纯享受陌生人之间的交流。...除了色情直播,少量不法分子还会利用直播平台煽风点火传播敏感言论、恶搞政治人物等,蒙蔽不明(吃)真相(瓜)的群众。...部分平台由于审核人力和技术资源有限,短时间内容易漏过对某些主播视频内容分享的检测,造成平台口碑下降,对观众造成不良影响,甚至触犯法律。

    3.3K40

    【经典】Yann LeCun:如何有效实现无监督学习(158页PPT)

    传统的模型识别模式 ? 深度学习=整个机器都是可训练的 ? 深度学习=学习分层的代表 ? 可训练特征分层 ? 浅VS深=查找表格VS多步骤的算法 ? 大脑是如何解读图像的 ?...第三部分 卷积网络(ConvNet或者CNN),在这一部分,LeCun介绍了ConvNet在多字符识别、脸部识别、行人识别、远程视野和场景剖析等方面中的应用。 ? 卷积网络架构 ? 多层卷积 ?...多字符识别 ? 脸部识别 ? 场景剖析/标签 ? 自适应机器远程视野中的ConvNet ? 第四部分 ConvNets下的对象识别和定位 ? 分级+定位:多级别的滑动窗 ?...人物识别和姿势评估 ? 识别渠道 ? 第五部分 ConvNet语音识别 ? ? 第六部分 无处不在的ConvNet ? 英伟达:基于ConvNet的辅助驾驶 ?...第十二部分 详解无监督式学习 ? ? 第十三部分 预言式无监督学习:视频预测 ? 无监督式学习是AI中的暗物质 ? 第十四部分 机器智能和人类智能有很大的不一样 ? 结论 ?

    1.6K90

    比赛 | 清华-得意团队获音频情感识别竞赛冠军

    清华大学-得意音通声纹处理联合实验室情感计算团队在多模态情感识别竞赛上夺得音频情感识别子任务单项第一的优异成绩。...来自中国科学院自动化所、清华大学、中国人民大学、中国科技大学、中国科学院大学、西北工业大学、德克萨斯大学达拉斯分校、三星研究所等 31 所国内外知名院校和研究机构的团队,通过构建分析算法,从音视频数据里准确识别人物的真实情感...该挑战包括三项子任务:音频情感识别、表情识别及音视频融合的情感识别。参赛者通过在训练集及验证集上训练自己的模型,并最终根据在测试集的效果进行竞赛排名。...得意音通团队致力于为机器赋予声纹识别和情感识别的能力,而这就需要情感计算技术的深度参与。它在雷锋网学术频道「AI 影响因子」中凭借本次比赛获得了加分。...为了提高无监督身份认证中的人证合一性、不易伪造性和意图真实性,得意音通提出了「三生物特征融合+活体检测+真实意图检测」的高安全、低隐私体系架构,以充分发挥语音「形简意丰」的特点,为用户提供更加安全有效

    1.2K20

    基于BigGAN,生成高保真视频

    这次推出的是视频判别器GAN,通过对判别器更高效的分解,生成的视频样本在长度和分辨率上都远高于此前最好水平,在多个合成和预测视频数据集上刷新了SOTA。...也许你听说过FaceApp,这是一款利用AI来改变自拍的移动应用程序,你可能也听说过“这些人物都不存在”网站,它可以显示计算机生成的虚构人物照片。但是生成完完全全的新视频的算法你听说过吗?...论文地址: https://arxiv.org/pdf/1907.06571.pdf 研究人员表示,由于“高效计算”组件和技术的使用,再加上新的定制数据集,他们训练出的最佳性能模型:视频鉴别器GAN(...DVD-GAN:判别器,非约束数据集无需担心过拟合 一组4秒合成视频剪辑,由Kinetics-600在128×128帧上训练 DVD-GAN包含两个判别器:一个空间判别器,通过随机采样全分辨率帧并单独处理...至于训练数据集(Kinetics-600),这是根据最初为人类行为识别策划的500,000个10秒高分辨率YouTube剪辑编制的,研究人员称该数据集具有“多样化”和“非受限”的特点,他们声称这些特征消除了过拟合的风险

    1.1K30

    Youtube的智能字幕在儿童频道里GHS“翻车”,corn识别为porn,beach识别为bitch

    这是一档儿童节目,在2020年的一个视频中,这个卡通人物和他的朋友们参观了一个以体育场为主题的星球,并在Heracles的启发下尝试了许多壮举。...然而,在YouTube自动字幕中,却为这个儿童节目识别出了这么一句台词:“strong and rape like Heracles.”(像赫拉克勒斯那样强壮和强暴)。...一项针对儿童视频的YouTube智能字幕的新研究证明,视频中的文字有时会变成非常“成人化”的语言。...儿童频道成为“污言秽语”重灾区 在对24家排名靠前的儿童频道的7000多个视频进行的抽样调查中,40%的视频的字幕包含1300个“污言秽语”词汇。 ...在其中一篇文章中,“You should also buy corn(你也应该玉米)” 这句话的字幕被翻译成 “You should also buy porn.(你也应该色情片)”。

    2.8K30
    领券