首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

快慢结合效果好:FAIR何恺明等人提出视频识别SlowFast网络

选自 arxiv 作者:Christoph Feichtenhofer、Haoqi Fan、Jitendra Malik、Kaiming He 机器之心编辑部 在本文中,FAIR 何恺明等人介绍了用于视频识别的...基于这种直觉,本研究展示了一种用于视频识别的双路径 SlowFast 模型(见图 1)。其中一个路径旨在捕获图像或几个稀疏帧提供的语义信息,它以低帧率运行,刷新速度缓慢。...研究者希望这些关系能够启发更多用于视频识别的计算机视觉模型。 论文:SlowFast Networks for Video Recognition ?...论文链接:https://arxiv.org/pdf/1812.03982.pdf 摘要:本文提出了用于视频识别的 SlowFast 网络。...我们可以减少 Fast 路径的通道容量,使其变得非常轻,但依然可以学习有用的时间信息用于视频识别。

1.2K50

准确检测DeepFake视频,阿里新算法从多个人物中识别被篡改的人脸

来源:公众号 机器之心 授权 近日,阿里安全图灵实验室和中科院计算所合作提出一种只需要视频级别标注的新型 DeepFake 视频检测方法,该方法更加关注现实中广泛存在的部分攻击(篡改)视频问题,能够从视频中准确识别出被篡改的人脸...例如,今年 2 月份在德里议会选举的前一天,一个被 DeepFake 篡改过的政客讲话视频在 WhatsApp 上流传,对选举造成了极大的影响 [1];而在某成人视频网站上,某女星的脸被「安」在了成人视频女主角脸上...而之前基于视频级别的检测工作,比如 LSTM 等,在 DeepFake 视频检测时,过多专注于时序建模,导致 DeepFake 视频检测效果受到一定限制。 阿里新研究:S-MIL ?...图 2:S-MIL 算法框架图 为了更好地检测部分篡改的 DeepFake 视频,阿里研究人员提出了一种只需要视频级别标注的新型 DeepFake 视频检测方法。...回顾 DeepFake 视频的定义:只要视频中有一张人脸被篡改,那么该视频就被定义为 DeepFake 视频。这和多实例学习是吻合的。

1.5K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    多模态人物识别技术及其在爱奇艺视频场景中的应用 | 公开课笔记

    嘉宾 | 爱奇艺 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 在本期 CSDN 技术公开课Plus:《多模态人物识别技术及其在视频场景中的应用》中,爱奇艺科学家路香菊博士将为大家介绍了多模态人物识别技术及在视频场景中的应用...组织创办“爱奇艺多模态视频人物识别赛”,开放全球首个影视视频人物数库iQIYI-VID,创建百万人物库及四万卡通角色库,相关技术应用到爱奇艺APP“扫一扫”及AI雷达等产品中。...除此之外,在视频中,还需要识别服饰、发型、声纹和指纹、虹膜等生物特征。所以,现在基于视频场景中的人物识别已经成为一个综合需求的识别。 ? 第二,如何识别虚拟人物?...二是爱奇艺员工数据库,是我们内部员工的数据库,里面包含了大量的人脸、姿态、表情等变化;三是爱奇艺在多模态人物识别竞赛中发布的数据集,里面主要是针对明星的视频数据进行身份识别。...数据整理后进行模型训练,训练过程中有一类数据需要特别关注,如下图所示,模型很难识别差异很小的不同人物与差异很大的同一人物,这种现象在实际的视频中是很常见的一种情况,如何解决这一难点?

    3K20

    今日 Paper | 神经网络结构搜索;视觉目标;人物识别;视频3D人体姿态估计等

    目录 基于进化算法和权值共享的神经网络结构搜索 检测视频中关注的视觉目标 包含状态信息的弱监督学习方法进行人物识别 基于解剖学感知的视频3D人体姿态估计 RandLA-Net:一种新型的大规模点云语义分割框架...在该数据集上进行的实验表明,所提模型可以有效推断视频中的注意力。为进一步证明该方法的实用性,这篇论文将预测的注意力图应用于两个社交注视行为识别任务,并表明所得分类器明显优于现有方法。 ? ?...包含状态信息的弱监督学习方法进行人物识别 论文名称:Weakly supervised discriminative feature learning with state information for...在获取人工标注的训练数据代价太高的现实下,使用非监督学习来识别每个行人不同的视觉特征具有很重要的意义。...该方法在数据集Semantic3D和SemanticKITTI等大场景点云分割数据集上都取得了非常好的效果,从而验证了该方法的优良性,此外通过实验发现,采用本文提出的网络框架,计算效率也是非常高的,明显优于其它模型

    1.1K10

    2D虚拟数字人如何实现人物表达

    “五横”是指用于虚拟数字人制作、交互的五大技术模块,即人物生成、人物表达、合成显示、识别感知、分析决策等模块。...虚拟数字人的交互模块涉及语音语义识别、人脸识别、动作识别、知识库和对话管理等多种复杂技术, 并不是所有的虚拟数字人都有交互功能。...---- 2D数字人人物表达 2D数字人人物表达主要是通过语音驱动2D数字人嘴型动作进行智能合成。...使用 Wav2Lip 模型生成的视频的口型同步准确性几乎与真实同步视频一样好。...2D虚拟数字人除了嘴型之外的动作,包含面部表情、眨眼、摇头、点头、挑眉等动目前都是通过采用一种随机策略或某个脚本策略将预录好的视频或动作进行循环播放来实现。

    1.7K20

    实时人脸识别系统

    人脸检测器是一种实时人脸识别系统,用于识别人脸,并在输入视频流中显示人物姓名。 该系统基于 Python 开发,可以识别从不同角度拍摄的人。系统对每个人进行人脸识别处理并将结果显示在屏幕上。...右边方框可以展示与图片中人物的相似程度。 人脸检测器还可以识别戴口罩、太阳镜等的人。由于新冠疫情,戴口罩逐渐成为生活常态,这给人脸识别带来了巨大的困难。...实时人脸识别的实际应用过程可以分为以下几步:首先选择好参考人物并输入视频流;在检测到人物后,计算其和参考人物面部范围的相似度;当相似度高于指定阈值时,将当前参考人物的姓名插入到视频流中。...方法2——异步显示:为了使视频显示更流畅,显示器先显示人脸检测器的人的姓名,然后显示一段时间的视频。异步显示可以更流畅地显示视频。 我们采取了第二种方法,以保证可见性。...我们建立了 500 个人物模型,在总共 13 个小时的时间里,几乎没有出现识别错误。即使在戴着墨镜、人物拥堵的情况下,探测器都能够正确识别。

    3.6K10

    应用性能监控哪家质量好 产品常见功能有哪些

    大家当然希望能够拥有更加稳定和安全的网络环境,即使发现一些技术上的问题,找到有效的解决方法,那么就需要应用性能监控了,而应用性能监控哪家质量好自然也成为关键性疑问了。...哪家质量更好 应用性能监控哪家质量好?当一家企业想要选购和配置应用性能监控系统的时候,一般都会考虑这个问题,产品的品质往往决定了日常使用的体验感和满意度。...常见的功能有哪些 应用性能监控哪家质量好?相信大家在体验一段时间后就可以得出结论了,很多的企业用户也变聪明了,选择先试用然后再购买。...分别是系统自动识别公司业务,对应用程序进行跟踪,可智能的识别和定位到故障所在,快速做出诊断,让企业可以发现系统性能的瓶颈,从而加快了系统优化的进程。...以上就是关于应用性能监控哪家质量好的相关介绍,通过监控产品,可以实现端对端的事务跟踪,能够把复杂数据可视化,所以还是很有必要配备的。

    12K20

    是谁冤枉了董明珠?

    虽然董小姐说,“误拍是小事,切记文明出行,平安最重要”,但我们还是想知道,背后那个调皮的AI到底来自哪家? 根据交警的回应,我们知道它名叫“行人非机动车闯红灯抓拍系统”,那么,这套系统来自哪里呢?...至于目前在用的究竟是哪家公司的技术……很遗憾,量子位尝试联系招标的宁波市公安局和招标公司,未得到更为明确的信息。 继续追根究底的快乐,就留给董明珠和各位网友吧。 ?...根据央广网的一篇报道,目前大多数城市的人脸抓拍系统的工作原理是: 当红灯亮起后,如有行人和非机动车越过停止线,系统会自动抓拍四张照片,保留15秒视频并截取违法者头像。 ?...在这里科普一下,量子位发布过一篇文章:《一篇文章搞懂人脸识别的十个概念》。如果你对人脸识别感兴趣,可以看看。 ?...如果你还有兴趣自己动手,尝试搭建一个类似的系统,这里推荐几篇速成的指南: 十分钟,我搞定了一个人物检测模型 想尝试搭建图像识别系统?

    81840

    B站UP主自制OCR翻译器,自动截屏翻字幕,还是论文阅读神器 | 亲测好用

    白交 发自 凹非寺 本文转载自:量子位(QbitAI) 一个B站UP主,自制了个翻译器,称可以啃任何生肉视频,甚至是游戏。...对此,网友表示:太棒了,这就卸载vnr(一个用来啃生肉视频的翻译软件)。 目前,这个软件可在GitHub上免费下载,链接已附文末。...使用方法 这个OCR翻译利用了百度AI的文字识别,通过识别图片上的外文文字进翻译。 下载之后,是这样的。 ? 使用之前,需要进行一系列的参数设定,也就是点击左边第二个设置键。...它的基本操作: 通过截图获取需要翻译的屏幕区域坐标 通过坐标截图(可自动),并发送至百度AI的文字识别接口; 获取识别好的文字后发送给百度、腾讯、彩云等翻译接口; 结果反馈至GUI界面。...(如果看不太清楚的话,可以适当调整位置和透明度) 除了翻译以外,还可以顺便对比一下几家翻译的水平~ 对了,你觉得哪家翻译的最好?或者,你还有更好的翻译软件?

    3.1K20

    给互联网的同学推荐几款好用的APP软件

    Hello,大家好,我是LakeShen,喜欢分享科技方面的见解。...我个人手机上装了很多软件,结合不同的使用场景,我来说一下我个人手机上必备的软件: 1.滴答清单 滴答清单是我个人工作中用的比较多的一款APP,每天上班时,由于有太多事情要做,我会使用滴答清单提前一天计划好我明天要做的事情...,然后会排一个优先级,这样,我在第二天到达公司的时候,只需要打开滴答清单就可以了,按照上面标注好的优先级,一个一个去完成,每次当完成一件事情并选择对勾时,自己都非常有成就感,觉得很从实。...平时,我也会使用脉脉看看大家同行的想法,哪家公司又发生了什么事情,哪家公司又裁员了,哪家公司内部工作状态怎么样等等。总之这款软件更多的是偏向于IT行业的同学,个人用着感觉还不错。...6.最右 使用最右的原因很简单,有时候工作比较忙,压力比较大时,自己会去看一些搞笑的视频来放松一下自己。个人喜欢去最右上面看一些搞笑的游戏视频,一些主播搞笑的视频等等。

    3K20

    两大模型评估,GPT-4o和Gemini 1.5 pro到底选择哪个?

    Q2:请判断这些句子中表达的情绪:我的猫好可爱♥♥第三题是数学计算能力的,可以说GPT-4o完胜了Gemini。...3.多模态问答:GPT-4o完胜Gemini 1.5 pro第一题主要是考察一下是否能够识别一些公众人物,GPT-4o能够很好的完成这个人物。...Q1:图中的人是谁而Gemini不知道是不是考虑安全的问题,直接回答不能够识别图中人物,但感觉是把所有的人物识别都屏蔽掉了。这个就有点不太智能。第二题,搞笑图片识别。...而对于Gemini 1.5 pro,它好像完全识别不出来这张图片的内容,也不能进行有效分析:第三题,视频识别。...目前GPT-4o已经支持视频上传并进行识别,而且支持你查询每一帧的内容比如我这里让它分析一下第40帧的内容,GPT具体分析了一下舞蹈动作和场景内容。

    70510

    AI加持的竖屏沉浸播放新体验

    本文由爱奇艺刘小辉在LiveVideoStackCon 2020 线上峰会的演讲内容整理而成,内容主要讲述通过AI智能的视频画面主体识别能力和字幕识别能力,实现在手机端竖屏全屏观看横拍视频的新体验,给用户提供沉浸视界新体验...大家好,我是爱奇艺的刘小辉,本次我分享的题目是《AI加持的竖屏沉浸播放新体验》,我会从三个方面介绍竖屏沉浸播放是什么,为什么这么做,我们是如何做的。 ? 竖屏沉浸播放是什么 ?...说话人检测主要是为了区分如果当前画面有两个人物且权重差不多,或者在交替讲话的时候,如何做区分?用到识别的方法,主要运用声纹特征和人脸特征做一个构建,声音辅助比对当前谁在说话,以此来调整权重。 ?...在其他的位置也可以看到很多不同的差异,这是由于两套算法对不同识别结果的分配权重不同而产生的结果差异。我们可以看到谷歌给出的样例小视频与我们爱奇艺处理后的对比分析结果。...左边的手机比例是3:4,我们会发现人物顶部的帽子与底部衣服领口是不可见的,而右边是9:16的常见手机屏幕比例,它从纵轴上截取了当前视频的整个画面,保证了视频的纵横比。 ?

    60720

    AI加持的竖屏沉浸播放新体验

    本文由爱奇艺刘小辉在LiveVideoStackCon 2020 线上峰会的演讲内容整理而成,内容主要讲述通过AI智能的视频画面主体识别能力和字幕识别能力,实现在手机端竖屏全屏观看横拍视频的新体验,给用户提供沉浸视界新体验...文 / 刘小辉 整理 / LiveVideoStack 大家好,我是爱奇艺的刘小辉,本次我分享的题目是《AI加持的竖屏沉浸播放新体验》,我会从三个方面介绍竖屏沉浸播放是什么,为什么这么做,我们是如何做的...说话人检测主要是为了区分如果当前画面有两个人物且权重差不多,或者在交替讲话的时候,如何做区分?用到识别的方法,主要运用声纹特征和人脸特征做一个构建,声音辅助比对当前谁在说话,以此来调整权重。...在其他的位置也可以看到很多不同的差异,这是由于两套算法对不同识别结果的分配权重不同而产生的结果差异。我们可以看到谷歌给出的样例小视频与我们爱奇艺处理后的对比分析结果。...左边的手机比例是3:4,我们会发现人物顶部的帽子与底部衣服领口是不可见的,而右边是9:16的常见手机屏幕比例,它从纵轴上截取了当前视频的整个画面,保证了视频的纵横比。

    84260

    基于Deep Learning 的视频识别技术「建议收藏」

    大家好,又见面了,我是你们的朋友全栈君。 深度学习在最近十来年特别火,几乎是带动AI浪潮的最大贡献者。...人物识别:识别出视频中出现的人物。 动作识别:Activity Recognition, 识别出视频中人物的动作。 情感语义分析:即观众在观赏某段视频时会产生什么样的心理体验。...短视频、直播视频中大部分承载的是人物+场景+动作+语音的内容信息,如上图所示,如何用有效的特征对其内容进行表达是进行该类视频理解的关键。...基于单帧的识别方法 一种最直接的方法就是将视频进行截帧,然后基于图像粒度(单帧)的进行deep learninig 表达, 如下图所示,视频的某一帧通过网络获得一个识别结果。...和单帧图特征在视频测试集上进行对比,3D CNN有更强的区分度,如下图。 类似图像识别,视频识别(人物动作识别)也有公开的训练、评测数据集,我整理了主流的一些在下面。

    1.7K32

    为什么这两家娱乐公司都在不务正业搞AI竞赛?

    不过近几年,越来越多的AI竞赛将命题从单纯的物体识别聚焦到了人物甚至人物动态识别上。这使得越来越多流媒体平台现身其中。...不同于大多数计算机视觉识别领域的竞争集中在人脸识别,此次爱奇艺AI大赛是全球范围内首个“多模态视频人物识别”领域的科研竞赛。...而此次爱奇艺推出“多模态视频人物识别挑战赛”则是侧重基于人物的声音、体态、着装、行为举止等多维度进行综合识别,更接近真实场景的需求,难度更大。...首先,视频人物识别技术的应用能够应对碎片时代内容精准获取的问题。...基于智能人物识别的“只看TA”、以图搜剧等功能,用户可更精确地捕捉视频画面,为用户带来更为个性化的观看体验,在大型综艺节目《中国新说唱》的后期制作中,人物识别就实现了精彩画面查找功能,后期制作人员通过特定标签

    62230

    sora是视频创作相关领域的坟墓吗?

    对比项目Sora视频模型其他(直接忽略名字)视频模型视频生成时间最多可达1分钟仅能生成3至4秒的视频视频生成质量清晰稳定、符合描述视频较为模糊,无法体现描述中的细节人物连贯性保持人物的连贯性,几乎可以“...以假乱真”人物脸部有细微的形变,难以始终保持同一人物的连贯性细节还原能够体现提示词中的全部细节忽略了部分细节物理世界模拟能力涌现出真实物理世界模拟的能力仍处于世界模型研究应用的初期阶段Sora模型的工作原理...所以,看到了吗,Sora之所以为强势出圈,背后的那个男人尽然是大语言模型,要问大语言模型哪家强,那自然是openai了,他们的gpt4模型依然是不可撬动的一座大山,虽然说成千上万的公司都是各种吹自己的大模型有多厉害...视频压缩网络:Sora使用视频压缩网络来进一步压缩输入的视频或图片,使其成为一个低维度的表示形式。这个过程通过空间时间补丁来分解视频或图片,以减少对视频动态内容的表示。...Sora还使用视频压缩网络进一步压缩输入的视频或图片,通过空间时间补丁将其分解为基本元素,减少对视频动态内容的表示。

    63151

    硬核粉丝 | 清华双胞胎“YCY Dance Now”杀进超越杯编程大赛决赛

    大家是否还记得去年“人人都是舞王”的研究,这次,清华大学双胞胎兄弟也做了一个类似的项目,把一些跳舞的视频作为输入,让杨超越也会跳这段舞蹈视频。...为保证结果视频的真实性,作者还结合了视频时域空间的平滑方法和真实感的面部合成方法对视频结果进行优化。...这个项目也入围了决赛,在解说 Demo 中可以了解到游戏中“写信”功能的基本设计思路:用户先选择一些设置好的分类 tag,再把自己的心事、烦恼发送给 APP,而 APP 的回复主要是通过提取超越的经典语录产生的...一个好作品当然离不开一支好团队了!这支强大的团队不仅通过收集超越的语录,整理成 200 张回信卡语录、100 张人物卡图鉴、100 张礼物卡惊喜,还设计出让很多月芽们都很爱的人物元素、美工与主题曲。...IT 技术哪家强?粉丝后援会欢迎你~有了硬技术,不用砸钱,用技术就能帮助自家 idol 树立更积极、正能量的形象,提升 level,还能影响每一位粉丝,惠利各种应援方式,“技术在,流量就在”。

    94630

    奥特曼、小猪佩奇、海贼王...AI人脸识别终于对他们下手了!

    而实现对这些卡通视频智能理解的第一步就是需要识别出这些视频里面的卡通人物身份信息。...因此构建一个大规模、高质量的卡通识别数据集,并对卡通人物身份信息进行识别,则至关重要。...对卡通人物进行识别具有广泛的应用场景,不仅可以用于视频理解对视频进行结构化分析,还可以在智能剪辑创作、图片搜索、人物审核、广告等场景中得到广泛应用。...例如图片搜索中加入卡通人物身份特征,使得搜索更加准确,通过分析视频中卡通人物的身份点位,可以提供给创作者进行智能剪辑,也可以用来对恶搞的讽刺漫画或者卡通风格人物进行审核辨识。...通过人脸识别技术对视频中的人物信息进行结构化分析,目前已在爱奇艺公司的多个产品中应用,例如“奇观”、“只看他”等,给用户带来了良好的交互体验。

    1.4K30

    中科大徐童:视频人物社交关系图生成与应用

    视频人物社交关系相关研究 在2015年前后就已经有了图像社交关系识别的研究,其中经典的工作包括PIPA(Zhang et al. 2015)、PISC(Li et al. 2017),主要解决的问题是在静态图片上理解图片中两个人物之间的关系...到2018年-2019年,社交关系识别任务逐渐推广到了视频,产生了MovieGraphs、ViSR等广为人知的数据集。...C开头的是单个人物的节点,基于人物检测或人物重识别的技术来识别。P节点是表示人物pair对的节点,G节点描述背景信息,T节点表示当前帧前后几十秒的文本信息。...区别于传统的人物检索任务,视频人物出现的场景没有特定场景限制,角度、衣着、行为一直在变化,传统检索任务中常用的重识别类方法很难获得好的效果。...此时可以利用社交关系对候选集进行筛选,实现更准确的人物识别。 基于上述思路,我们提出了一种基于社交感知的多模态人物检索方法。

    1.2K31
    领券