前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >技术干货 | 腾讯云智媒体AI中台中的视听场景多模态分类识别

技术干货 | 腾讯云智媒体AI中台中的视听场景多模态分类识别

作者头像
腾讯云TI平台
发布于 2022-01-27 03:11:43
发布于 2022-01-27 03:11:43
1.6K0
举报
文章被收录于专栏:腾讯云TI平台腾讯云TI平台

‍腾讯云智媒体AI中台是为传媒行业量身打造的解决方案,旨在提供智能化、全流程、一站式的AI中台及开箱即用的智能编目、智能拆条等九大智能应用。因此,AI中台囊括了NLP、CV、多模态等多种能力,其中视听场景的多模态分类识别作为其中的重要能力之一,是针对视频进行特定的场景分类识别。例如,在媒资管理场景,通过音视频多模态信息构建AI算法,实现深层理解视频内容,为视频打标签及长视频拆条等。不仅如此,该能力在近日首次举办多模态分类挑战的国际权威声学场景和事件检测及分类赛事(DCASE 2021)中,也达到了接近SOTA的92.1%分类准确率。

图1 视频中的音画模态

更具体地来看,如图1所示,通过对画面——观众及声音——鼓掌两个模态的感知,能够准确地判断这段短视频为观众鼓掌,而非raining on the ground。因此,多模态信息的融合学习是非常必要的。我们构建了一种多模态场景分类系统,设计了一种轻量的音频分类Transformer模型,并创新性的提出一种数据增强的方法——feature dropout,使用特征随机混合的策略训练特征融合分类模型,不仅能够提升分类器的性能,还可以在某个特征缺失时仍可以进行有效分类。

一、多模态场景分类识别系统


图2 基于多模态特征融合的场景分类系统

如图2所示,基于多模态特征融合的场景分类系统主要由四个部分组成。分别为基于卷积视觉Transformer的图像特征提取器,基于卷积神经网络的音频特征提取器,基于音频Transformer的音频特征提取器以及基于多层感知机的特征融合分类网络。首先,图像和音频模态分别输入到特征提取模块,提取而来的特征由再融合网络给出所属场景的预测。不仅如此,融合网络也可以作为融合特征的提取器,为拆条等更多的下游任务提供模态信息。

二、Feature Dropout


图3 Feature dropout过程

在特征融合部分,我们提出并使用了一种混合特征的数据扩增方法,名为feature dropout。Feature dropout的具体形式详见公式1,详细图示见图3,表示单个模态特征的选取概率,概率符合伯努利分布;表示单个模态对应的特征embedding。训练时,对于一个样本的所有特征,根据一定的概率选取至少一种特征加入训练,针对有特征概率全为0的情况,我们还加入特征选取保护机制,随机选取一类特征作为样本加入训练。这种训练方法可以使得分类器均匀地学习到每一种特征的信息,以及融合地学习特征之间的相关性。通过这种训练方式,分类器不再倾向于关注最突出的特征,忽略其他微小却重要的辨别特征。不仅如此,该训练方式具有更强的鲁棒性,当某一模态特征缺失时,分类器也可以根据其他信息较好地完成分类。

(1)

三、技术方案在DCASE上实验效果


(1)视听分类系统分类效果

本套技术方案实现了用视觉和听觉信息共同进行场景分类,极大的提高了场景分类准确率。不仅用于媒体AI中台的多项能力中,该技术方案还在真实场景数据集DCASE2021 Task1b测试集的分类中表现突出,该任务要求为1秒种的音视频输出标签(10类),具体见表1。

表1 场景分类系统在task1b的性能

(2)feature dropout性能消融实验

我们采用的feature dropout融合特征训练策略和简单使用所有特征进行训练的对比实验如表2所示。

表2 feature dropout消融实验

同时,使用混合特征策略和使用所有特征训练的分类器在只有单一特征输入时的对比如表3所示。

表3 特征缺失对是否为feature dropout训练而来的模型性能影响

显而易见,使用feature dropout的方式训练的模型在性能提升的情况下,对单个特征的鲁棒性更强。使用所有特征进行训练时,由于图像特征的主导地位,导致音频transformer的特征没有得到很好的学习。当使用混合特征训练策略时,每一种特征都得到了足够的关注,不会过于关注易区分的特征,而忽视微小但重要的特征。

四、总结


目前,多模态场景分类识别系统技术已经被广泛应用于腾讯云智媒体AI中台的视频理解相关能力中,例如新闻综艺场景分类,视频拆条等。而从技术者的角度出发,该系统在能够广泛应用和落地的同时,还有很多细节可以优化及改进,详细的各模态网络结构及实现技术细节,详见DCASE技术报告(文末点击阅读原文可查看)及之后的workshop。


关注腾讯云AI平台

了解更多AI资讯

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云AI平台 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
全面盘点多模态融合算法及应用场景
多模态融合(Multimodal Fusion)是指结合来自不同模态(如视觉、听觉、文本等)的数据,以提升信息处理和理解能力的技术方法。多模态数据通常具有不同的物理性质和信息特征,通过融合这些多模态信息,可以获得更全面和准确的理解。这种融合过程可以发生在数据层、特征层和决策层:
TechLead
2024/05/29
9.3K1
全面盘点多模态融合算法及应用场景
腾讯发表多模态综述,什么是多模态大模型
多模态大语言模型(MLLM)是近年来兴起的一个新的研究热点,它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力,如基于图像写故事和无OCR的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。在本文中,追踪多模态大模型最新热点,讨论多模态关键技术以及现有在情绪识别上的应用。
存内计算开发者
2024/05/14
3.6K0
腾讯发表多模态综述,什么是多模态大模型
让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘
随着4G的普及和5G的推出,内容消费的诉求越来越受到人们的重视。2019年互联网趋势报告指出在移动互联网行业整体增速放缓的大背景下,短视频行业异军突起,成为“行业黑洞”抢夺用户时间,尽管移动互联网人口红利见顶,新的增长点难以寻觅,但中国短视频人均使用时长及头部短视频平台日均活跃用户均持续增常(如图1所示)。
CV君
2020/02/12
1.8K0
多模态对齐的技术瓶颈突破:从跨模态特征融合到语义空间统一的深度建模
小伙伴们,在当今科技飞速发展的时代,你是否留意到,智能设备越来越 “懂” 我们了?它们能听懂我们的话语,看懂我们上传的图片,甚至感知我们的情绪。而这背后,多模态对齐技术功不可没!今天,咱们就一头扎进多模态对齐的技术海洋,来一场刺激的技术探索之旅,看看如何突破其技术瓶颈,从跨模态特征融合一路深挖到语义空间统一的深度建模。
小白的大数据之旅
2025/04/01
1200
多模态对齐的技术瓶颈突破:从跨模态特征融合到语义空间统一的深度建模
多模态数据的行为识别综述
摘要:行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。
一点人工一点智能
2022/12/27
2.6K0
多模态数据的行为识别综述
探索多模态AI的未来:跨越视觉、语言与音频的边界
随着人工智能技术的迅速发展,AI的能力已经不再局限于单一的模态处理。传统的人工智能系统通常专注于某一种数据类型,例如文本、图像或音频,但多模态人工智能(Multimodal AI)突破了这一局限,开始在多个领域内展现出其强大的应用潜力。多模态AI的目标是融合不同类型的信息,例如图像、文本、音频等,模拟人类理解世界的方式,从而提高机器的理解能力和表现力。
一键难忘
2025/03/30
1770
内容 AI:建立统一的跨媒体多模态内容理解内核
作者:zixunsun@tencent.com Jeff Dean 谈 2020 年机器学习趋势:多任务和多模式学习将成为突破口 2019 年下半年,CDG 广告、 CSIG 音视频,IEG 内容推荐、PCG 信息流、TEG 数平广告推荐和 AI 平台部团队、WXG 看一看团队内容技术专家沟通,大家在处理内容理解任务时候,都有融合多模态特征进行内容理解需求,同时大家具有很好的技术能力和研发经验。 我们希望能建立统一的跨媒体多模态内容理解内核,对新增内容理解任务,快速完成 0-1 步积累,提升模型实
腾讯技术工程官方号
2020/01/10
4.9K1
内容 AI:建立统一的跨媒体多模态内容理解内核
多模态人物识别技术及其在爱奇艺视频场景中的应用 | 公开课笔记
在本期 CSDN 技术公开课Plus:《多模态人物识别技术及其在视频场景中的应用》中,爱奇艺科学家路香菊博士将为大家介绍了多模态人物识别技术及在视频场景中的应用。大家可以学习到爱奇艺在多模态技术领域的三项主要研究工作,并且在爱奇艺视频中是如何应用这些技术的。
AI科技大本营
2019/12/10
3K0
多模态人物识别技术及其在爱奇艺视频场景中的应用 | 公开课笔记
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 本文对最近被 TPAMI 接收的一篇综述文章 Human Action Recognition from Various Data Modalities: A Review(基于不同数据模态的人类动作识别综述)进行解读。 原综述文章地址:https:arxiv.org/pdf/2012.11866.pdf 1 概述 人类动作识别(Human Action Recognition, HAR)旨在理解人类的行为,并为每个行为分配一个标签。多
OpenCV学堂
2022/09/19
1.6K0
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑
最近,各大视频平台实时更新着冬奥赛场上的精彩瞬间集锦,谷爱凌、武大靖、苏翊鸣等运动健儿们勇闯佳绩,可喜可贺!在为中国体育的强大实力感动、欣喜的同时,我们也关注到了体育竞技背后的一些AI产业应用,比如通过动作识别技术辅助运动员日常训练和比赛打分,利用智能分类与自动化剪辑等AI技术大幅降低体育视频内容处理的人力和时间成本等。
用户1386409
2022/03/31
7760
解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑
【机器学习】多模态AI——融合多种数据源的智能系统
随着人工智能的快速发展,单一模态(如文本、图像或语音)已经不能满足复杂任务的需求。多模态AI(Multimodal AI)通过结合多种数据源(如文本、图像、音频等)来提升模型的智能和表现,适用于多样化的应用场景,如自动驾驶、医疗诊断、跨语言翻译等。
2的n次方
2024/10/15
7290
【机器学习】多模态AI——融合多种数据源的智能系统
优Tech分享 | 腾讯优图多模态图文内容的识别与定位在内容安全上的应用
如今,随着数字技术的发展与革新,深度学习在计算机视觉领域上得到越来越广泛应用,并出现在日常工作生活的各个场景之中,如人脸识别、物体的分类与检测等。这些应用都是基于视觉领域单一模态进行的,但其实现实世界并不局限于视觉这单一模态,听觉、语言文字也是现实世界的重要组成部分,仅凭单一模态可能无法对事物类型进行完美的判断。
优图实验室
2021/08/20
1.5K0
嘈杂场景语音识别准确率怎么提?脸书:看嘴唇
最近,Meta提出了一种视听版BERT,不仅能读唇语,还能将识别错误率降低75%。
量子位
2022/01/13
5610
嘈杂场景语音识别准确率怎么提?脸书:看嘴唇
更精准地生成字幕!哥大&Facebook开发AI新框架,多模态融合,性能更强
这就是Facebook、哥伦比亚大学等大学的新研究,共同开发了一个框架——Vx2Text。
量子位
2021/02/26
6050
更精准地生成字幕!哥大&Facebook开发AI新框架,多模态融合,性能更强
腾讯杰出科学家刘威:多媒体AI技术如何让广告系统更“智能”?
点个关注👆跟腾讯工程师学技术 导语|秉承“技术提效”理念,探寻多媒体AI技术于广告业务的最佳应用实践。 本文由腾讯广告多媒体AI中心总监、杰出科学家刘威撰写,他和他的团队打造了以混元AI大模型为代表的广告多媒体AI技术矩阵,并应用于腾讯广告系统升级中。这一创举提升了广告系统的理解能力,让系统更加智能,从而提高用户体验以及广告转化效果与广告制作效率。 腾讯广告秉承“技术提效”理念,基于太极机器学习平台,凭借混元AI大模型和广告大模型,充分提升了广告系统的理解能力和运算能力,助力广告主达成起量、成本和稳定
腾讯云开发者
2022/11/14
2.9K0
腾讯杰出科学家刘威:多媒体AI技术如何让广告系统更“智能”?
多模态AI的未来:从文本到视频的智能融合
随着人工智能技术的迅猛发展,多模态AI正逐渐成为研究和应用的热点。多模态AI通过融合文本、图像、音频和视频等多种数据模态,能够更全面地理解和生成信息,为各行各业带来新的机遇。本文将深入探讨多模态AI的未来发展方向,特别是从文本到视频的智能融合,并通过详细代码实例展示其技术实现。
江南清风起
2025/03/24
1130
多模态融合技术综述和应用[通俗易懂]
大家好,又见面了,我是你们的朋友全栈君。 文章目录 多模态技术基础 1,多模态融合架构(神经网络模型的基本结构形式) 1.1联合架构 1.2协同架构 1.3编解码架构(自监督) 2,多模态融合方法 2.1早期融合 2.2 晚期融合 2.3混合融合 3,模态对齐方法 3.1显式对齐方法 3.2隐式对齐方法 4,开放数据与资源 多模态深度学习综述:网络结构设计和模态融合方法汇总 基于注意力机制的融合方法 基于双线性池化的融合办法 应用1:多模态摘要(综合多模态信息生成内容摘要) 多模态摘要种类 多模态表
全栈程序员站长
2022/07/02
13.1K0
多模态融合技术综述和应用[通俗易懂]
多模态大模型技术原理与实战(3)
ChatGPT引爆了以AIGC(人工智能生成内容)为代表的第四范式 AI的市场,并成为 AI市场的热点。
顾翔
2024/09/10
3230
多模态大模型技术原理与实战(3)
CVPR 2022:字节跳动多项竞赛夺冠,发力无障碍技术创新
---- 新智元报道   编辑:好困 【新智元导读】在今年的CVPR上,字节跳动斩获了多项竞赛冠军。 作为一年一度AI计算机视觉领域的顶级盛会,CVPR 2022已经落下帷幕。 字节跳动旗下的极光-多模态技术团队、智能创作团队、火山引擎多媒体实验室团队斩获了多项竞赛冠军,覆盖「视觉问答」、「图像实例分割」、「长视频内容理解」、「图片恢复」,以及「图片视频压缩技术」等场景。 其中,两项研究成果有助于视障人群克服日常生活中的视觉挑战、提升残障人士出行的安全性,助力打造无障碍环境。 ‍帮助视障人士精准「识图
新智元
2022/07/07
1.6K0
CVPR 2022:字节跳动多项竞赛夺冠,发力无障碍技术创新
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.6K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
推荐阅读
全面盘点多模态融合算法及应用场景
9.3K1
腾讯发表多模态综述,什么是多模态大模型
3.6K0
让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘
1.8K0
多模态对齐的技术瓶颈突破:从跨模态特征融合到语义空间统一的深度建模
1200
多模态数据的行为识别综述
2.6K0
探索多模态AI的未来:跨越视觉、语言与音频的边界
1770
内容 AI:建立统一的跨媒体多模态内容理解内核
4.9K1
多模态人物识别技术及其在爱奇艺视频场景中的应用 | 公开课笔记
3K0
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
1.6K0
解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑
7760
【机器学习】多模态AI——融合多种数据源的智能系统
7290
优Tech分享 | 腾讯优图多模态图文内容的识别与定位在内容安全上的应用
1.5K0
嘈杂场景语音识别准确率怎么提?脸书:看嘴唇
5610
更精准地生成字幕!哥大&Facebook开发AI新框架,多模态融合,性能更强
6050
腾讯杰出科学家刘威:多媒体AI技术如何让广告系统更“智能”?
2.9K0
多模态AI的未来:从文本到视频的智能融合
1130
多模态融合技术综述和应用[通俗易懂]
13.1K0
多模态大模型技术原理与实战(3)
3230
CVPR 2022:字节跳动多项竞赛夺冠,发力无障碍技术创新
1.6K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
1.6K0
相关推荐
全面盘点多模态融合算法及应用场景
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文