前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑

解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑

作者头像
用户1386409
发布2022-03-31 15:16:34
6860
发布2022-03-31 15:16:34
举报
文章被收录于专栏:PaddlePaddlePaddlePaddle

最近,各大视频平台实时更新着冬奥赛场上的精彩瞬间集锦,谷爱凌、武大靖、苏翊鸣等运动健儿们勇闯佳绩,可喜可贺!在为中国体育的强大实力感动、欣喜的同时,我们也关注到了体育竞技背后的一些AI产业应用,比如通过动作识别技术辅助运动员日常训练和比赛打分,利用智能分类与自动化剪辑等AI技术大幅降低体育视频内容处理的人力和时间成本等。

为了让大家深入了解这些AI技术在产业中的应用,降低AI落地门槛,百度飞桨、百度智能云、大连理工大学刘胜蓝副教授联合推出产业实践范例,在花样滑冰动作识别、多模态体育视频分类、足球视频精彩片段剪辑三个经典场景,提供了从数据准备,方案设计,模型优化部署的全流程教程,深入浅出详解产业落地方案,手把手教用户进行代码实践。

⭐项目链接⭐

https://github.com/PaddlePaddle/awesome-DeepLearning

所有源码及教程均已开源,欢迎大家使用

深度学习技术赋能体育赛事的

三大典型范例

1、花样滑冰动作识别

花样滑冰的运动轨迹复杂性强、速度快、类别多,这对识别任务来说是极大的挑战。本范例首次将基于人体骨架关键点的人类动作识别算法 ST-GCN(时空图卷积网络模型),运用于花样滑冰动作识别,可以实时地识别视频中花样滑冰运动员的技术动作并添加标注予以分类,在比赛和训练过程中做辅助打分以及动作质量评估。

场景难点

  • 花样滑冰运动很难通过一帧或几帧图像中的人物姿态去判断动作类别;
  • 花样滑冰相同大类、不同小类的两个动作类别仅存于某几帧的细微差异,判别难度极高。然而,其他帧的特征也必须保留,以便用于大类识别以及“多义帧”处理等情况。

如花样滑冰动作有跳跃、旋转、托举、步伐及转体、燕式步,其中跳跃是最重要的动作要素之一,选手起跳与落冰所用冰刃方式与空中旋转周数分为多种,因此可以产生多种组合,这就增加了分类的难度。

为了解决以上问题,技术方案选型的思考是什么呢?本范例通过选择ST-GCN,并在已发布的论文基础上改进了网络结构,为解决基于人体骨架关键点的人类动作识别问题提供了新颖的思路,也取得了较大的性能提升。下图为本项目中构建的ST-GCN网络结构图。

最终通过修改batch_size、num_classes参数,可以达到91%的精度

2、多模态体育视频分类

近日,各类冰雪运动视频受到人们的广泛关注。为了提炼出用户真实的兴趣点和高层次语义信息,企业需要对视频所带文本、音频、图像多模态数据多角度理解。飞桨联合百度云带来多模态分类任务,给视频打多个描述内容的标签,用于内容圈选、投放等多个推荐系统场景,可谓是文娱媒体工作者的福音。

场景难点

  • 视频标签具有高层语义特点,单模态特征难以表达,高质量视频分类数据有限,对应的图像、音频、文本高语义特征提取困难;
  • 不同模态之间存在语义鸿沟,模态之间交互存在挑战,不同模态可能存在互相干扰情况;
  • 视频主题混杂以及长视频处理困难问题,单模态可能存在较大噪声和缺失情况,对模型的鲁棒性有较高要求。

基于以上难点,实践范例融合文本、视频图像、音频三种模态进行视频多模特征抽取,再进行特征融合,最后进行多标签分类,相比纯视频图像特征,显著提升高层语义标签效果。

本次范例总结了多种优化经验,基于融入实体信息的强大预训练ERNIE,提升文本表征能力,固定住ERNIE 的参数,后置TextCNN 网络学习领域内知识,加速模型训练,多模态cross attention 提升不同模态的交互能力,最终达到85.59%的模型精度。

3、足球视频精彩片段剪辑

体育比赛集锦类视频需要快速高质量的自动化剪辑工具对视频快速处理。专业体育训练需要大数据支撑,通过比赛或日常训练视频回放熟悉自己和对手,进行战术演练,媒体行业也需要工具提取需要的视频内容,产出高时效性的新闻素材。

场景难点

  • 动作检测任务复杂度高:视频精彩片段剪辑任务的实现要点在于准确找到该类动作发生的起止点。但体育类视频内经常包含大量冗余的背景信息,动作类别多样且持续时长相对较短,要精准的判断出动作的起始点和对应类别,任务难度高;
  • 视频中的信息具有多样性,如何有效利用这些特征信息。

为解决以上问题,我们最终选取TSN+BMN+LSTM作为基础模型方案,保障片段提取的准确度。优化策略包括使用用于提取视频图像特征的飞桨特色模型PP-TSM、TSN和TSM,数据扩充和扩展时序行为proposal。最终准确率达到91%,F1-score达到76.2%。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PaddlePaddle 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
媒体处理
媒体处理(Media Processing Service,MPS)是一种云端音视频处理服务。基于腾讯多年音视频领域的深耕,为您提供极致的编码能力,大幅节约存储及带宽成本、实现全平台播放,同时提供视频截图、音视频增强、内容理解、内容审核等能力,满足您在各种场景下对视频的处理需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档