最近,各大视频平台实时更新着冬奥赛场上的精彩瞬间集锦,谷爱凌、武大靖、苏翊鸣等运动健儿们勇闯佳绩,可喜可贺!在为中国体育的强大实力感动、欣喜的同时,我们也关注到了体育竞技背后的一些AI产业应用,比如通过动作识别技术辅助运动员日常训练和比赛打分,利用智能分类与自动化剪辑等AI技术大幅降低体育视频内容处理的人力和时间成本等。
为了让大家深入了解这些AI技术在产业中的应用,降低AI落地门槛,百度飞桨、百度智能云、大连理工大学刘胜蓝副教授联合推出产业实践范例,在花样滑冰动作识别、多模态体育视频分类、足球视频精彩片段剪辑三个经典场景,提供了从数据准备,方案设计,模型优化部署的全流程教程,深入浅出详解产业落地方案,手把手教用户进行代码实践。
⭐项目链接⭐
https://github.com/PaddlePaddle/awesome-DeepLearning
所有源码及教程均已开源,欢迎大家使用
深度学习技术赋能体育赛事的
三大典型范例
1、花样滑冰动作识别
花样滑冰的运动轨迹复杂性强、速度快、类别多,这对识别任务来说是极大的挑战。本范例首次将基于人体骨架关键点的人类动作识别算法 ST-GCN(时空图卷积网络模型),运用于花样滑冰动作识别,可以实时地识别视频中花样滑冰运动员的技术动作并添加标注予以分类,在比赛和训练过程中做辅助打分以及动作质量评估。
场景难点
如花样滑冰动作有跳跃、旋转、托举、步伐及转体、燕式步,其中跳跃是最重要的动作要素之一,选手起跳与落冰所用冰刃方式与空中旋转周数分为多种,因此可以产生多种组合,这就增加了分类的难度。
为了解决以上问题,技术方案选型的思考是什么呢?本范例通过选择ST-GCN,并在已发布的论文基础上改进了网络结构,为解决基于人体骨架关键点的人类动作识别问题提供了新颖的思路,也取得了较大的性能提升。下图为本项目中构建的ST-GCN网络结构图。
最终通过修改batch_size、num_classes参数,可以达到91%的精度。
2、多模态体育视频分类
近日,各类冰雪运动视频受到人们的广泛关注。为了提炼出用户真实的兴趣点和高层次语义信息,企业需要对视频所带文本、音频、图像多模态数据多角度理解。飞桨联合百度云带来多模态分类任务,给视频打多个描述内容的标签,用于内容圈选、投放等多个推荐系统场景,可谓是文娱媒体工作者的福音。
场景难点
基于以上难点,实践范例融合文本、视频图像、音频三种模态进行视频多模特征抽取,再进行特征融合,最后进行多标签分类,相比纯视频图像特征,显著提升高层语义标签效果。
本次范例总结了多种优化经验,基于融入实体信息的强大预训练ERNIE,提升文本表征能力,固定住ERNIE 的参数,后置TextCNN 网络学习领域内知识,加速模型训练,多模态cross attention 提升不同模态的交互能力,最终达到85.59%的模型精度。
3、足球视频精彩片段剪辑
体育比赛集锦类视频需要快速高质量的自动化剪辑工具对视频快速处理。专业体育训练需要大数据支撑,通过比赛或日常训练视频回放熟悉自己和对手,进行战术演练,媒体行业也需要工具提取需要的视频内容,产出高时效性的新闻素材。
场景难点
为解决以上问题,我们最终选取TSN+BMN+LSTM作为基础模型方案,保障片段提取的准确度。优化策略包括使用用于提取视频图像特征的飞桨特色模型PP-TSM、TSN和TSM,数据扩充和扩展时序行为proposal。最终准确率达到91%,F1-score达到76.2%。
本文分享自 PaddlePaddle 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!