在计算机视觉应用冬季会议(WACV)上展示的两篇论文提出了增强视频流体验的神经网络模型。一项研究针对体育场地配准技术,即理解体育视频中物体空间关系;另一项研究针对片头与回顾片段自动检测,使观众可跳过电视节目中的开场回顾内容。
体育场地配准涉及将视频图像映射到场地拓扑模型,用于增强视频流传输。该技术支持美式足球转播中的虚拟首攻线或游泳转播中的虚拟世界纪录线显示。
传统方法依赖配备传感器的现场摄像机与场地参考点校准。新方法通过单一平移倾斜变焦(PTZ)摄像机实现无仪器化场地配准,可应用于小型联赛、业余赛事或非热门体育项目转播。
与仅使用场地线交叉点作为关键点的传统方法不同,新系统采用密集关键点网格建模场地拓扑结构。通过标注视频数据训练神经网络,将图像像素与场地模型中的特定关键点关联。
密集网格提升配准精度,但非线交叉点的关键点更难识别。因此引入第二信息源——表示场地线间标准距离的密集场特征集。例如美式足球场的码数标记区域。
关键点代表绝对场位置,密集特征集则表示相对于场地重复视觉元素的相对位置,形成互补特征集。为满足实时性要求,网络架构采用多任务设计:共享编码器生成向量表示,同时传递给关键点检测器和密集特征提取器。
系统仅在关键点估计不可靠时启动密集特征验证。通过自验证和在线优化模块,对视频帧进行关键点采样对齐检查,必要时使用密集特征优化估计。
结合这些技术,体育场地配准系统实现实时运行。在足球、美式足球、冰球、篮球和网球五个数据集测试中,系统性能从与基线相当到显著优于基线。美式足球测试中,交并比指标精度达到最佳基线的2.5倍。
现有内容需要手动编码才能提供跳过片头功能。新方法通过自动检测实现该功能的扩展应用。
片头通常包含屏幕叠加文字(演职员表)和背景音乐表演,回顾片段则具有快速场景切换特征。检测器采用专门响应这些元素的神经网络架构,可独立处理单集视频,无需全系列分析。
视频帧首先输入卷积神经网络(CNN),CNN通过逐块像素滤波可识别屏幕任意区域的文字。同时将音频输入相同CNN,学习音视频融合表示。
CNN输出传递至双向长短期记忆(Bi-LSTM)网络,Bi-LSTM通过前向和后向序列处理识别长期依赖关系(如特定视频序列的剪辑速率)。最后通过条件随机场进行曲线平滑,清晰划分片头、回顾与正片内容的边界。
与使用相同CNN但不同输出处理方法的基线系统对比(单层LSTM、双层LSTM、Bi-LSTM及采用维特比解码的Bi-LSTM),新系统性能显著优于所有基线方案。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。