前面学习了图像与声音的识别,今天来学习视频的识别。
视觉暂留:视觉暂留是人眼的一种机制。光在照射到视网膜后,可以保留一段时间,让人产生画面延续的印象。
现在的电影是数码信息,过去是胶片。我们看电影是按一秒钟播放24张胶片,由视觉暂留效应,我们看到的电影中的人物是运动的。
在计算机中视频是按顺序排列起来的图像。图像是二维的,我们可以认为视频多了一个时间维度,我们可以用函数P(x,y,t)来表示视频信息。其中x,y是视频中某一帧点的坐标,t是这一帧对应的时间。
行为识别中的难点:
1,类内差异:指同一类别的行为之间存在较大差异。如不同人做出刮胡子行为不尽相同。
2,行为定义不明确。比如在吃饭这种行为中混杂着喂饭,导致计算机对吃饭行为的理解。
3,环境背景等差异大。比如看电视,因为拍摄角度问题,有的图像有电视屏幕,有的没有。
行为识别的重要特征:运动。
比如跳远与跳高运动的辨别。一个是向上高高跃起,提膝抬腿,过杆,一个是向前远远跳出,双腿屈膝前探落地。
计算机刻画运动的方式:光流。
1,相邻两帧对应点的运动距离较小,2,对应点的颜色基本不变。通过这两条锁定对应点。
比如第t帧I(x,y,t)中的像素点P(x1,y1)对应第t+1帧I(x,y,t+1)的像素点P'(x2,y2)。
我们计算光流(实际是向量),光流w(u,v)=(x2,y2)-(x1,y1)。
计算机通过光流来识别运动行为。
领取专属 10元无门槛券
私享最新 技术干货