人工智能基础

文章来源：企鹅号 - 无有2001856

前面学习了图像与声音的识别，今天来学习视频的识别。

视觉暂留：视觉暂留是人眼的一种机制。光在照射到视网膜后，可以保留一段时间，让人产生画面延续的印象。

现在的电影是数码信息，过去是胶片。我们看电影是按一秒钟播放24张胶片，由视觉暂留效应，我们看到的电影中的人物是运动的。

在计算机中视频是按顺序排列起来的图像。图像是二维的，我们可以认为视频多了一个时间维度，我们可以用函数P（x,y,t）来表示视频信息。其中x,y是视频中某一帧点的坐标，t是这一帧对应的时间。

行为识别中的难点：

1，类内差异：指同一类别的行为之间存在较大差异。如不同人做出刮胡子行为不尽相同。

2，行为定义不明确。比如在吃饭这种行为中混杂着喂饭，导致计算机对吃饭行为的理解。

3，环境背景等差异大。比如看电视，因为拍摄角度问题，有的图像有电视屏幕，有的没有。

行为识别的重要特征：运动。

比如跳远与跳高运动的辨别。一个是向上高高跃起，提膝抬腿，过杆，一个是向前远远跳出，双腿屈膝前探落地。

计算机刻画运动的方式：光流。

1，相邻两帧对应点的运动距离较小，2，对应点的颜色基本不变。通过这两条锁定对应点。

比如第t帧I（x,y,t）中的像素点P（x1,y1）对应第t+1帧I（x,y,t+1）的像素点P'(x2,y2)。

我们计算光流（实际是向量），光流w（u,v）=(x2,y2)-(x1,y1)。

计算机通过光流来识别运动行为。

相关快讯