首页
学习
活动
专区
工具
TVP
发布

人工智能基础

前面学习了图像与声音的识别,今天来学习视频的识别。

视觉暂留:视觉暂留是人眼的一种机制。光在照射到视网膜后,可以保留一段时间,让人产生画面延续的印象。

现在的电影是数码信息,过去是胶片。我们看电影是按一秒钟播放24张胶片,由视觉暂留效应,我们看到的电影中的人物是运动的。

在计算机中视频是按顺序排列起来的图像。图像是二维的,我们可以认为视频多了一个时间维度,我们可以用函数P(x,y,t)来表示视频信息。其中x,y是视频中某一帧点的坐标,t是这一帧对应的时间。

行为识别中的难点:

1,类内差异:指同一类别的行为之间存在较大差异。如不同人做出刮胡子行为不尽相同。

2,行为定义不明确。比如在吃饭这种行为中混杂着喂饭,导致计算机对吃饭行为的理解。

3,环境背景等差异大。比如看电视,因为拍摄角度问题,有的图像有电视屏幕,有的没有。

行为识别的重要特征:运动。

比如跳远与跳高运动的辨别。一个是向上高高跃起,提膝抬腿,过杆,一个是向前远远跳出,双腿屈膝前探落地。

计算机刻画运动的方式:光流。

1,相邻两帧对应点的运动距离较小,2,对应点的颜色基本不变。通过这两条锁定对应点。

比如第t帧I(x,y,t)中的像素点P(x1,y1)对应第t+1帧I(x,y,t+1)的像素点P'(x2,y2)。

我们计算光流(实际是向量),光流w(u,v)=(x2,y2)-(x1,y1)。

计算机通过光流来识别运动行为。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190211G0UXT100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券