首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

脑声常谈丨基于人工智能的动物行为分析(捕食行为实验设计)

随着计算机技术的发展与AI 和 ML 算法的革新,也产生了一系列基于 AI 和 ML 算法的动物行为分析方法,这些分析方法从低等的小型模式动物如线虫、斑马鱼和果蝇等到高等的小鼠、猴子和狗等都均有所涉及。

小鼠姿态估计关键点定义:

对于小鼠的结构化行为,需提取小鼠肢体的运动特征。综合相似研究中小鼠姿态骨架的定义,使用16个点构成小鼠的运动骨架,分别是:鼻子,左耳,右耳,脖子,左前肢,右前肢,左后肢,右后肢,左前爪,右前爪,左后爪,右后爪,背部中心,尾巴根部,尾巴中部和尾巴尖。

Fig1 2D数据小鼠骨架标记法

Fig2 3D数据小鼠骨架标记法

这16个点可以充分代表小鼠肢体的运动状态。鼻子,左耳和右耳定位小鼠头部的运动;脖子作为头部和躯干的连接点;脖子,左前肢,右前肢,左后肢,右后肢,背部中心点和尾巴根部构成了小鼠的身体轮廓,能够描述身体轮廓的变化;左前肢和左前爪、右前肢和右前爪、左后肢和左后爪以及右前肢和右后爪分别将小鼠的四肢简化为线段,描述小鼠四肢的运动状态。尾巴根部,尾巴中部和尾巴尖将尾巴分成三段,除可以提供尾巴的位置信息外,还能够提供尾巴弯曲角度的信息。

在2D行为拍摄条件和3D拍摄条件下,摄像头摆放的位置有所不同,虽然这些机位下都需要标记16个身体关键点,但是在标记时需要注意的问题也有所不同。在2D行为拍摄条件下,摄像头摆放于实验箱的正上方,镜头方向朝向实验箱,与实验箱底面平行。小鼠的四肢在这种俯视机位下往往会被身体挡住,因此在标记时需要人工估计四肢的位置。DLC具有一定抗遮挡能力,即能够通过图像特征估计四肢的位置,通过其他信息弥补身体遮挡造成的信息缺失。在3D行为拍摄条件下,实验箱摆放于四个摄像头的中心,四个摄像头的空间位置呈旋转对称和中心对称,镜头朝向实验箱底面,与实验箱底面呈一定倾斜角。因此,在拍摄时,摄像头捕捉到的是从斜上方视角观察的小鼠。在标记中,除了自身遮挡问题,需要更加关注投影问题。未遮挡的身体部分可以直接进行标记,而遮挡的部分需要通过观察其他机位下的同步视频帧进行估计。

圆形旷场内的小鼠姿态估计:

在常规的圆形旷场内,小鼠的行为拍摄符合上述2D和3D数据标记法,因此在此处不进行过多叙述。经过实验与人工交叉验证,标记小鼠行为学视频中约200帧,即可以实验小鼠16个身体点的准确追踪。在本研究中,使用NVIDIA的RTX2080Ti显卡实现所有的DLC模型训练和模型预测,模型训练约需1-3天,模型预测时间基本与行为学视频长度一致。

有窝的圆形旷场内的小鼠姿态估计:

在有窝的圆形旷场内,小鼠因为会进入黑暗的窝,所以会造成视频中小鼠目标的丢失。在标记时,虽然可以选择不标记小鼠在窝内的帧,但是这些未标记的帧会给后续姿态时间序列处理带来噪声抑制的难题。因此,将进窝时的小鼠标记为一个点,其他帧正常标记,使模型学习到小鼠在窝内的特征,即可解决有窝的圆形旷场内由目标丢失造成的小鼠姿态估计不准确的问题。在有窝条件下的 Looming 刺激中,状态转移有向图无环,共包含四个无输入状态的节点,为初始节点,分别是在窝内、跨步、伸展和跑步。在较为慢速的在窝内和跨步初始动作中,小鼠直接通过中继动作回到窝内;在伸展初始动作中,小鼠既可以通过中继动作回到窝内,也可以通过高速的小跑动作回到窝内;在高速的跑步初始动作中,小鼠既可以直接进入窝内,也可以进行减速,先转移到小跑动作然后回到窝内。

圆形旷场内的蟋蟀和小鼠的姿态估计:

在实验中,有时会出现目标增加的问题。例如在圆形旷场中的小鼠捕食实验,需要在特定时刻将蟋蟀放入实验箱内,造成目标增加;而放入实验箱内的蟋蟀会被小鼠吃掉,造成目标丢失。这种实验情形在DLC的实例中并未被提及,因此需要拓展DLC的应用。

经过不断实验,发现这种情况下,动物姿态的估计主要面对两个问题。第一个问题是如何处理目标丢失的帧。在捕食实验中的目标丢失比有窝的旷场更加复杂。首先,目标不会在之前的帧出现,蟋蟀追踪点在不出现目标的时候标记在什么位置是是第一个问题。第二个问题是目标出现的时间短,往往在十几秒左右,且蟋蟀的体积小,在DLC抽帧时很难准确采集到蟋蟀存在的帧,因此需要进行数据集均衡处理。

针对第一个问题,在蟋蟀不出现的位置,选择图像中的角点特征比较丰富的固定位置进行标记。CNN识别特征时对边缘和角点敏感,因此选择角点能够提高其他帧DLC追踪不存在目标的稳定性。针对第二个问题,在DLC添加视频的步骤,人工裁剪包含蟋蟀的视频,使得标记帧提取前不含蟋蟀的视频时长与含有蟋蟀的视频时长一致。此圆形旷场曾预留摄像头的位置于右上方,此处有两个黑色圆点,包含足够的边缘和角点特征,选择此处作为蟋蟀未出现时的标记点。

小鼠结构化行为分解:

根据动物行为结构的音节序列理论和金字塔结构理论,在小鼠行为分解时,需要考虑以下几点。第一是小鼠身体的位移和肢体动作的分解。动物的行为包括身体的位移(Locomotion)与肢体动作(Non-locomotor movement)。身体的位移使得小鼠产生相对于环境的位置的运动,肢体动作构成动物精细的行为。因为两者的空间尺度差异较大,在行为分解时权重不匹配,所以需要首先进行分解。第二是小鼠精细肢体动作的分解。由姿态估计采集的原始数据是高维时间序列,就小鼠16个身体点的2D行为数据而言,包含16个点的横纵坐标共32维的时间序列;对3D数据而言,包含16个点的横纵竖坐标共48维的时间序列。在本实验中摄像头的帧率为30帧,拍摄行为学视频的时间一般超过15分钟,因此一个行为学视频共有约27000帧,则行为学高维时间序列的总点数为32*27000或48*27000。如此庞大的数据量和数十个空间维度,同时要考虑动物行为的序列化和层次化结构以及精细肢体动作的分解。

小鼠身体位移与肢体动作分解:

小鼠身体位移与肢体动作的分解需要考虑这两部分的数据表示。对身体位移而言,使用经典的速度参数即可以进行表示。因此仅需要从原始数据中将速度矢量从骨架数据中分离。以小鼠骨架背部中心点作为原点,与尾巴根部标记点形成方向矢量。

小鼠精细肢体动作的动态分割:

小鼠精细肢体动作即可按照动物行为结构的音节序列理论和金字塔层次理论进行分解。肢体动作序列仍然是高维时间序列,在这里,受到人类运动的高维时间序列分割的启发,结合动物运动结构的特点,使用对齐聚类分析(aligned

cluster analysis, ACA)和层次对齐聚类分析算法(hierarchical aligned cluster analysis, HACA)对小鼠的精细肢体动作进行分割。HACA 算法充分考虑了人类动作的序列性、动态性和层次性,使用基于动态时间对齐核(dynamic time alignment kernel, DTAK)的动态规划算法度量不同的动作片段之间的距离,无监督的分割动作。在动作分割时,维持不同时间长度的动作片段的相似度度量是一个核心的需要考虑的问题。例如,持续 10 秒的 grooming 行为,持续 1 秒的 rearing 行为和持续 3 秒的 walking 行为之间的相似度,这种高维动态的时间序列不能简单通过欧式距离进行度量。此时,DTAK 就起到了重要作用。DTAK 是动态时间规整(dynamic time wrapping, DTW)算法的延伸,其通过计算两时间序列所有时间点之间的距离构建距离矩阵,通过核化算法增强矩阵的结构特征后使用动态搜索算法表征两时间序列之间的相似性。

姿态层是静态的,动物在某一段时间内位置不变的姿势称为姿态。根据姿态的数据特征,需要将连续时间内的姿态骨架构成的时间序列相似程度高的临近帧组合到一起。基于这一特点,使用 k 均值聚类(k-means)的方法将数据变化不大的临近帧聚类,构建小鼠的姿态层。这一步除能构建姿态层外,还能够极大的去除数据的静态冗余,加快后续算法的运算速度,因此,也一步也常称作时间降维。构建姿态层后,需依据姿态层构建动作层。动作层是一系列姿态的连接,具有动态的特性。考虑到动作层的时间动态性,需采用 DTAK 的方法构建动作层。首先使用欧氏距离计算姿态层的距离矩阵,构建两两姿态间的相似度度量。然后,使用高斯核将距离矩阵核化,构建核化距离矩阵,突出距离矩阵的相似结构。核化是一个维度升高的过程,在能够提升数据的分离度,使低维线性不可分的问题转化为高维线性可分问题。接下来,使用谱聚类方法初始化动作片段的分割位点,使用前向算法和后向算法调整每一个分割位点的位置,在每一次调整后使用 DTAK 度量所有动作片段之间的相似度作为前向算法和后向算法的优化准则,直到相似度收敛,则求得核化距离矩阵表示的动作片段的最佳分割位点。按照分割位点将姿态层组合,即得到动作层。构建动作层后,需依据动作层构建行为层。此处已经把小鼠的身体位移与肢体动作分解,因此仅靠肢体动作构建的行为层不与位置相关。例如小鼠行走和小鼠走“太空步”,这两种行为在行为层中属于不同的行为,而在肢体动作层却完全一致,差异仅在小鼠是否发生了身体的位移。因此,行为层的构建需要依靠于结合身体位移信息。

Fig3 肢体动作分解流程

(A, 小鼠骨架序列;B, 姿态核化距离矩阵;C, 分解的动作片段;D, 肢体动作分解的三层结构;E, 小鼠 Approaching 行为的三层结构分解示意)

实验实例

捕食行为实验设计:

为给本能行为提供对照,设计捕食行为实验。使用 C57BL/6J 雄性 12 到 15周龄的小鼠进行捕食行为实验。使用标准的捕食行为实验范式训练小鼠,并在行为学测试前禁食 24 小时。行为学实验开始时,小鼠先在旷场中适应 5 分钟,然后放入蟋蟀,待小鼠捕食完成后间隔一分钟,继续放入蟋蟀,重复三次,最后一次捕食完成后继续录制 5 分钟,结束实验,共采集到小鼠 30 次捕食行为。

在原始行为学视频数据采集中,因为机位设置的不同,所以不同的视频产生的畸变也不同,对后续的分析会产生较大干扰。而不知道畸变的系数使得难以使用张氏标定法校正图像,因此采用梯形校正结合尺度校正的方法对不同的机位拍摄的视频进行近似校正。误差校正前视频的每英寸点数不一致,使得简单的拉伸无法匹配不同畸变的视频,同时也会造成老鼠形态的变化。校正后的拍摄本能行为图像的圆形旷场底面与捕食行为图像的圆形旷场底面基本重合,并且被校正为圆形。完成所有的行为学数据采集后,使用 DLC 按照 2D 姿态估计法估计所有的行为学视频中小鼠由 16 个身体点组成的姿态,然后使用 BeA 将小鼠的 2D 姿态分解为行为片段,构建行为图谱。

Fig4 行为学视频的梯形校正和尺度校正

(绿色,本能行为拍摄图像;红色,捕食行为拍摄图像)

随着人工智能和机器学习方法的发展,精准的追踪动物的姿态、无监督的分类动物行为已成为可能。

文献引用:

1、韩亚宁. 基于人工智能的动物结构化行为分析与研究[D].中国科学院大学(中国科学院深圳先进技术研究院),2021.

找实验方法,上脑声常谈

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OJOFQBishb-O6qOIdaABU5XA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券