眼动追踪是一项科学应用技术,用户无需与交互设备物理接触即可发送信息与接收反馈。从原理上看,眼动追踪主要是研究眼球运动信息的获取、建模和模拟,用途颇广。而获取眼球运动信息的设备除了红外设备之外,还可以是图像采集设备,甚至一般电脑或手机上的摄像头,其在软件的支持下也可以实现眼球跟踪。
下面说的这篇论文是MIT2016年在CVPR上发的一篇论文。论文主要是基于移动设备的眼动追踪技术,使用了卷积神经网络来预测视点。
使用移动设备进行眼动追踪技术能提供许多好处:
作者开发了在移动设备上收集严冬追踪数据的iOS软件,可以记录并上传数据,名字叫GazeCapture,有三个特性:
其中,可变性:为了学习强大的眼动追踪模型中,数据的显着变化很重要。这种可变性对于实现高精度无校准眼动追踪至关重要。鉴于我们使用众包(crowdsourcing platform),期望拥有姿势,外观和光照的变化很大。其次,要求参与人员不断移动头部和头与手机之间的距离。最后,要求参与人员每次都要改变移动设备的方向60点。可以使用内置传感器检测此更改在设备上。这改变了相对位置相机和屏幕提供进一步的可变性。
为了关联每个手机设备里的AMT任务(手机此次数据的活动),每个工作人员随后键入了AMT中的唯一代码进入他们的移动应用。点位置都是随机来自13个固定location(loc),并通过固定loc学习calibration的影响。
为了证明数据的可变性,作者使用了X. Zhang, Y. Sugano, M. Fritz, and A. Bulling. Appearance-based gaze estimation in the wild的方法对每一帧来估计头部姿势h和凝视方向g,在GazeCapture MPIIGaze和TabletGaze上绘制h和g的分布作。虽然我们的数据集包含一个类似的总体分布h与现有数据集相比,异常值的比例明显更大。
论文目标是设计一个通过一张图片就能预测视点的鲁棒模型,采用CNN。
输入包括左眼,右眼,脸的原始帧图像检测。输出是距离相机的距离,单位是厘米。
为了估测模型的泛化能力(通过calibration-free),得出一下结论:无约束的眼睛追踪,以及消融研究。
论文:Krafka K, Khosla A, Kellnhofer P, et al. Eye Tracking for Everyone[C]// Computer Vision & Pattern Recognition. 2016.