摘要
为了更好地利用衍射神经网络(DNN)完成与现实世界计算机视觉要求相一致的任务,
灰度的结合至关重要。目前,由于表达能力的限制,DNN的功能不足以完成灰度图像
处理任务。论文课题组阐明了DNN表现力的提高与相位调制层数量的增加之间的关系,
以及可以描述衍射过程的菲涅耳数的优化。为了证明这一点,课题组数值训练了一个双
层DNN,解决了基于强度的灰度图像处理的先决条件。此外,课题组基于数字微镜器件
和空间光调制器实验构建了这种双层DNN,为MNIST和Fashion MNIST数据集实现了
基于八级强度的灰度图像分类。该光学系统分别实现了95.10%和80.61%的最大精度。
主要内容 / Main content
1.引言
深度学习革命振兴了计算机视觉(CV)领域。CV是一个赋予机器感知和解释视觉世界
的能力的领域,通常以灰度表示。一些CV应用已深入融入我们的生活,包括图像分类、
图像分割和目标检测。图像处理算法需要大量的并行计算资源。为了解决高并行性和大
规模计算需求,出现了光学神经网络(ONNs)。引入了一种称为衍射深度神经网络
(D2NN)的全光ONN框架,利用光学衍射进行计算操作,具有数千亿个人工神经元
连接的潜力。其功能也扩展到包括光学逻辑操作和图像处理任务。
D2NN使用自由空间衍射和光学参数调制进行全光计算。在D2NN中,隐藏层内的每
个衍射神经元都会调制入射光的相位/振幅。连续层之间的调制通过光学衍射连接。
神经元的值通过误差反向传播算法进行优化。被动隐藏层可以制造并组装成DNN的
物理架构。或者,DNN也可以通过将隐藏层中神经元的相位值加载到空间光调制
器(SLM)上来实现。
在CV中,图像处理任务的难度在某种程度上与图像本身所包含的信息量成正比。
二维(2D)图像熵是一种用于量化图像中存在的信息量或不确定性的度量,它
还提供了图像复杂性、随机性或无序性的度量。在图1中,显示了二值化/灰度
MNIST和Fashion MNIST数据集中所有训练样本的2D图像熵分布。排除图像
噪声的影响,Fashion-MNIST数据集中样本的2D图像熵均值为6.58,高于灰
度MNIST数据集的3.34。二值化MNIST数据集的平均2D图像熵最小,仅
为1.65。这一结果表明,与MNIST数据集中的样本相比,Fashion-MNIST数据
集中的示例包含更多的信息。二值化图像样本会导致灰度图像中包含的原始信
息丢失,从而导致其2D图像熵降低。如图1中的基准表所示,两个数据集之间
的图像分类精度存在显著差异,精度与图像信息量成反比。此外,由于目
前DNN的被动架构设计,在测试过程中使用基于强度的灰度图像作为图像分类
任务的输入具有挑战性。
图 1. MNIST 和 Fashion-MNIST 数据集中所有灰度样本的二维图像熵分布,
以及MNIST数据集中二值化样本的二维图像熵分布。
课题组介绍了一种基于数字微镜器件(DMD)和SLM的多层DNN的新架构,通过
可见光范围的多层DNN实验性地完成了基于八级强度的灰度图像分类的任务。与
二进制图像处理对应物相比,负责处理灰度图像的DNN需要更强大的表现能力。
在研究中,课题组利用了双层DNN的潜力,对菲涅耳数进行了优化,基于强度的
灰度MNIST数据集的准确度最高,为97.90%,Fashion-MNIST数据集的准确度
为86.02%。
此外,课题组的实验标志着一项开创性的成就,在对测试集中完整的10,000个灰
度样本进行评估时,基于强度的灰度MNIST数据集的测试准确率为95.10%,
Fashion-MNIST数据集的测试准确率为 80.61%。
2.实验设计
课题组采用了一种由两个相位调制层组成的更具表现力的DNN来处理灰度图
像,如图2,DMD用于显示入射光的强度信息,并通过控制每个微镜的倾斜
来衍射它。在SLM完成伽马校正后,可以在SLM上对经过训练的相位值进行
编码。入射光照射SLM后,其波阵面被调制。50:50的非偏振分束器(NPBS)
反射一半的调制光。SLM和NPBS的组合可以被视为深DNN的一个单元,
其主要职责是调制入射光并将其输出到另一个方向。每个DNN单元都可以被
视为DNN的一层。可以通过将前一个单元的输出用作下一个电池的输入来连
接电池。在最后一个电池输出后,互补金属氧化物半导体(CMOS)相机接
收光能。课题组基于这种光学架构实验构建了一个双层DNN,该架构也适用
于任何层数的DNN。
图2.多层DNN架构的示意图和照片
3.实验系统
实验光学系统采用商业上可用的光电器件作为双层DNN的块。相干光源由工作
波长为515nm的连续波二极管泵浦激光器产生。激光准直后,它以24度的角度
入射到DMD(型号:HDSLM756D65,品牌:UPOLabs)表面。DMD由
1920×1080个间距为7.56μm的微镜组成。在将图像信息编码到DMD上并反射
后,采用半波片和线偏振器来调制光的偏振。两个像素尺寸为8μm的SLM
(型号:HDSLM80R Plus,品牌:UPOLabs)用作相位调制层。两个NPBS用
于调整反射光和透射光的方向。使用CMOS相机记录输出层处的光强度。
4.模拟和实验结果
双层DNN由三个衍射和两个相位调制过程组成。第一衍射是从DMD到SLM1,
第二衍射是从SLM1到SLM2,第三衍射是从SLM2到CMOS相机。相位调制过
程可以简单地用光场和相位延迟之间的哈达玛积来表示。相位值的优化是使用
误差反向传播算法实现的。在所有衍射和相位调制过程之后,输出层的光强度
用于匹配为数据集的每个类别手动设置的真实情况。
图3.灰度MNIST数据集的仿真和实验结果
课题组从理论上分析了优化菲涅耳数值和增加相位调制层数以提高DNN性能
的好处。基于这一结论设计并开发了一个使用DMD和多个SLM的光学系统。
与之前的DNN主要使用强度二值化相比,课题组实现了对基于强度的灰度
MNIST和Fashion-MNIST数据集的测试,这些数据集包含了更多的信息。
MNIST和Fashion MNIST数据集都有10个类别,总共有60000个训练样
本和10000个测试样本。这些图像的分辨率为28×28像素。为了在灰度
MNIST数据集上进行训练和测试,课题组将分辨率提升到200×200像素,
为了在Fashion MNIST数据库上进行训练与测试,课题组把分辨率提升
到300×300像素。所有图像都设置为基于八级强度的灰度级。在模拟中,
课题组在这两个数据集上实现了高达97.90%和86.02%的准确率。在实
验中,课题组测试了完整的测试集,准确率分别为95.10%和80.61%。
图4.Fashion-MNIST数据集的仿真和实验结果
成功处理灰度图像意味着DNN现在不仅可以应用于图像分类任务,还可
以应用于更复杂的CV目标,如对象识别、显著性检测和面部识别。图像
二值化是一种图像处理技术,可用于特定任务,如对象检测和文本识别。
然而,在更实际和更广泛的应用中,二值化会导致图像细节和灰度信息
的丢失。选择不同的阈值也会导致整体性能下降。
此外,图像二值化过程需要电子设备。因此,实现用于灰度图像处理的
全光DNN也是有意义的。在更复杂的数据集中,DNN在处理二进制或
灰度图像方面的性能仍然值得讨论。此项研究为进一步验证和在更广泛
的场景中应用更强大的DNN提供了理论和实验基础。
图5.具有不同菲涅耳数的双层DNN的性能
Minjia Zheng, Wenzhe Liu, Lei Shi, and Jian Zi, "Diffractive neural
networks with improved expressive power for gray-scale image
classification," Photon. Res. 12, 1159-1166 (2024)
https://doi.org/10.1364/PRJ.513845
更多详细信息请点击阅读全文查看。
领取专属 10元无门槛券
私享最新 技术干货