光学神经网络的完全前进模式培训

2025-06-23 04:26来源:本站

  在自由空间FFM系统中,使用固态激光器(MFL-FN-532)以532 nm的工作波长生成光学计算的光源。使用梁扩展器扩展了相干的光波前,然后通过梁分离器(BS013,Thorlabs)分成两个路径。一条路径针对数据/误差复合场加载的空间照明调节器(SLM),而另一路路径用作干扰光束,其光强度被两个极化器(LPNIR100-MP2,Thorlabs)衰减。用于场加载的SLM(X15213-01,Hamamatsu光子学)配置为在振幅调制模式下工作,该模式由1280×1024调制元​​件组成,其音高为12.5 µm和8位编程深度。它可以以60 Hz的最大速度调节入射光。然后通过4 F系统将幅度调制的光场与设计空间SLM(电子系列,Meadowlark光学元件)进行1:1隔开,以进行相位调节,并在用半波板和线性偏振器进行偏振后进行调节。设计空间SLM是硅设备上的反射液晶,高零级衍射效率为91%。它包含1920×1200的调制元素,每个元素的大小为8 µm,精度为8位,并以最大60 Hz的最大帧速率运行,更新时间为17 ms。相位调制SLM既用于电场加载和设计相位载荷。随后,带有输入光场和设计阶段的波前探测了对称性传播系统以执行特定的任务。输出光束向两个单独的传感器分开,然后在0.388 m的长度上传播。CMOS传感器(BFS-U3-89S6M,FLIR)用于测量复杂场,具有不错的量子效率(63.99%)和低黑噪声(2.47 E-)。使用两个传感器分别测量结果的幅度和相位。CMOS传感器可以使用42 Hz的最大帧速率,像素设置为4096×2160, 每个像素的大小为3.45 µm,并且读数值配置为8位。为了测量复杂场,我们采用了相位移动全息图,其中参考光束和信号梁之间的相位差异为0,0.5πradian和1.0πRadian,用于重建信号光的相位和振幅。在补充图15中说明了一个自由空间光学系统。光子数通过可变的中性密度过滤器控制。

  我们配置了2/4/6/8层网络,每一层的传播距离为0.388 m。为了通过散射实验进行成像,调节器和散射介质之间的距离为0.194 m,而散射介质和输出传感器之间的距离也为0.194 m。章节中每一层内的计算操作包括两个阶段(图2A):设计区域中的光学调制和固定的自由空间传播。利用自由空间传播的对称性(用虚线表示),使用FFM学习方法来优化空间调节剂中液晶的有效索引。液晶在纯相模块中配置;因此,优化在本质上是关于有效折射率NR的实际部分。具体而言,在设计过程中,数据字段(以蓝色为例)通过物理系统进行传播。将此数据传播的结果输出与目标输出进行比较,以生成误差字段(以橙色表示)。然后将这些误差字段通过对称系统转发传播,以获得错误字段输出。使用数据输入和错误输出计算每个设计层的梯度。在进行FFM学习之前,通过两步传播验证了空间对称的互惠性(补充注4)。图2a的底部面板中说明的实验设置以0.388 m的传播距离和160,000个光学神经元(400×400)实现了一层数据和错误传播。通过将信号梁与参考光束连接到相变的全息图来检索复杂的光场来探测复杂的输出光场。地面真相目标是将指定合适类别的单次编码设定为单次编码。在错误传播中,层参数以相反的顺序加载。

  对于图3中的结果,将覆盖3.2 mm×3.2 mm面积的输入波前分为400×400像素,并同时优化以通过散射介质实现集中成像。随后使用设计的焦点来评估位于散射介质以外的对象的点扫描。该分辨率是根据(参考文献48)计算出来的,而NA代表数值孔径;另请参见补充图11中的插图。实验中使用了两种类型的散射培养基。第一种类型是使用带有随机相模式的kilohertz高速调制器生成的。可以通过将散射模式的粒度划分为不同大小的散射程度。第二种类型的散射介质是用二手胶带制成的(补充图8)。在动态平行的NLOS实验中,调制器与场景中的对象之间的距离以及对象和相机之间的距离均为0.194 m。实验中使用了两个不同的NLOS系统。对于图4B中的结果,输入和输出光被扩散反射器进行了两次反映,“ T”,“ H”和“ U”靶标放置了0.04 m(补充图16)。为了进行相成像和全光处理,为了适应大型训练数据编号,扩散反射器和目标是用另一个SLM投影的。所有实验的神经元具有400×400的神经元的8 µM神经元。

  此外,在扩展数据图4a中,我们说明了FFM学习在成像相位图像中的应用,分辨率为28×28。通过FFM学习,NLOS区域的SLM预测的相位目标被转换为摄像机的强度图像在视线(LOS)区域的相机上。除了FFM学习外,对图像重建的ANN(补充注释7)接受了同一任务的培训,并使用了四个手写数字进行学习。在扩展数据的底部,我们表征了在不同的信噪比水平下恢复的图像与原始图像之间的结构相似性。通过15 dB的信噪比,FFM Learne的SSIM指数为0.81,而ANN仅恢复了具有0.40 SSIM相似性的图像。此外,我们采用了绕其中心点散射阶段的旋转(补充图14)。该系统以两个旋转速度运行,表示为V1 = 1.0度,每个迭代v2 = 2.5度。结果显示在扩展数据图4B中;凭借较低的旋转速度,硅内的ANN最终会收敛到与FFM相同的精度,尽管需要更大数量的迭代。随着旋转速度从V1增加到V2(ν,旋转速度),ANN模型随着散射介质的变化而同步降解。相比之下,随着学习过程的发展,FFM学习继续提高其准确性。

  集成的光子芯片在商业硅光子铸造中被挖出。To facilitate an end-to-end incoherent matrix-vector multiplication, the chip realizes a photonic core, incorporating four grating coupler arrays for on- and off-chip optical coupling, 220 nm fully etched strip waveguides for signal routing, four multimode interferometers for optical fan-in and fan-out, and four p–i–n VOAs for weight programming.

  模具芯首先是从制成的8英寸晶片中切成丁。然后将光学输入和输出(I/O)用纤维阵列打包,并将电输入垫粘合到芯片外键入专用的印刷电路板。包装下的芯片如图5b所示。包装方法的详细信息还在补充注释6中描述。包装后,在集成光子实验系统中,如图3所示,两个激光器的输出功率为10 dbm,用作两通道输入源。对于不连贯的矩阵操作,一个激光以精确的波长为1,550 nm,而另一个激光在1,551 nm处运行。使用极化控制器调节光纤内的光的极化,以确保其与光栅耦合器的横向电耦合模式的对齐。在极化控制之后,使用两个微电机械系统变量光学衰减器(V1550A,ThorLabs)来编码输入信号和假想折射率指数的重量。然后,通过纤维阵列将变量光衰减器的输出耦合到光子芯片中。在芯片上,由任意波形发电机控制的四个P – I – N VOA衰减了扇形的两通道输入光,并将信号扇入了两个单独的输出路径。随后将衰减的光耦合到外片,并由5 GHz光二极管检测到,在1,500–1,600 nm的光带上校准了约1.0 A/W校准的光次数。用100kΩ的变速器放大捕获的光电流(AMP100,Thorlabs)的变速器放大,并最终测量了放大的输出电压信号,并通过多机通道示波器进行测量并读取。

  主要文本中介绍的该网络包括五层神经元计数,分别为16、16、16、8和8,从第一层到最后一层。在每一层中,输入数据分为对,每个都包含两个元素。这些输入对使用互不连贯的波长编码,并通过对称核心。使用高速光二极管检测到所得的输出,其中互不连贯的信号被加在一起。因此,每个核心执行矩阵矢量乘法操作。为了促进层间连接,在连接到后续层之前,神经元的输出会被改组。

  在自由空间和集成系统中,FFM学习顺序分为四个步骤:数据传播,最终损耗计算,错误传播和梯度计算。正如补充注释5所述的那样,完整的FFM学习协议需要在现场执行计算密集型传播之间的光学系统和电子系统之间的协同作用。在电子方面,它负责监督层之间的光电非线性激活,最终损耗和梯度计算以及输入数据加载。此外,我们已经确认可以使用现场光学和电子设备来计算损失和梯度,如补充注释13中所述。此外,可以在无需数字电子设备的情况下完全通过光学或光电来实现非线性函数。

  MNIST DATASET49是一个十类手写数字的集合,包括60,000个培训样本和10,000个测试样本。每个原始样品被转换为图像,分辨率为392×392,然后零填充为400×400的分辨率。在多层分类实验中,使用十个类别中的每个样本都用于构建输入复杂场,并将相位设置为零。在NLOS任务中,样品被视为看不见的对象,并将其建模为用于成像和分类的仅相位掩码。

  Fashion-Mnist DataSet50包括十种不同类别的时尚产品,包括一个带有60,000个样本的培训套装和带有10,000个样本的测试套装。将每个原始样品转换为图像,分辨率为392×392,然后将分辨率填充到400×400。在多层分类实验中,每个样本都用于创建输入复杂场,并将相位集合为零。

  CIFAR-10 DataSet51是8000万个小图像数据集的子集,其中包含50,000张培训图像和10,000张测试图像。每个原始样品被转换为灰度图像,并调整为400×400的分辨率。在多层分类实验中,每个样品都用于构造以相位设置为零的输入复杂场。

  Imagenet DataSet52是根据WordNet层次结构组织的图像数据库,其中层次结构的每个节点被描绘成成千上万的图像,总共有1.2亿张培训图像和50,000张图像进行测试。每个原始样品被转换为灰度图像,并调整为400×400的分辨率。在多层分类实验中,每个样品都用于构造带有相值设置为零的输入复杂场。

  MWD数据集53包括四个不同室外场景的天气状况图像:日出,闪耀,雨和多云。它总共包含1,125个样本,其中800个样品用于培训,并进行了325个样品进行测试。每个原始样品都被转换为灰度图像,分辨率为400×400。在多层分类实验中,这些灰度图像用于构建输入复杂场,所有样品的相位设置为零。

  虹膜数据集54由三个虹膜物种组成,每个物种有50个样品,以及描述每朵花的几种特性。其中一种花与其他两个物种线性分离,而另外两个物种则不能彼此线性分离。在我们的实验中,我们使用了120个样品,其中有40个来自每个物种的样品进行训练,并使用30个样品进行测试。数据集中的每个原始样品都包含四个描述虹膜形状的条目。在PIC实验中,每个条目都重复以创建四个相同的数据点,从而总共16通道输入数据。

  真实的场景数据集专为涉及现实世界对象的NLOS方案而设计。它由具有不同区域的玻璃镀铬板组成:反射性和半透明。反射区域代表物理场景本身(字母针对“ T”,“ H”和“ U”)。在训练过程中,使用单个反射区域,并在同一平面内系统地移动以产生九个不同的训练场景。测试数据由三个字母组成,由多个反射区域组成。在测试过程中,场景板用电动级翻译,以将不同的字母放置在照明区域内。

  输入数据;输入是由设计的复杂重量加权的,并传播到输出。将传播矩阵表示为;每个层的传播是。在深空神经网络中,网络模型是L是层的总数。在通过散射介质进行成像时,y = tSTMX,其中s代表散射介质的运输。在NLOS成像系统中,ROB代表NLOS对象反射率,而RREF表示反射器(请参阅《运输矩阵中对称性》的补充注释3)。

  自由空间神经网络中使用的损耗函数是平均平方误差(MSE)损失,该损失计算了预测的输出与地面真相之间的平均平方差。在深处的分类任务中,对于图2C,D,我们分别使用60,000、60,000、30,000和800个样品进行培训,以及10,000、10,000、10,000、5,000和325个样品在使用MNIST,CIFAR-10,Fashion-Mnist,Fashion-Mnist和MWD数据集时进行测试。For Fig. 2f,g, we used 10,000, 8,000 and 5,200 samples for training, and 500, 200 and 200 samples for testing, on MNIST (categories ‘0’, ‘2’, ‘4’, ‘6’, ‘8’), CIFAR (categories ‘automobile’, ‘dog’, ‘frog’ and ‘horse’) and ImageNet (categories ‘tabby’, ‘basketball’, ‘castle’ and'信封')。将目标配置为二进制图像,其中最大值在与相应类别相对应的检测区域中标准化为1.0,其余区域为0。使用MSE损失来测量输出衍射场的强度与所需目标之间的差异。计算测试精度时,我们对每个实验进行了五次测试,并获得了收敛结果的平均值。在高分辨率成像系统中,聚焦目标是图像中央区域中值为1.0的二进制图像,直径为10像素,周围区域为0。将输出场的强度与所需的目标进行了比较,以计算MSE损失。在平行的动态NLOS成像和处理系统中,3×3平方网格阵列成像的目标是二进制图像,在格栅的特定区域中值为1.0(高反射率),形成了字母,例如“ t”,“ t”,“ h”或“ u”。在高分辨率阶段成像中,通过将要检测到的对象的灰度图像进行分类来获得目标。对于相位对象成像,我们从四个不同类别中选择对象:“ 0”,“ 2”, “ 7”和“ 9” - MNIST数据集,并将像素值映射到相位范围0 -π。输出目标是原始强度图像。对于NLOS系统中的“相位对象分类任务”,我们从MNIST数据集中使用了两个类别,“ 0”和“ 7”,2,000个样本进行培训和200个样本进行测试。目标是类似于深度光学神经网络中使用的矢量。使用MSE损失来量化预测强度输出与成像和分类实验的所需目标之间的差异。用于优化自由空间神经网络参数的优化器是Adam Optimizer55,它结合了指数加权的平均和加速梯度下降。

  在PIC网络中,将16通道输入乘以16通道调制掩码M1,结果通过局部2×2矩阵连接到下一层。在16通道输出中,每对相邻的输出仅与相应的输入对有关,可以通过。调制面膜的相同以满足对称条件。之后,16通道输出经历了特定的改组过程。根据预定表:T1 = [0,2,1,3,4,6,5,7,8,8,8,1111,12,12,14,13,15],将其重新排列。第2层遵循与第一层相似的结构,输出的改组表定义为T2 = [0,4,8,12,1,5,9,13,2,6,10,14,3,7,11,15]。因此,第3层通过求和相邻的通道输入以获得单个输出通道YN,将调制的16通道输入转换为8通道输出。然后,根据另一个预定义的表T3 = [0,2,1,3,4,6,5,7]将输出改组。第4层与第一层相似,但只有八个通道,并且使用了一个新的改组表:T4 = [0,4,1,5,2,6,3,7]。最后一层类似于第3层,将调制的八通道输入转换为四通道输出。最终输出用于确定与输入数据相对应的类别。在补充图16中可视化网络体系结构。

  光子综合神经网络的损失函数是跨透明拷贝损失,旨在最大程度地减少预测概率分布与真实概率分布之间的差异。它可以通过以下方式计算:

  使用给定的最终输出概率分布Y5,目标标签GT,训练样品N和类别K的数量。在光子积分神经网络中,输出是从示波器接收到的电压信号的大小,目标是输入数据的标签。该数据集总共包含120个培训样本和30个测试样本。跨透镜损失用于测量输出和目标之间的差异,并使用ADAM优化器优化损耗。

  传统上,对非官方系统中特殊点的研究需要数值求解A先验模型56。在这里,我们从数字上证明,FFM可以自我设计的非铁人在不诉诸物理模型的情况下在特殊点上穿越。如图1的扩展数据所示,我们研究了对称双波导中的波传播,其中一个波导用于增益,而另一个波导是损失的。在研究的情况下,虽然我们可以通过以光学信号为食来探测系统,但我们并不明确知道哈密顿量的配方。为了设计增益和损失,我们将其用作系统的破坏系统的横向互惠,即通过将输入输入到对称通道中来控制输出信号的不对称性,但最大程度地提高了一个波导的输出(补充注释8)。据观察,通过FFM学习,系统输出可以从倒数转变为非倒数制度,反之亦然。在与非富裕光学方面的知识进行比较时,我们发现由FFM自我设计引导的开关伴随着自发的平价时间对称性破坏,并且学习过程与非Hermitian编织组相对应。FFM设计提供了一种面向目标的方法来解决复杂的拓扑系统。

  实现具有更深层和更大范围的神经网络对于光学计算以获得更高的性能至关重要。如扩展数据表1所示,自由空间神经网络中最多五个,在以前的作品中报道的可重构光神经网络的深度最多为五个,而PICS 17,18,19,24,34,38。进一步增加网络深度将导致错误积累并降低神经网络的性能24。FFM机器学习方法减轻了数值模型的必要性,因此没有不精确的建模问题。因此,FFM Learning在具有数百万个参数的自由空间神经网络中至少具有八个深度的ONN,并达到了五个深度的集成光子电路。在FFM学习过程中,网络的性能稳定增加。关于新兴神经网络培训方法的更详细讨论57,58在补充注释10中进行了。

  通过具有高精度的散射介质的关注具有微观和宏观成像59,60的应用。现有通过散射方法的关注依赖于对反馈的优化,反馈不是最佳的,并且收敛速度很慢。61。FFM学习将聚焦系统转变为面向目标的现场神经网络,并学会以梯度下降进行聚焦。我们的结果达到了光学分辨率的理论极限。

  NLOS是一个困难的情况,可以将物体隐藏在视线之外。如扩展数据2所示,由于缺乏直接光子,成像在NLOS中具有挑战性,需要专用扫描,以便速度通常限制为每帧62,63,64秒至分钟。FFM学习本质地将高度扩散的繁殖模拟到成像系统的一部分中,并可以单次拍摄对象的并行成像。我们的系统展示了1毫秒的曝光时间,但是可以使用高速相机进一步加速速度。FFM学习还可以将NLOS的传播转换为现场处理系统的一部分,因此,隐藏的对象可以在每个像素的<1 photon中进行全面处理。

  FFM学习支持现场拓扑光子系统的分析。我们在一个与理论分析很好的非热系统系统上实现了结果。先前的研究需要首先通过仔细调整收益和56,65,65,66,67的损失,将系统脱机并仔细地在现场进行理论结果进行建模。我们的发现表明,在不仔细的离线建模的情况下,也可以在现场实现非甲米系统的对称性破坏,这是一种研究光学技术的新方法,并可能有助于设计大型和更高顺序的拓扑系统。

左文资讯声明:未经许可,不得转载。