北理工课题组在光卷积神经网络和机器学习研究方面取得重要进展

63c6cdb9c5eb47c5a69edc86c73ded26.png

日前,mk体育在线(中国)物理学院张向东教授课题组利用经典光的关联特性实现了具有“量子加速”功能光学卷积网络。相关成果以“Correlated Optical Convolutional Neural Network with “Quantum Speedup””为题发表在Light: Science & Applications期刊[Light Sci. Appl. 13, 36 (2024)]上。mk体育在线(中国)物理学院孙亦凡副研究员为该论文第一作者,mk体育在线(中国)物理学院张向东教授为论文通讯作者,mk体育在线(中国)物理学院孔令军研究员、李乾博士也为该工作做出了重要贡献。该研究工作得到了国家自然科学基金委的大力支持。

近年来,在现代计算机技术的加持下,以机器学习算法为代表的人工智能技术得到了极大的发展。这些技术使得人们在图像识别、自然语言生成与处理、目标检测等任务中的效率达到了前所未有的高度[Nature, 521, 436(2015)]。特别是在今年,许多国家和地区将ChatGPT这样一种基于深度神经网络算法的语言处理软件名称作为英文年度词汇,足见其影响力之大。该软件能够几乎实时地进行普通对答、文字编辑,甚至可以高质量地完成语义归纳、多种语言互译等相关工作。然而,如此出色的功能背后需要庞大的计算能力作为支撑。根据官方的资料,ChatGPT的模型参数数量超过一千七百亿,整个训练过程需要使用昂贵的设备并花费大量的时间。事实上,这样的计算资源在现有的设备技术水平条件下已经趋于饱和。因此,如何有效地降低机器学习模型的训练成本并提高其训练效率,是目前该领域发展过程中面临的一个重要问题。

为了解决这样的问题,除了发展改进原有的经典神经网络算法以外,人们还在两个研究方向上做出了大胆的尝试。他们分别是光学神经网络和量子神经网络。光学神经网络是一种利用先进光学调控手段来执行机器学习算法的经典光学信息处理过程。在该过程中,对算法的执行主要是通过光学状态调控来完成。相较于传统的电学设备,光学信息处理设备具有独特的优势,例如,与普通环境的弱耦合性、光学并行性、高速传导性等。所以,以此为基础的光学神经网络具有低能耗、低串扰、低传输延迟等优点[Nature 589, 44 (2021); Nature 589, 52 (2020)]。但遗憾的是,目前光学神经网络还并未具有算法结构上的加速效果,例如更快的模型收敛速度等。另一种潜在的改进方式是量子神经网络。这是一种基于量子计算理论的神经网络算法。近几年的研究表明,由于利用了量子态所具有的特殊关联性质,量子神经网络能够展现出算法结构上的加速。其中一个典型的例子是最近人们理论上分析的量子卷积网络 [Nat. Phys., 15, 1273(2019)]。对该网络的数值模拟结果表明,其损失函数在训练过程中具有更快的收敛速度,这也意味着其总的训练时长可以被有效缩短。然而,由于技术发展的限制,目前这样的神经网络算法很难在硬件上大规模执行,这导致其所具有的加速性难以在目前人们面对的实际问题中发挥作用。

综上所述,一方面,光学神经网络已经初步具备一定规模的实现能力,并展现出特定优点,另一方面,理论已证明量子神经网络可以提供算法结构上的加速效果,但在当下很难被大规模实现。最近我们构造出了一种新型经典光神经网络:关联光卷积神经网络。它能将两种神经网络的优点相结合,也就是,既具有算法结构加速效果,又能够相对容易地实现。下面从理论构建和实验实现两方面做介绍。

研究亮点之一:具有“量子加速”功能的关联光卷积网络理论设计

首先,研究人员利用经典光学关联性质,从理论上给出了一种能够与量子卷积网络相对应的光学神经网络结构,并将其称为关联光卷积网络。他们的方案示意图如图1所示。该网络的主要结构可以被归纳为四个部分:光源部分,卷积层部分,池化层部分,以及最后的探测部分。这四个部分中,光源部分是最为基础的部分,是整个方案能够与量子卷积网络相对应的根源, 如图1左侧被标注为的光束所示。不同于先前的光学神经网络,研究人员考虑了一种特殊的经典光学状态作为信息载体,也即多模偏振态。通过构建该状态中不同模式之间的正交关系,该状态可以有效地对量子计算中的多量子比特状态进行模拟。事实上,本文的研究人员已经在较早之前的工作中指出了多模偏振光的这一性质 [Annalen der Physik, 534, 2200360 (2022)]。光源部分之后是卷积层部分。这部分的功能是对关联光学状态进行幺正变换,如图1蓝色区域所示。该变换实际上是由一系列对两束多模偏振光进行幺正变换的模块组合而成。这些模块在图1中由蓝色的长方体标出,其细节展示在蓝色的虚线框中。实际上,每一个模块都由一系列的波片和非线性原件构成,其结构和功能均与量子计算中的双量子比特通用操作一致。在这之后是池化层部分,如图1棕色区域所示。本文的研究人员在这里设计的池化操作本质上是基于非线性光学的光束合并操作。通过合并之后,多束偏振光所携带的信息会被部分编码进较少的光束中,这使得参与“运算”的关联光束的数量能够被有效减少。与传统卷积网络中的池化层相比,该操作同样实现了数据维度的缩小。不过不同的是,本文中给出的这种方法能够让数据维度缩小的效率具备指数特征,其与量子计算中对部分量子比特进行测量从而获得子空间的过程类似。最终,在反复应用卷积和池化之后,关联光的输出需要通过探测部分来完成,如图1最右侧结构所示。在这一部分中,首先需要利用“平衡零拍探测”对出射光束的偏振状态进行 “投影测量”,然后再对所有输出光投影信息的关联进行统计。关联的大小将被作为输出结果。值得一提的是,研究人员给出的这种卷积网络的突出特点在于,利用经典光关联作为信息的基本载体,并通过对关联进行调制、统计、以及最终的测量来完成信息处理过程。这样的关联光卷积网络能够与量子卷积网络模型之间存在良好的对应关系。

图1. 关联光卷积网络方案示意图。

为了进一步确认关联光卷积网络的效果,研究人员还进行了数值研究,结果如图2所示。首先,研究人员对比了关联光卷积网络与经典卷积网络在具体数据集上的训练效果,展示在图2(a)和图2(b)中。图2(a)展示的是两种卷积网络在二分类任务中损失函数的收敛情况,图2(b)中展示的是两者在四分类任务中损失函数的收敛情况。从图中结果可以看出,这两种情形下关联光卷积网络的收敛速度均快于传统卷积网络方案。这一特点与量子卷积网络的相一致。除此之外,研究人员还展示了利用关联光卷积网络对Haldane模型基态进行分类的结果,如图2(c)所示。研究人员首先利用光学关联对Haldane模型的基态进行编码,然后将对应的关联状态(也即上文中的多模偏振光)输入相应的关联光卷积网络中,最后利用输出的结果分析得到图2(c)中红色三角形标注的折线。该折线与由标准方法得到的边界(由上色背景展示)相吻合。该结果同样与量子卷积网络的结果相一致。这些结果进一步表明,关联光卷积网络可以展示出量子卷积网络的基本特性。

图2.(a)在二分类任务训练中,关联光卷积网络与传统卷积网络损失函数随步骤数的变化情况。(b)在四分类任务训练中,关联光卷积网络与传统卷积网络损失函数随步骤数的变化情况。(c)利用关联光卷积网络对Haldane模型基态相变边界进行确认的结果。

研究亮点之二:关联光卷积网络的实验验证

为了验证关联光卷积网络的功能及可实现性,研究人员还在他们的工作中展示了对该神经网络的实验实现。实验装置示意图如图3所示。为了便于实验实现,研究人员对原有方案进行了一定程度的化简。他们选用激光的空间模式作为多模偏振态中的正交模式,并基于光学关联态的数学特性选取了特殊的状态空间来实现对应的关联光卷积网络。图3中展示的关联光卷积网络实际上是对一种用于状态分类的量子卷积网络的模拟,可以对应三个量子比特作为输入的情形。如图所示,该网络只包含了一个卷积层,池化层的功能被融入了探测过程之中。图中卷积层中包含的不同功能单元由不同的颜色标出。

图3. 关联光卷积网络的实验实现示意图。

通过该实验设置,研究人员首先研究了不同状态作为输入时的网络输出结果,如图4所示。在该过程中,研究人员选择了十个不同的关联光学状态作为输入,它们分别对应十个不同的三比特量子态。由于该神经网络的结构设置,输出的状态实际上是单束多模偏振光的投影测量结果,对应单比特量子态。考虑到所使用的经典光学状态与量子比特之间的对应关系,研究人员同样给出了如图4中展示的“密度矩阵”表示方法。图4中不同的子图对应不同的输入态情形。每一个子图中长方柱框的高度表示了理论结果,内部填充颜色的高度表示了实验结果。可以看出两者符合得很好。除此之外,研究人员还用该实验设置对三格点Haldane哈密顿量的基态进行处理,鉴别其所属的拓扑相,结果如图5所示。图5的左图中的红点是实验中直接测量到的输出结果,蓝线为理论曲线,x坐标和y坐标分别对应哈密顿量的参数。首先,从左图的数据中可以看出理论值和实验值相吻合。更重要的是,通过对曲线做二阶导数处理可以得到清晰的相图边界,与图3(c)中的结果相对应。该结果充分验证了研究人员提出的理论方案的正确性以及可行性。

图4. 不同输入情形下关联光卷积网络的输出。各子图中左侧为实部结果,右侧为虚部结果。

图5. 利用关联光卷积网络对Haldane哈密顿量基态的拓扑相进行鉴定的实验结果。

该研究团队基于经典光学关联性质设计了一种新的光学卷积网络,即关联光卷积网络。该网络可以展现出与量子卷积网络相对应的性质,包括在特定分类问题上的加速效果,以及实现量子卷积网络对量子态进行分类的部分功能。并且,研究团队还利用实验平台对该神经网络进行了实验研究,验证了他们的理论结果以及该网络的可实现性。该研究成果是光信息处理方向的重要进展,为实现更高效的光学神经网络提供了新的思路。

论文链接:https://doi.org/10.1038/s41377-024-01376-7


分享到: