文|新智元
编辑|张佳
神经网络是一种机器学习模型,广泛用于机器人目标识别、自然语言处理、药物开发、医学成像和驱动无人驾驶汽车等任务。使用光学现象加速计算的新型光学神经网络可以比其他电子对应物更快、更有效地运行。
但随着传统神经网络和光学神经网络越来越复杂,它们消耗了大量的能量。为了解决这个问题,研究人员和包括谷歌、IBM和特斯拉在内的主要科技公司开发了“人工智能加速器”,这是一种专门的芯片,可以提高培训和测试神经网络的速度和效率。
对于电子芯片,包括大多数人工智能加速器,有一个理论上的最低能耗限制。最近,MIT的研究人员开始为光神经网络开发光子加速器。这些芯片执行数量级的效率更高,但它们依赖于一些体积庞大的光学元件,这些元件限制了它们在相对较小的神经网络中的使用。
在《物理评论X》上发表的一篇论文中,MIT的研究人员描述了一种新型光子加速器,它使用更紧凑的光学元件和光信号处理技术,以大幅降低功耗和芯片面积。这使得芯片可以扩展到神经网络,比对应的芯片大几个数量级。
比传统电子加速器的能耗极限低1000万倍以上
神经网络在MNIST图像分类数据集上的模拟训练表明,加速器理论上可以处理神经网络,比传统电子加速器的能耗极限低1000万倍以上,比光子加速器的能耗极限低1000倍左右。研究人员现在正在研制一种原型芯片来实验证明这一结果。
“人们正在寻找一种能够计算出超出基本能耗极限的技术,”电子研究实验室的博士后RyanHamerly说:“光子加速器是很有前途的……但我们的动机是建造一个(光子加速器)可以扩展到大型神经网络。”
这些技术的实际应用包括降低数据中心的能耗。“对于运行大型神经网络的数据中心的需求越来越大,而且随着需求的增长,它越来越难以计算,”合著者、电子研究实验室的研究生Alexander Sludds说,其目的是“利用神经网络硬件满足计算需求……以解决能源消耗和延迟的瓶颈”。
与Sludds和Hamerly合写该论文的有:RLE研究生、联合作者Liane Bernstein;麻省理工学院物理教授Marin Soljacic;一名麻省理工学院电气工程和计算机科学副教授Dirk Englund;一名RLE的研究员电子芯片,以及量子光子学实验室的负责人。
依赖于一种更紧凑、节能的“光电”方案
神经网络通过许多包含互联节点(称为“神经元”)的计算层来处理数据,从而在数据中找到模式。神经元接收来自其上游“邻居”的输入,并计算一个输出信号,该信号被发送到下游更远的神经元。每个输入也被分配一个“权重”,一个基于其对所有其他输入的相对重要性的值。随着数据在各层中“深入”传播,网络逐渐学习更复杂的信息。最后,输出层根据整个层的计算生成预测。
所有人工智能加速器的目标都是减少在神经网络中的特定线性代数步骤(称为“矩阵乘法”)中处理和移动数据所需的能量。在那里,神经元和权重被编码成单独的行和列表,然后结合起来计算输出。
在传统的光子加速器中,脉冲激光编码了一个层中每个神经元的信息,然后流入波导并通过分束器。产生的光信号被送入一个称为“Mach-Zehnder 干涉仪”的正方形光学元件网格中,该网格被编程为执行矩阵乘法。干涉仪用每个重量的信息进行编码电子芯片,使用处理光信号和重量值的信号干扰技术来计算每个神经元的输出。但是有一个缩放问题:对于每个神经元,必须有一个波导管,对于每个重量,必须有一个干涉仪。由于重量的数量与神经元的数量成正比,那些干涉仪占用了大量的空间。
“你很快就会意识到输入神经元的数量永远不会超过100个左右,因为你不能在芯片上安装那么多的元件,”Hamerly说,“如果你的光子加速器不能每层处理100个以上的神经元,那么很难将大型神经网络应用到这种结构中。”
下一篇:电子芯片 ICCAD 2020:芯片缺货的原因,当真只是晶圆产能不足吗?