麻省理工学院基于光的机器学习系统可产生大型语言模型

时间:2023-09-25 10:21来源:激光原创作者:xuji 点击:
------分隔线----------------------------

摘要:

关键字:麻省,理工学院,基于,光,的,机器,学习系统,可,

ChatGPT 因其能够根据用户的一些提示编写论文、电子邮件和计算机代码而成为世界各地的头条新闻。现在,麻省理工学院领导的团队报告了一种系统,该系统可以产生比 ChatGPT 背后的程序强大几个数量级的机器学习程序。他们开发的系统所使用的能源也比当今机器学习模型背后最先进的超级计算机少几个数量级。

  在最近一期的《自然光子学》中,研究人员报告了新系统的首次实验演示,该系统使用数百微米级的激光,基于光的运动而不是电子的运动进行计算。该团队报告称,与最先进的机器学习数字计算机相比,新系统的能源效率提高了 100 倍以上,计算密度(衡量系统能力的指标)提高了 25 倍以上。

  在论文中,该团队还指出“未来的改进还需要提高几个数量级”。因此,作者继续说道,该技术“为大规模光电处理器开辟了一条途径,以加速从数据中心到分散边缘设备的机器学习任务。” 换句话说,手机和其他小型设备可能能够运行目前只能在大型数据中心计算的程序。

  此外,由于该系统的组件可以使用当今已使用的制造工艺来创建,“我们预计它可以在几年内扩展到商业用途。例如,所涉及的激光阵列广泛应用于手机面部识别和数据通信。”第一作者 Zaijun Chen 说道。他是麻省理工学院电子研究实验室 (RLE) 的博士后,现在是一名助理南加州大学教授。

  麻省理工学院电气工程与计算机科学系副教授、这项工作的负责人 Dirk Englund 表示:“ChatGPT 的规模受到当今超级计算机能力的限制。训练更大的模型在经济上是不可行的。我们的新技术可以使跨越机器学习模型成为可能,否则在不久的将来是无法实现的。”

  他继续说道,“我们不知道如果下一代 ChatGPT 功能强大 100 倍,它将会具有什么功能,但这就是这种技术可以允许的发现机制。” 恩格伦德还是麻省理工学院量子光子学实验室的负责人,隶属于 RLE 和材料研究实验室。

  进步的鼓声

  目前的工作是英格兰德和许多同事在过去几年中不断取得进展的最新成果。例如,2019 年,Englund 团队报告了导致当前演示的理论工作。该论文的第一作者 Ryan Hamerly(现供职于 RLE 和 NTT Research Inc.)也是本文的作者之一。

  当前《自然光子学》论文的其他合著者包括 RLE 的 Alexander Sludds、Ronald Davis、Ian Christen、Liane Bernstein 和 Lamia Ateshian;以及柏林工业大学的 Tobias Heuser、Niels Heermeier、James A. Lott 和 Stephan Reitzensstein。

  ChatGPT 背后的深度神经网络 (DNN) 基于庞大的机器学习模型,可模拟大脑如何处理信息。然而,即使机器学习领域不断发展,当今 DNN 背后的数字技术也已达到极限。此外,它们需要大量能源,并且主要局限于大型数据中心。这推动了新计算范式的发展。

  光神经网络及其潜力

  使用光而不是电子来运行 DNN 计算有可能突破当前的瓶颈。例如,使用光学的计算可能比基于电子的计算消耗更少的能量。此外,陈说,利用光学,“你可以拥有更大的带宽”或计算密度。光可以在更小的区域内传递更多的信息。

  然而,当前的光学神经网络(ONN)面临着巨大的挑战。例如,它们使用大量能源,因为它们在将基于电能的传入数据转换为光方面效率低下。此外,所涉及的部件体积庞大并且占据大量空间。虽然 ONN 非常擅长线性计算(例如加法),但它们不擅长非线性计算(例如乘法和“if”语句)。

  在当前的工作中,研究人员引入了一种紧凑的架构,首次解决了所有这些挑战,并且同时解决了另外两个挑战。该架构基于最先进的垂直表面发射激光器 (VCSEL) 阵列,这是一种相对较新的技术,用于激光雷达遥感和激光打印等应用。《自然光子学》论文中报道的特定 VCEL是由柏林工业大学的 Reitzenstein 小组开发的。“这是一个合作项目,没有他们就不可能实现,”哈默利说。

  耶鲁大学助理教授 Logan Wright没有参与当前的研究,他评论道:“Zaijun Chen 等人的工作。基于调制 VCSEL 阵列的系统可能是实现大规模、高速光学神经网络的可行途径,这一点鼓舞着我以及该领域的许多其他研究人员。当然,目前的技术水平仍远未达到实际有用设备所需的规模和成本,但我对未来几年可以实现的目标感到乐观,特别是考虑到这些系统必须加速的潜力非常大规模、非常昂贵的人工智能系统,例如 ChatGPT 等流行文本“GPT”系统中使用的系统。”

  参考文献:“利用相干 VCSEL 神经网络进行深度学习”,作者:Zaijun Chen、Alexander Sludds、Ronald Davis III、Ian Christen、Liane Bernstein、Lamia Ateshian、Tobias Heuser、Niels Heermeier、James A. Lott、Stephan Reitzenstein、Ryan Hamerly 和 Dirk Englund ,2023 年 7 月 17 日,《自然·光子学》。

  DOI:10.1038/s41566-023-01233-w

  Chen、Hamerly 和 Englund 已为这项工作申请了专利,该工作由美国陆军研究办公室、NTT Research、美国国防科学与工程研究生奖学金计划、美国国家科学基金会、自然科学与工程研究院赞助加拿大研究委员会和大众基金会。

【激光网激光门户网综合报道】( 责任编辑:xuji )
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------

【媒体须知】凡注明"来源:激光门户网portalaser.com.cn"的作品,包括但不限于本网刊载的所有与激光门户网栏目内容相关的文字、图片、图表、视频等网上内容,版权属于激光门户网和/或相关权利人所有,任何媒体、网站或个人未经激光门户网书面授权不得转载、摘编或利用其它方式使用上述作品;已经书面授权的,应在授权范围内使用,并注明"来源:激光门户网"。违反上述声明者,本网将追究其相关法律责任。

【免责申明】本文仅代表作者个人观点,与激光网激光门户网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:portallaser@qq.com

Copyright   2010-2035 portalaser.com.cn Inc. All rights reserved.激光门户 版权所有
鄂ICP备2022018689号-1