计算需求大爆发下的光电混合计算新范式
发布时间:2022-07-22
Blog
将数以亿计的晶体管集成到指甲盖大小的芯片上,并不断提高其集成密度,是过去几十年提高芯片算力的主要方法,也是引领业界超过半个世纪之久的摩尔定律的核心内容。但由于人工智能、大数据、物联网等产业急速发展,数字经济浪潮席卷而来,作为核心生产力的算力需求激增,逐渐与芯片自身的物理极限产生矛盾,曾被视为“金科玉律”的摩尔定律正面临失效的窘境。
光或将成为解决这一问题的突破口?光子具有高通量、低延迟、低能耗的优势,且不易受到温度、电磁场和噪声变化的影响。此前,光子技术常被应用于长距离通信传输领域,光纤通信已成为各种通信网的主要传输方式。然而,光在人类社会进步中可发挥的作用可能远比我们想象中来得更大、更重要。
曦智科技率先将目光投向光领域,提出开创性的“光电混合计算新范式”概念,试图给集成电路产业提供一个区别于目前传统芯片计算范式的全新“解题思路”。
一、从光计算开始的新革命
所谓光计算,是指利用光的物理特性完成线性计算。孟怀宇博士以生活中常见的光计算——眼镜为例,指出了光计算的三大优势。
生活中的光计算
首先是低延迟,眼镜后的观察者感知到眼镜前的图像变化所需时间等于以光速穿越这一段距离所耗的时间——几乎微乎其微;其次是低能耗,眼镜放置在那里本身并不消耗能量,所有能量都消耗在光信号的产生与吸收;最后是高通量,当光信号发生高速变化时,眼镜后接收的信息也会发生高速变化,即眼镜的二维傅里叶变换正在进行高速的大通量计算。
虽然眼镜不可编程,但它的原理为光计算的实现带来了灵感。为了用光来实现一个可编程的真正有用的计算系统,曦智科技创始人兼CEO沈亦晨博士开创性地提出了利用集成光子技术实现深度学习的全新计算架构,并于2017年创立曦智科技。
2019年,曦智科技发布了全球首款光子芯片原型板卡,成功验证了以光子替代电子进行高性能计算的开创性想法。
2021年,在此基础上,曦智科技团队又发布了第二代高性能光子计算处理器PACE(Photonic Arithmetic Computing Engine,光子计算引擎),通过重复矩阵乘法和巧妙利用受控噪声组成的紧密回环来实现低延迟,从而生成了伊辛问题(Ising)的高质量解决方案。
曦智科技第二代光子计算处理器PACE
孟怀宇博士表示:“ PACE主要利用了光计算的低延迟优势。其可在3纳秒内完成伊辛问题单次迭代计算,速度达到目前高端GPU的800倍以上。”
PACE与目前高端GPU性能对比
二、光子网络,光电混合计算新范式的另一半
“光电混合计算新范式”的另一半重点则是解决数据传输问题,即“内存墙”(memory wall)问题,主要包括容量和带宽两部分内容。算力爆发的今天,相应硬件的增长速度却望尘莫及。以AI典型模型Transformer为例,两年时间,算法大小提升240倍的背后是硬件存储容量仅提高2倍的事实。因此出现了内存墙的容量瓶颈,即如何容纳更大的应用程序。
AI算法容量增长 vs DRAM容量增长
另一大挑战则是带宽瓶颈。孟怀宇博士解释道,如果将芯片想象成一个平面方块,则芯片算力与方块的面积成正比,而芯片对外的带宽与其边长成正比。因此,当芯片上晶体管密度越来越高时,如果将芯片的边长密度提高2倍,算力密度就将提高4倍。因此,无论是摩尔定律越往前走,还是通过新的计算范式来提高单位面积的算力,“喂饱”算力所需的带宽就越将成为问题。在过去的20年中,硬件的算力提升了9万倍,但DRAM带宽及网络带宽只提升了30倍。
AI算法容量增长 vs DRAM容量增长
曦智科技给出的解决方案是一种数据传输的新范式——光子网络。相较于电子数据传输的性能会随距离增长而逐渐下降,光子网络受距离的影响则小得多。孟怀宇博士表示:“理想情况下,对超过10毫米的数据传输,使用光作为传输介质更具优势,它能为解决带宽瓶颈与容量瓶颈带来更大可能,这也是曦智科技对光网络新范式的底层逻辑。”
光传输与电传输对比
目前,光传输解决方案已被应用于数据中心中,但由于光模块与使用光模块的数字芯片的距离往往在1米以上,光传输就被电传输所限制了,从而导致光传输的应用范围被局限于机架之间,而机架内部,甚至服务器内部的光传输使用非常少。为消除电传输的瓶颈,曦智科技所倡导的光子网络新范式就是将光电转换和数字芯片高度集成,形成“芯片出光”,并以此拓宽众多计算范式的可行性。
目前数据中心中的光传输
孟怀宇博士将目前数据中心的“资源池化”趋势作为例子,他表示:“我会把这种大范围的资源池化理解成计算资源的‘共享经济’。目前一个服务器要去访问另一个服务器的资源会比较困难,因为它们的互联性较差。而光子网络就可以帮助实现更好的互联性,让大范围的资源共享变成可能。最终通过资源池化,我们可以让每一个计算芯片都能访问更大的内存,有更大的带宽,从而解决内存墙问题。”
光子网络让数据中心“资源池化”变为可能
超大规模光电混合集成是实现以上一切的底层技术。对此,曦智科技也已完成了相关技术验证,成功将一块集成硅光芯片和一块电子芯片以3D封装形式垂直堆叠,使两块芯片之间的距离变得最小,实现了比现有的transceiver高1000倍以上的集成密度。
最后,孟怀宇博士还介绍了曦智科技“光电混合晶圆级计算平台”解决方案。如今,业界许多公司推出了“晶圆级计算平台”的概念,即通过更大的芯片面积来实现更高的性能,如Cerebras公司的WSE芯片。但它们的局限也显而易见:首先由于电不适合长距离通信,因此只能进行最近邻数据传输;其次,它们将面临更为严重的“内存墙”问题。对此,“光电混合晶圆级计算平台”解决方案通过晶圆级片上光网络,实现任意互联拓扑、低延迟及低能耗。同时,为了打破“内存墙”,可设立一个远端的资源池,并通过高效率的光传输,直接接入晶圆级计算平台内部的光网络,最终实现所有计算资源的最优配置。
曦智科技“光电混合晶圆级计算平台”
自2017年成立以来,曦智科技一直致力于通过以光子计算与光子网络组成的光电混合计算新范式,持续为客户提供更具创造性的高效算力支撑。