弗朗西斯科·皮雷斯
2023 年 11 月 4 日星期六下午 1:06(美国东部时间)
中国清华大学的一篇新论文描述了专门用于计算机视觉任务的超快速、高效人工智能处理芯片的开发和运行。 该芯片名为电子与光计算相结合的全模拟芯片 (ACCEL),在专门的架构中利用光子和模拟计算,能够在图像分类工作负载中提供 Nvidia A100 3.7 倍以上的性能。 是的,它是一款用于视觉任务的专用芯片,但我们不应该将其视为市场碎片化,而是将其视为迈向异构计算未来的又一步,其中半导体越来越多地设计用于满足特定需求,而不是“捕获”。 所有”配置。
正如《自然》杂志上发表的论文所述,模拟的 ACCEL 处理器在视觉任务中达到了每秒 4,600 次万亿次运算 (TOPS)。 与 Nvidia 的 A100 (Ampere) 相比,这具有 3.7 倍的性能优势,后者在 INT8工作负载(稀疏)中的峰值为 1,248 TOPS。 根据该研究论文,ACCEL 的系统能源效率为每秒每瓦74.8 peta 操作。 此后,Nvidia 的 A100 被 Hopper 及其 800 亿晶体管 H100 超级芯片所取代,但即便如此,与这些结果相比,这看起来也并不令人印象深刻。
当然,速度对于任何处理系统都是至关重要的。 然而,准确性对于计算机视觉任务来说是必要的。毕竟,这些系统用于管理我们的生活和文明的应用范围和方式是广泛的:它从可穿戴设备市场
可能在 XR 场景中)延伸到自动驾驶、工业检查以及其他图像检测和识别系统。 一般,比如面部识别。 清华大学的论文称,ACCEL 已针对 Fashion-MNIST、3 类 ImageNet 分类和延时视频识别任务进行了实验,具有“具有竞争力的高”准确度(分别为 85.5%、82.0% 和 92.6%),同时显示在弱光条件下具有出色的系统鲁棒性(每帧 0.14 fJ μm−2)。
就 ACCEL 而言,清华大学的架构通过衍射光学模拟计算 (OAC) 并辅以电子模拟计算 (EAC) 进行操作,在一块芯片中具有可扩展性、非线性和灵活性,但其 99% 的操作是在光学系统内实现的。 根据该论文,这有助于克服其他视觉架构中的限制,例如马赫-曾德干涉仪和衍射深度神经网络(DNN)。这个 99% 的数字至少可以解释 ACCEL 和其他非模拟方法之间能源效率的差异:Nvidia 的 GPU 是100% 数字化的,这意味着它的运行基于电子的连续流动(并产生废热作为 结果)。
然而,光子光学系统利用非电气方式来传输、操作和编码信息。 这可以通过特定波长的激光脉冲来完成(我们在最近关于中国量子密钥分配 [QKD] 卫星系统的文章中对此进行了探讨,也是基于光子的),用于提取和传达视觉数据(图像)的特征并进行操作 几乎在过境时就按那个灯(改变它)。由于采用了这种光学处理系统,因此能量需求更少,热耗散中浪费的电子也更少。 摆脱 ADC(模数转换器)的高能耗和延迟成本对于光子学带来的性能改进大有帮助。 这也是光子系统在量子计算和HPC(高性能计算)安装中使用的原因。
同时,我们摆脱了电子在半导体上有序但混乱的运动,并解锁了仅受光本身限制的运行速度,从而获得了速度优势。 研究论文称,该芯片的内部测试显示,每帧的计算延迟较低,为 72 纳秒,每秒生成约13,000 帧的吞吐量,足以让任何《毁灭战士》玩家忘记现实。 。 协处理器似乎也有足够的帧来分析任何计算视觉任务中选择的这些图像。 通过 ACCEL 对这些图像进行深度学习处理似乎不会成为瓶颈。
ACCEL 似乎是专用集成电路 (ASIC) 设计的模拟版本。 这正是电子模拟计算 (EAC) 单元的作用,因为它可以重新配置其中的模拟路径以加速特定任务。 将这些视为芯片内的预编程算法,由 EAC协调应将哪种配置应用于哪个任务。
研究团队联合负责人之一戴琼海表示:“为人工智能时代开发新的计算架构是一项巅峰成就。 但更重要的挑战是将这种新架构落地到实际应用中,解决国家和公众的重大需求,这是我们的责任。”
新的光子和模拟 ACCEL 芯片可能会让人想起 IBM 最近发布的另一款模拟 AI 加速芯片 (Hermes)。也许有趣的是,即使对中国实施了所有制裁,该国的研发仍使其能够迎头赶上,并且在某些方面明显有所改进,无论它们受到什么阻碍。 能够绕过限制无疑是中国考虑制裁的方式。同样重要的是要了解,这一代基于光子学的模拟芯片正在极其轻松的光刻水平上进行加工。 例如,ACCEL 是采用标准 180 nm CMOS 技术制造的,用于电子模拟计算单元 (EAC)——操作的大脑。 当然,通过进一步小型化工艺以实现更低的 CMOS 节点(Nvidia 的 H100 采用 4 nm 工艺制造),可以进一步提高效率。 目前还不清楚可以做哪些进一步的工作来小型化光学模拟计算(OAC)模块。
大规模实施 ACCEL 等模拟计算系统似乎更多的是制造吞吐量和行业适应性的问题,而不是物理上不可能的问题。 但高性能人工智能模拟芯片仍未大规模部署是有原因的:目前其制造水平太低,无法满足研究工作和原型工作以外的任何需求。 我们现在没有足够的吞吐量或可用的能力将这些芯片添加到台积电等公司已经承诺的 2025 年制造承诺中,但在承诺扩展任何东西之前总是需要这些实验结果。 此类芯片的市场非常希望拥有它们。 最终,这都是计划、支出和时间的问题。