第一生活网

英特尔推出 Habana Gaudi2 和 Greco 7nm 深度学习加速器

黎容时
导读 英特尔今天正式发布了其 7nm Habana Gaudi2 和 Greco 深度学习加速器,与 NVIDIA 的 Ampere A100 GPU 相比,其吞吐量性能高达

英特尔今天正式发布了其 7nm Habana Gaudi2 和 Greco 深度学习加速器,与 NVIDIA 的 Ampere A100 GPU 相比,其吞吐量性能高达 2 倍。

英特尔推出 7nm Habana Gaudi2 和 Greco 深度学习加速器,吞吐量性能比 NVIDIA 的 Ampere A100 高出 2 倍

最新的数据中心深度学习加速器由英特尔 Habana 实验室设计。这些是最新的专用深度学习平台,提供高比例的 DL 训练和/或推理。所以从细节开始,我们首先要指出的是,Habana Gaudi2 和 Greco 都是基于 7nm 工艺节点。不幸的是,这个细节对我们并没有太大帮助,因为 7nm 可能是指台积电、英特尔 7(以前的英特尔 10nm)或英特尔 4(以前的英特尔 7nm,可能性最小)上的 N7 工艺。

英特尔推出第 12 代 Alder Lake-HX CPU:迄今为止速度最快的笔记本电脑芯片,配备多达 16 个内核、5 GHz、16 个 PCIe Gen 5 通道、全频超频

最初的 Habana Gaudi 处理器是基于 16nm TSMC 工艺构建的,这使得该芯片更有可能在 N7 或 Intel 7 上运行。无论如何,考虑到 Gaudi 2 平台显然位于比 16nm 小得多的节点上(在本身提供了大约 50% 的密度增加),至于规格,Gaudi2 具有 24 个 TPC,用于在 FP8 格式上运行的媒体解码和处理(相对于 8 个 TPC)。内存配置包括 96 GB HBM2e 内存,提供 2.45 TB/s 带宽和额外的 48 MB SRAM。通过 24 个 100GbE 交换机提供网络连接。如此大的性能飞跃也意味着 TDP 必须大幅提高,而 Gaudi2 的 TDP 为 600W(相对于 350W)。

在性能方面,与单个 A100 80 GB GPU 相比,英特尔 Habana Gaudi2 加速器的 ResNet-50 训练吞吐量提高了 1.9 倍。在 NLP BERT Phase-1 Training 中,该芯片在 Phase-2 训练中具有 1.7 倍的吞吐量和 2.8 倍的吞吐量。最后,英特尔还汇总了 BERT 训练吞吐量比较,结果显示 Gaudi2 比其竞争对手 NVIDIA A100 提高了 2.0 倍。总体而言,与 NVIDIA 解决方案相比,新加速器可节省高达 75% 的培训成本。