英特尔推出 Habana Gaudi2 和 Greco 7nm 深度学习加速器

2022-05-11 09:45:37

导读英特尔今天正式发布了其 7nm Habana Gaudi2 和 Greco 深度学习加速器，与 NVIDIA 的 Ampere A100 GPU 相比，其吞吐量性能高达

英特尔今天正式发布了其 7nm Habana Gaudi2 和 Greco 深度学习加速器，与 NVIDIA 的 Ampere A100 GPU 相比，其吞吐量性能高达 2 倍。

英特尔推出 7nm Habana Gaudi2 和 Greco 深度学习加速器，吞吐量性能比 NVIDIA 的 Ampere A100 高出 2 倍

最新的数据中心深度学习加速器由英特尔 Habana 实验室设计。这些是最新的专用深度学习平台，提供高比例的 DL 训练和/或推理。所以从细节开始，我们首先要指出的是，Habana Gaudi2 和 Greco 都是基于 7nm 工艺节点。不幸的是，这个细节对我们并没有太大帮助，因为 7nm 可能是指台积电、英特尔 7(以前的英特尔 10nm)或英特尔 4(以前的英特尔 7nm，可能性最小)上的 N7 工艺。

英特尔推出第 12 代 Alder Lake-HX CPU：迄今为止速度最快的笔记本电脑芯片，配备多达 16 个内核、5 GHz、16 个 PCIe Gen 5 通道、全频超频

最初的 Habana Gaudi 处理器是基于 16nm TSMC 工艺构建的，这使得该芯片更有可能在 N7 或 Intel 7 上运行。无论如何，考虑到 Gaudi 2 平台显然位于比 16nm 小得多的节点上(在本身提供了大约 50% 的密度增加)，至于规格，Gaudi2 具有 24 个 TPC，用于在 FP8 格式上运行的媒体解码和处理(相对于 8 个 TPC)。内存配置包括 96 GB HBM2e 内存，提供 2.45 TB/s 带宽和额外的 48 MB SRAM。通过 24 个 100GbE 交换机提供网络连接。如此大的性能飞跃也意味着 TDP 必须大幅提高，而 Gaudi2 的 TDP 为 600W(相对于 350W)。

在性能方面，与单个 A100 80 GB GPU 相比，英特尔 Habana Gaudi2 加速器的 ResNet-50 训练吞吐量提高了 1.9 倍。在 NLP BERT Phase-1 Training 中，该芯片在 Phase-2 训练中具有 1.7 倍的吞吐量和 2.8 倍的吞吐量。最后，英特尔还汇总了 BERT 训练吞吐量比较，结果显示 Gaudi2 比其竞争对手 NVIDIA A100 提高了 2.0 倍。总体而言，与 NVIDIA 解决方案相比，新加速器可节省高达 75% 的培训成本。

免责声明：免责声明：本文由用户上传，如有侵权请联系删除！

标签：