第一生活网

NVIDIA 和 IBM 致力于将 GPU 直接连接到 SSD 以大幅提升性能

莫娥环
导读 NVIDIA、IBM 和几家大学成员创建了一种架构,可为 GPU 加速应用程序提供对大量数据存储的快速细粒度访问。这项技术将使人工智能、分析和

NVIDIA、IBM 和几家大学成员创建了一种架构,可为 GPU 加速应用程序提供对大量数据存储的快速“细粒度访问”。这项技术将使人工智能、分析和机器学习培训等领域受益。

NVIDIA、IBM和大学在GPU性能技术上的突破,通过直接连接SSD而不是依赖CPU来提高性能

大加速器内存或BaM是一项有趣的尝试,旨在降低 NVIDIA GPU 和类似硬件加速器对标准 CPU 的依赖,例如访问存储,这将提高性能和容量。

Apple M1 Ultra 的 64 核 GPU 在计算和游戏基准测试中受到 NVIDIA GeForce RTX 3090 的影响

BaM 的目标是扩展 GPU 内存容量并提高有效的存储访问带宽,同时为 GPU 线程提供高级抽象,以便轻松按需、细粒度地访问扩展内存层次结构中的海量数据结构。

NVIDIA是 BaM 团队中最杰出的成员,将其广泛的资源用于创新项目,例如将常规的 CPU 为重点的任务转移到 GPU 性能核心。新的 BaM 将提供软件和硬件架构,允许 NVIDIA 图形处理器直接抓取数据,而不是依赖于虚拟地址转换、基于页面错误的按需数据加载以及其他基于标准 CPU 的机制来管理大量数据来自内存和存储区域,并在不依赖 CPU 内核的情况下处理这些数据。

为观众剖析 BaM,我们看到了两个突出的特点:GPU 内存的软件管理缓存。数据存储和显卡之间的信息传输分配由位于 GPU 核心上的线程管理,通过使用 RDMA、PCI Express 接口和自定义 Linux 内核驱动程序的过程,允许 SSD 读写需要时从 GPU 获取内存。其次,GPU 线程的软件库通过与这些驱动器通信直接从 NVMe SSD 请求数据。仅当请求的特定数据不在软件管理的缓存位置中时,GPU 线程才会根据命令准备驱动程序命令。

在图形处理器上运行以完成繁重工作负载的算法将能够以针对其特定数据访问例程进行优化的方式高效访问最重要的信息。

以 CPU 为中心的策略会导致过多的 CPU-GPU 同步开销和/或 I/O 流量放大,从而减少具有细粒度数据相关访问模式(如图形和数据分析、推荐系统和图形神经网络)的新兴应用程序的有效存储带宽网络,”研究人员在本月的论文中说。

BaM 在 GPU 内存中提供了一个高并发 NVMe 提交/完成队列的用户级库,使按需访问未从软件缓存中丢失的 GPU 线程能够以高吞吐量的方式进行存储访问,”他们继续说道。“这个用户级方法对每次存储访问产生的软件开销很小,并支持高度的线程级并行性。