新的计算引擎A2虚拟机-云中首个NVIDIA安培A100 GPU

2020-07-08 00:42:30

机器学习和高性能计算应用程序永远不会以合理的价格获得过高的计算性能。今天,我们很高兴在Google计算引擎上推出基于NVIDIA Ampere A100张量核心GPU的加速器优化VM(A2)系列。单个虚拟机中最多有16个GPU,A2虚拟机是公共云中第一个基于A100的产品,现在可通过我们的私有Alpha计划提供,并将于今年晚些时候公开提供。

采用NVIDIA Ampere A100 GPU的加速器优化型虚拟机A2 VM系列旨在满足当今最苛刻的应用程序-支持CUDA的机器学习(ML)培训和推理等工作负载,以及高性能计算(HPC)。与上一代GPU相比,每台A100 GPU提供高达20倍的计算性能,并配备40 GB高性能HBM2 GPU内存。为了加速多GPU工作负载,A2使用NVIDIA的HGX A100系统提供高速NVLink GPU到GPU带宽,可提供高达600 GB/s的带宽。A2虚拟机配备多达96个Intel Cascade Lake vCPU、可选的本地固态硬盘,适用于需要更快的数据馈送到GPU和高达100 Gbps网络的工作负载。此外,A2虚拟机提供对底层GPU服务器平台架构的完全vNUMA透明性,从而实现高级性能调整。

对于一些要求苛刻的工作负载,每个虚拟机多达16个GPU,机器越大越好。为此,我们有一个2兆PU-16G实例,带有16个A100 GPU,总共提供640 GB的GPU内存,在使用新的稀疏功能时,在单个虚拟机中提供高达10petaflops的FP16或20petaOps的int8的有效性能。为了最大限度地提高性能并支持最大的数据集,该实例附带1.3 TB的系统内存和聚合NVLink带宽高达9.6 TB/s的全对全NVLink拓扑。我们期待看到您如何将此基础架构用于计算密集型项目。

当然,A2虚拟机也有较小的配置,使您可以满足您的应用程序对GPU计算能力的需求。A2系列虚拟机有两种不同的CPU和网络与GPU比率,使您能够匹配最适合您的应用程序的预处理和多虚拟机网络性能。

NVIDIA的新安培架构适用于我们A2实例的新安培GPU架构具有多项创新,这些创新可立即让许多ML和HPC工作负载受益。与上一代Volta V100的FP32性能相比,A100的新张量浮点32(TF32)格式提供了10倍的速度改进。A100还具有增强的16位数学功能,支持FP16和bFloat16(BF16),速率是TF32的两倍。现在还支持INT8、INT4和INT1张量运算,这使得A100成为推理工作负载的一个同样出色的选项。此外,A100的新稀疏张量核心指令允许跳过对零值条目的计算,导致INT8、FP16、BF16和TF32的张量核心计算吞吐量翻了一番。最后,多实例组(MIG)功能允许将每个GPU分区为多达七个GPU实例,从性能和故障隔离的角度完全隔离。总而言之,每台A100都将具有更高的性能、更高的内存、非常灵活的精度支持,以及增强的进程隔离功能,可在单个GPU上运行多个工作负载。

入门我们想让您轻松开始使用配备A100 GPU的A2虚拟机外形。借助我们的Deep Learning VM映像,您可以快速开始使用计算引擎,这些映像预配置了运行高性能工作负载所需的一切。此外,Google Kubernetes Engine(GKE)、云AI平台和其他Google Cloud服务不久将提供A100支持。

要了解有关A2 VM系列的更多信息并请求访问我们的Alpha,请联系您的销售团队或在此处注册。公开供应和定价信息将在今年晚些时候公布。