NVIDIA A100 Tensor核心GPU为各种规模的人工智能、资料分析和高效能运算(HPC)作业提供前所未有的加速能力,以解决全球最严苛的运算挑战。
NVIDIA A100 Tensor核心GPU为各种规模的人工智能、资料分析和高效能运算(HPC)作业提供前所未有的加速能力,以解决全球最严苛的运算挑战。作为NVIDIA资料中心平台引擎,A100可有效率地扩充到数千个GPU,若采用NVIDIA多实例GPU(MIG)技术,则可将A100分割为七个GPU执行个体,加速各种规模的工作负载。第三代Tensor核心可加速多种工作负载的各种精度,加快获得深入分析及产品上市的时间。 完整的NVIDIA资料中心解决方案系列包含硬件、网络、应用软件、函式库的建置组块,以及NGC™上的最佳化人工智能模型和应用程序,而A100是当中的一份子。它是最强大的资料中心端对端人工智能和HPC平台,可以让研究人员提供实际结果,并将解决方案大规模部署到正式环境中。 人工智能网络很庞大,拥有数百万至数十亿个参数。并非所有的参数都需要用于做准确的预测,可以将某些参数转换为零以使模型「稀疏」而不会影响准确性。 A100中的Tensor Core可以为稀疏模型提供高达2倍的效能。虽然稀疏性功能更容易使AI推论受益,但它也可以提高模型训练的效能。 一个A100 GPU可以划分为多达七个GPU应用个体,它们在硬件层完全隔离,并拥有专属的高频宽存储器,缓冲存储器和运算核心。多实例 GPU(MIG)为开发人员提供了针对其所有应用程序的突破性加速功能,IT管理员可以为每个作业提供适当大小的GPU加速功能,从而优化利用率并扩展对每个用户和应用程序的使用权限。 A100可加速各种大小的工作量, 无论是使用多实例 GPU(MIG)将A100 GPU划分为较小的GPU应用个体,还是使用NVLink连接多个GPU来加速大规模工作负载,A100都可以轻松满足不同规模的加速需求,从最小的工作到最大的多节点工作负载。 A100的多功能性意味着IT经理可以全天候地最大化其资料中心中每个GPU的利用率。 与上一代产品相比,A100中的NVIDIA NVLink的吞吐量提高了2倍。 与NVIDIA NVSwitch™结合使用时,可以以高达600 GB /秒的速度互连多达16个A100 GPU,进而在单个服务器上实现最高的应用程序性能。 NVLink可通过HGX A100服务器主板在A100 SXM GPU中使用,而透过NVLink Bridge在PCIe GPU中则可连结最多2个GPU。 A100可提供312 teraFLOPS(TFLOPS)的深度学习性能。 与NVIDIA Volta™GPU相比,用于深度学习训练有20倍Tensor FLOPS 的效能和用于深度学习推理有20倍Tensor TOPS的效能。 具备40 GB的高频宽存储器(HBM2),A100提供了1.6TB /秒的改进原始频宽,以及高达95%的动态随机存取存储器(DRAM)利用率。A100提供的存储器频宽是上一代产品的1.7倍。 随着人工智能模型处理更高一级的挑战,例如精确的对话式人工智能和深度推荐系统,其复杂度也急剧增长。训练模型需要极强大的运算和扩充能力。 若使用精度为Tensor Float (TF32)的NVIDIA A100 第三代Tensor核心可在完全不变更程序码的情况下,提供比上一代产品高20倍的效能,若使用自动混合精度还可进一步提高2倍。与第三代NVIDIA NVLink 、NVIDIA NVSwitch™、PCI Gen4、NVIDIA Mellanox InfiniBand和NVIDIA Magnum IO™应用软件 SDK 搭配使用时,还可能扩充到数千个 A100 GPU。这表示像BERT这样的大型人工智能模型在1024个A100组成的丛集上只需37分钟即可完成训练,提供前所未有的效能和扩充能力。 NVIDIA 的训练领先地位在人工智能训练的第一个业界基准测试MLPerf 0.6中展露无遗。 A100带来创新功能以最佳化推论工作负载。其可从FP32、FP16、INT8以及一路到INT4的全精度范围进行加速,提供前所未有的多样性。多实例 GPU(MIG)技术可让多个网络在单一A100 GPU上同时运作,以最佳的方式使用运算资源。除了A100提升的其他推论效能以外,结构性稀疏可提供高达2倍的效能。 NVIDIA早已提供领先业界的推论效能,从我们在第一个业界推论基准测试MLPerf Inference 0.5中一率领先他品牌的佳绩即可窥知。A100 提供的10倍效能将进一步扩大NVIDI 的领先地位范围。 为了找出更新的发现,科学家希望透过模拟以更加了解药物开发的复杂分子、透过物理来寻找潜在的新能源,以及大气资料以更准确预测天气,并为极端天气做好准备。 A100带来的双精度Tensor核心,是自从将GPU引入HPC双精度运算技术以来最大的里程碑。原本研究人员透过NVIDIA V100 Tensor核心GPU执行双精度模拟需耗时10个小时,透过A100将可缩短为4个小时。在执行单精度矩阵乘法作业时,HPC应用程序还可以利用A100 TF32精度的 Tensor核心提供高达10倍的输送量。 客户需要能够分析、视觉化,并将庞大资料集转换成深入分析。但是,由于这些资料集分散在多个服务器上,因而经常无法实行扩展解决方案。 使用A100的加速服务器可提供所需的运算能力,包含每秒1.6 TB(TB/秒)的存储器频宽、第三代 NVLink和NVSwitch的扩充能力,来处理这些庞大的工作负载。NVIDIA资料中心平台结合Mellanox InfiniBand、Magnum IO SDK、GPU加速的Spark3.0和RAPIDS™ (GPU加速资料分析专用的应用软件套件),NVIDIA资料中心平台能用前所未有的效能和效率加速这些庞大工作负载。 运用(MIG)的 A100 可将 GPU 加速的基础架构使用率提高到前所未见的程度。MIG 可将 A100 GPU 安全地分割成多达七个独立的执行个体,让多名使用者存取 GPU 加速来执行他们的应用程序和开发项目。此外,NVIDIA 虚拟化运算服务器 (vComputeServer) 还可让资料中心管理员在 MIG 执行个体上获得虚拟机管理器架构服务器虚拟化的管理和营运优势。MIG 让基础架构管理员能以更有效细致的方式布建 GPU 资源,为开发人员提供适用的运算能力,并确保善用所有 GPU 资源。 A100平台能为超过700种HPC应用项目及各种主要深度学习架构加速。 其使用范围从桌上型计算机到服务器,再至云端服务,能提供大幅提升效能与节省成本的机会。加速现今最重要的工作
最强大的端对端人工智能和HPC资料中心平台
稀疏优化 效能加倍
多实例GPU 最佳化GPU使用率
NVIDIA AMPERE架构
新一代的 NVLINK技术
第三代的Tensor 核心
HBM2存储器

深度学习训练


深度学习推论
高效能运算


资料分析

适用于企业
深度学习、HPC与资料分析旗舰首选

复制产品链接
长按图片保存/分享
咨询表单:
咨询内容:
你还没有添加任何产品