自ChatGPT问世引爆AIGC,国内外用户先以训练为主,掀起了一场"百模大战",而当训练阶段完毕,各大模型都来到应用阶段,推理便逐渐成为了大模型落地中的主旋律。
随着NVIDIA GTC大会的完美落幕,推理性能超越NVIDIA H100的全新NVIDIA H20 GPU已开启全面预订,超集信息作为NVIDIA NPN Elite Partner,可为您提供专业、便捷、完善、高效的算力方案构建及部署支持。
从参数来看,虽然NVIDIA H20的FP16、INT8等主要参数都低于NVIDIA A100及NVIDIA H100,但NVIDIA H20仍拥有两大优势:
1、96GB HBM3的显存容量及4 TB/s的显存带宽,能有效支持大模型研发
2、支持NVLink 900GB/s高速互联,兼容8路HGX,便于集群AI大模型训练
并且,NVIDIA H20在推理测试中的表现超过了NVIDIA H100。在分别使用单张H20、A100、H100、H200进行的三组推理测试中,NVIDIA H20的平均推理速度是NVIDIA A100的1.8倍,NVIDIA H100的1.1倍。
为什么算力参数大幅降低的H20会有如此优异的推理表现呢?
推理过程中大模型产生回答的阶段称为Decode。由于Decode过程中,回答的Tokens必须逐一生成,且每个Token生成过程中,都需要重复一次参数从HBM向算力芯片的传输,且Decode阶段不断扩大的KV Cache也需要在HBM和算力芯片间往复传输,使得Decode阶段的传输耗时高于运算耗时。
Decode阶段属于数据交互密集型场景,较高的显存带宽对加速Decode至关重要。由于H20拥有较高的显存带宽,在Decode阶段H20每产生1个Token所需要时间低于A100、H100,这也使得H20在整个推理过程中具有较高的速度优势
面向推理场景用户,系统平均Throughput(Tokens/s)越高,意味着每Token所平摊的硬件成本越低。从性价比角度来看,NVIDIA H20在大多数推理场景下,有望成为性价比更高的选择。