美国当地时间3月18日下午,全球瞩目的NVIDIA GTC 2024正式开幕,黄仁勋化身"泰勒·斯威夫特"引爆全场,发布了较NVIDIA H100 GPU拥有5倍性能提升的NVIDIA B200 GPU以及30倍LLM推理加速的NVIDIA GB200超级芯片。
全新架构,性能再升级
NVIDIA B200 GPU
"Hopper很棒,但我们需要更大的GPU",伴随着黄仁勋的演讲,基于全新Blackwell架构的最新一代AI芯片——NVIDIA B200 GPU正式亮相。
左:B200,右:H100
NVIDIA B200 GPU采用4纳米(4NP)工艺蚀刻而成,整合了两个独立制造的裸晶(Die),并由10TB/s带宽连接,共有2080亿个晶体管,提供高达20 petaflops的FP4八精度浮点运算能力。
相比之下,NVIDIA H100 GPU的晶体管数量为800亿个,提供4 petaflops的FP4八精度浮点运算能力,NVIDIA B200 GPU直接实现了5倍性能提升,实现了又一次重大突破。
最强合体,超级芯片诞生
NVIDIA GB200
NVIDIA B200 GPU带给我们的震撼还未消散,黄仁勋又放大招,为我们带来了结合2个NVIDIA B200 GPU和1个Grace CPU,由900GB/s超低功耗NVLink芯片连接的超级芯片——NVIDIA GB200,让AI公司能够训练更大、更复杂的模型。
过去,训练一个拥有1.8万亿参数的模型需要8000个Hopper GPU 和15兆瓦的功耗;如今,同样的工作只需要2000个Blackwell GPU就能完成,功耗仅为4兆瓦。并且,取决于各种Blackwell设备的内存容量和带宽配置,工作负载的实际性能可能会更高。
相比于NVIDIA H100 GPU,NVIDIA GB200不仅可以带来30倍LLM推理加速,更可是将成本和能源消耗降低至1/25。在GPT-3(1750亿参数)大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。
整柜封装,快速交付及部署
GB 200 NVL72
面向超大型算力需求的企业,NVIDIA还推出了整体封装设计的NVIDIA GB200 NVL72整柜解决方案,可实现快速交付与便捷部署。
黄仁勋于现场表示:"一个GB200 NVL72机柜可以训练27万亿参数的模型。"目前为大家熟知的GPT-4参数规模为1.8万亿,而一个NVIDIA GB200 NVL72机柜便可完成近15个GPT-4规模模型的训练。
NVIDIA GB200 NVL72将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,拥有30TB高速内存,可实现总计720 petaflops的AI训练性能,或1,440 petaflops(1.4 exaflops)的推理性能。
柜内搭载的18个Blackwell计算节点(每个计算节点由两个GB200超级芯片组成)由NVIDIA Quantum-X800 InfiniBand和Spectrum™-X800以太网平台连接,支持高达800Gb/s的网络。
大会现场,黄仁勋还自豪地晒出了AI芯片技术的发展图,并表示:"在过去,计算能力平均每十年性能提升100倍。而在过去的八年中,NVIDIA已经将性能提升了1000倍。"
但算力升级同时,关键芯片及相关零部件功耗不断攀升,此次全新发布的NVIDIA B200 GPU功耗更达到了前所未有的1000W,已突破传统风冷散热的解热极限。面对前所未有的散热挑战,NVIDIA GB200 NVL72整柜解决方案及DGX GB200 SuperPod解决方案均采用新型高效液冷散热架构。液冷散热技术,已成为未来算力建设的必然趋势。
苏州超集信息科技有限公司作为NVIDIA NPN Partner,一直以来都致力于液冷计算领域的专业技术研发,并已实现服务器液冷计算技术的难点攻克,具备从液冷部件到液冷整机、液冷整柜到智能液冷数据中心集群的研发、设计、部署、实施、售后的能力,能够以更高效、更稳定、更绿色的高性能计算及人工智能解决方案,助力多场景用户完成高效算力升级。
超集信息针对目前传统数据中心建设和运营中能耗效率低,散热效率低,算力密度低等痛点进行专项优化,完成了LiquidMax智能液冷数据中心解决方案的研发及应用,能够以更高算力密度部署、更强设备散热能力、更低改造建设成本、更优能耗使用效率、更快液冷改造速度助力用户实现高效算力升级。