项目概况
项目背景
某知名AI企业正在建设基础硬件平台,目的是为科研机构、初创企业和开发者提供灵活的算力支持,构建互联互通的AI创新生态,推动民生应用发展。
随着越来越多AI初创者的加入和越来越多大模型方向的项目开展,现有算力平台资源难以为继,项目间的资源争抢已成常态,严重影响了多个项目的研发进度。为此,公司亟需进行现有算力平台升级,同时考虑到新建数据中心PUE要求,液冷方案成为客户首选。
解决方案
面对客户需求,提供定制化智算解决方案,包括CPU、GPU、存储和网络模块,以满足客户的特定算力需求,避免标准化方案中的性能过剩和额外成本。通过创新的液冷改造及建设方案,不仅实现了低于1.1的全年平均PUE,还大幅摆脱了室内环境温度依赖,无需增设列间空调等设备,极大降低了系统整体能耗及建设投入成本。同时,部署了PlatforMax平台,统一管理和调度算力资源,通过图形化界面实时监控使用情况,支持分布式训练和细粒度资源管理。通过资源配额及多级权限设置,实际需求用户可在线进行资源的分钟级申请及快速提取,有效避免内部资源使用矛盾,使整体算力资源得到更合理、更高效使用。
客户价值
通过液冷升级,不仅帮助客户将全年平均PUE从原来的1.5降低到了1.1以下,更进一步保障了关键算力芯片的稳定性(最高温度较风冷下降约20%),规避了超温下降频、掉卡造成的算力衰减问题。通过PlatforMax下的资源统一化管理,解决了多项目间资源争夺问题同时,带来了运维成本的缩减,整体运维效率提升达到90%以上。