行业背景
随着《中国教育现代化2035》等规划的落地,加强教育信息化基础设施建设,响应国家科技创新驱动发展战略,提升教育设备设施能力是培养创新型人才的基础,有助于促进教育与产业需求对接,培养符合产业需求的人才。
目前在人工智能与自然语言处理、计算机视觉、语音识别、自动驾驶、工业制造、金融风控等多领域的研究和教学中,例如针对大语言模型基于深度学习技术,研究大规模模型计算,开展包括文本分类、命名实体识别、语义角色标注等相关技术研究的需求都在日益增长。
高校有责任提供高质量的教育环境,提升设备设施能力是提高教学质量和学生实践能力的关键。当前的技术迅猛发展的背景同样为教育设备设施的升级提供了成熟的技术条件和解决方案,国家和地方政府在教育信息化、产教融合等方面提供了政策支持和资金投入,为项目建设提供了良好的时机。
设备投入正常运营后,除支持学校相关课题组的自身科研,为课题组承担的国家级重大重点项目提供支撑保障,产出高水平科研成果外,同时也为横向项目提供硬件基础。因此需求专业的集群管理平台,纳入资源池对校内外正常开放,设立共享规则,利于社会资源的优化配置。
目前在人工智能与自然语言处理、计算机视觉、语音识别、自动驾驶、工业制造、金融风控等多领域的研究和教学中,例如针对大语言模型基于深度学习技术,研究大规模模型计算,开展包括文本分类、命名实体识别、语义角色标注等相关技术研究的需求都在日益增长。
高校有责任提供高质量的教育环境,提升设备设施能力是提高教学质量和学生实践能力的关键。当前的技术迅猛发展的背景同样为教育设备设施的升级提供了成熟的技术条件和解决方案,国家和地方政府在教育信息化、产教融合等方面提供了政策支持和资金投入,为项目建设提供了良好的时机。
设备投入正常运营后,除支持学校相关课题组的自身科研,为课题组承担的国家级重大重点项目提供支撑保障,产出高水平科研成果外,同时也为横向项目提供硬件基础。因此需求专业的集群管理平台,纳入资源池对校内外正常开放,设立共享规则,利于社会资源的优化配置。
算力平台需求
系统架构从底层到上层依次是:基础设施、硬件资源、基础软件以及应用服务。整个项目可提供基础设施到基础软件这一整个软硬件平台,以及软硬件平台和上层应用的兼容性,上层应用涉及各个领域。
基础设施:提供高性能计算运行的基础设施环境,包括机房建设、空调系统等。
硬件平台:提供标准机架服务器作为计算节点,囊括CPU节点、GPU节点及登录管理节点等;提供高性能计算所需要的计算网络、业务管理网络、设备监控网络;提供分布式存储系统,支持通过横向扩展硬件节点线性增加整系统容量与性能,满足存储高并发要求。
基础软件:提供集群管理软件, 实现异构资源的高效管理、调度和监控,提供人工智能模型开发、模型训练到部署的完整功能,同时适用于生命科学、气象预报、量子力学、油气勘探等科学计算领域,广泛应用于教育、科研、金融、医疗、能源等适用人工智能或科学计算以及智算融合的领域; 集成多种主流调度器,兼容多种操作系统。
基础设施:提供高性能计算运行的基础设施环境,包括机房建设、空调系统等。
硬件平台:提供标准机架服务器作为计算节点,囊括CPU节点、GPU节点及登录管理节点等;提供高性能计算所需要的计算网络、业务管理网络、设备监控网络;提供分布式存储系统,支持通过横向扩展硬件节点线性增加整系统容量与性能,满足存储高并发要求。
基础软件:提供集群管理软件, 实现异构资源的高效管理、调度和监控,提供人工智能模型开发、模型训练到部署的完整功能,同时适用于生命科学、气象预报、量子力学、油气勘探等科学计算领域,广泛应用于教育、科研、金融、医疗、能源等适用人工智能或科学计算以及智算融合的领域; 集成多种主流调度器,兼容多种操作系统。

并行计算和存储解决方案
针对分布式计算的计算特性,高性能 GPU 服务器可以作为分布式计算集群中的高性能计算节点。在大规模数据处理任务中,如大数据分析中的矩阵运算或者图计算,GPU 服务器能够提供比普通 CPU 服务器高得多的计算性能。
分布式文件存储系统具备提供更高的容量、性能和可靠性的能力,通过提供全闪集群和海量数据集群的方案,聚合读写性能随规模扩大线性增长,提升集群并发能力支持人工智能业务需求,同时支持海量数据存储,支持在线扩容, 多协议融合互通访问。
分布式文件存储系统具备提供更高的容量、性能和可靠性的能力,通过提供全闪集群和海量数据集群的方案,聚合读写性能随规模扩大线性增长,提升集群并发能力支持人工智能业务需求,同时支持海量数据存储,支持在线扩容, 多协议融合互通访问。

分布式存储系统构建
使用Platformax智算融合平台 简化运营和运维,依据用户需求提供统一平台(统一入口或统一调度集成),提供统一的用户管理、资源管理、计费、报表管理等功能,支持对计算、存储、网络资源统一监控、日志管理。

高性能计算节点配置
配置数十台CPU/GPU计算节点,囊括Intel Xeon平台、AMD EPYC平台,GPU资源以NVIDIA Geforce/Tesla 系列显卡为主,主要应用与深度学习领域的单精度计算。

平台简化运营运维
组建MatrixStore分布式存储,以多台全闪服务器与多台存储服务器共同组建算力池,根据业务需求对不同存储介质进行分组提供服务,配置灵活的分级存储配置。
推荐机型