算力

方案概述

通过国产化资源池承载，利用高性能GPU释放算力，使能上层应用，完成大模型在国产环境下的私有化部署。部署私有AI大模型提供基础大模型服务，包括推理平台、训练平台和知识问答助手，为用户提供一站式通用大模型基础服务能力。提供大模型能力管理、服务托管等一体化的管理能力，实现对认知大模型能力的平台化管理。

通过部署推理集群及训练集群，训练集群专门用于处理大规模数据和复杂计算任务，通过预处理、清洗和转换训练数据，确保数据能够高效地供给模型训练过程。推理集群通过训练完成的大模型，提供高效的计算能力以处理实时或近实时的推理请求，专注于模型的实际应用。

配置训练及推理服务器，配置AI训练参数平面高速互联，业务平面接入互联，文件存储前端网络接入平面互联。部署全闪存储，计算节点通过该存储平面访问到存储。AI训练参数平面采用ROCE网络，支持动态创建和调整网络拓扑，使用多路径技术，可以在网络故障发生时自动切换到备用路径，从而确保数据的传输不中断，支持纠错和重传机制，能够适应不同规模的数据中心需求。

方案展示