HPC+AI异构集群
善思采取一站式“交钥匙”工程模式提供成本最优的算力集群解决方案,采用HPC+AI异构硬件架构,专注国产自主GPU集群适配与计算网络、存储网络实践设计。
作为能够提供HPC+AI异构集群解决方案的引领者,承载大型智算中心建设的深厚经验,探索适配国产自主GPU作为集群核心,通过计算网络与存储网络的领先实践设计,建设分布式并行高效的算力集群。在大模型训练性能提升、成本优化、系统效率优化、灵活部署及节能减碳方面均有充足优势支撑。
基于用户真实的Workload,提供异构GPU选型,IB组网,高性能+大容量存储,AI集群管理平台,Transformer模型优化,迁移学习,预训练模型,Fine-Tuning,底层NCCL通信,分布式并行架构设计等一整套解决方案设计与交付服务。并提供全栈硬件、软件、算法工程师、IDC运维服务。
大语言模型解决方案
Transformer引入了全注意力机制,进入LLM时代。
语言模型的基本定义是对语句的概率分布的建模;大规模语言模型称为 LLM(Large Language Model),有效地解决了下游任务繁多、使用无监督学习方法;传统LM 模型主要解决序列问题,后来LSTM 的出现解决长时序和梯度消失爆炸问题;
大模型训练存在内存墙、通信墙、性能墙、调优墙的挑战。大模型的分布式训练考验的是算法数据、框架、资源调度等全栈和全流程的综合能力。