为网络管理员导航生成式 AI
发布时间:2023-08-22 16:53
众所周知,人工智能正在改变世界。对于网络管理员而言,人工智能可以以一些令人惊叹的方式改善日常运营:
重复性任务的自动化:这包括监控、故障排除和升级,可以节省时间,同时降低人为错误的风险。
网络安全:人工智能可以帮助实时检测和应对安全威胁。例如,NVIDIA Morpheus 使网络安全开发者能够创建经过优化的实时数据 AI 流水线。
拓扑优化:借助合适的遥测技术,人工智能可以分析流量模式并提出更改建议,从而优化网络性能。
主动式网络规划:人工智能可以使用同样的高级网络遥测技术来评估趋势,以预测潜在问题,并在问题发生之前提出更改建议,从而避免问题的发生。
然而,人工智能无法取代经验丰富的网络管理员的专业知识。人工智能旨在增强您的能力,就像一个虚拟助理一样。因此,人工智能可能会成为您最好的朋友,但生成式 AI 是一种新的数据中心工作负载,它带来了新的范式转变:NVIDIA 集合通信库(NCCL)。
数据中心的演变
网络管理员不得不处理许多其他近期更改:
如何配置网络
如何监控和管理网络
如何设计网络
网络上的协议和工作负载
不久前,我们可能已经通过特定网络命令行界面(CLI)的专业水平来衡量新网络管理员的价值。随着混合云计算和 DevOps 的出现,从 CLI 到 API 的转变也在不断发展。
甚至您监控和管理网络的方式也发生了变化。您已经从使用 SNMP 和 NetFlow 在数据中心轮询设备的工具转向了新的基于交换机的遥测模型,在该模型中,交换机会主动以流式传输提供基于流的诊断详细信息。
您可以实操将新的工作负载引入数据中心,其中许多数据中心都有独特的网络需求。您已经看到传统数据库被数据分析和大数据集群所取代。
现在,当被要求构建人工智能集群时,人们很容易认为人工智能只是一个规模更大、速度更快的大数据应用程序。但人工智能是不同的,如果没有合适的工具,人工智能可能会很难实现。
生成式 AI 和 NCCL 的影响
您是一家大型企业的网络管理员。您的 CTO 参加了 GTC 2023,并了解了生成式 AI 他们希望通过构建像 ChatGPT 这样的大型语言模型来响应最终用户,并与最终用户进行交互,从而改变业务运营方式。该模型必须经过训练。这需要一个大型人工智能训练集群,许多 GPU 加速的服务器通过高速网络连接。
这个人工智能训练集群带来了许多新的挑战:
网络流量模式和流量特性发生了显著变化,而传统 ECMP 表现不佳。
AI 集群参考设计需要用于计算/ GPU 、存储甚至带内管理的专用网络。
网络流量是异构的,生成由 CPU 到 CPU 和 GPU 到 GPU 通信。
人工智能集群必须能够适应在一台服务器上、多台服务器上运行作业,甚至是在一台计算机上同时运行多个作业。
网络配置发生变化,参数可优化 RoCE 和 GPU 直接通信。
人工智能作业必须在多次迭代中具有一致且可预测的作业完成时间。
具有更高带宽交换机的新型扁平化拓扑。
需要学习的新缩写词:CUDA、NVIDIA DOCA、BERT、LLM、DLRM 和 NCCL。
新的监控工具:他们如何知道 AI 和 NCCL 是否表现良好?
更多精彩内容
产学研合作新篇章,中山大学与善思开悟共建AI创新赋能联合实验室!
中山大学计算机学院、国家超算广州中心、管理学院将与善思开悟(成都)科技有限公司将开展科学研究及产学研合作,共同建设和运行联合实验室,进一步促进产学研合作,推动行业创新和应用落地,服务地方社会与经济高质量发展。SIGGRAPH 2023 | NVIDIA 发布支持生成式 AI 与 OpenUSD 的重大 Omniverse 升级
最新平台更新、Adobe Firefly 的接入、OpenUSD 向 RealityKit 的导入以及 Ada 架构系统将共同加速各种具有互操作性的 3D 工作流以及工业数字化进程。SIGGRAPH 2023 | NVIDIA AI Workbench 助力全球企业加速采用自定义生成式 AI
从 PC 和工作站到企业数据中心、公有云和 NVIDIA DGX 云,新推出的开发者套件在 NVIDIA AI 平台上引入了简化的模型优化与部署。新的 MLPerf 推理网络部分展现 NVIDIA InfiniBand 网络和 GPUDirect RDMA 的强大能力
在网络评测中,有两类节点:前端节点生成查询,这些查询通过业界标准的网络(如以太网或 InfiniBand 网络)发送到加速节点,由加速器节点进行处理和执行推理。