您的位置:首页 > 产品中心

乐鱼体育app官网:英伟达介绍了支持AI GPU位置追踪的新软件——远程数据中心GPU集群管理包括功耗和热监测

来源:乐鱼体育app官网    发布时间:2025-12-16 09:00:41

乐鱼体育官网登录:

  周四详细的介绍了其GPU车队监控软件。该软件确实使数据中心运营商能够监控AIGPU群的每个方面。其中一项功能是能够检测这些处理器的物理位置,可能对芯片走私起到威慑作用。然而,有个问题:该软件是选择加入的,而非强制,这可能限制其作为打击走私者(无论是国家还是其他几个国家)工具的有效性。

  该软件收集大量遥测数据,然后汇总到托管在英伟达NGC平台上的中央仪表盘中。该界面允许客户可视化整个车队的GPU状态,无论是全世界还是代表特定物理或云端位置的计算区,这在某种程度上预示着软件能够检测Nvidia硬件的物理位置。运营商能查看全舰队的汇总,深入分析单个集群,并生成包含库存数据和系统整体健康信息的结构化报告。

  英伟达强调,该软件完全是观察性的:它能洞察GPU行为,但不能作为后门或杀机开关。因此,即使英伟达通过NGC平台发现部分GPU被走私到中国,也无法关闭这些GPU。不过,公司很可能利用这一些数据来推断GPU是如何到达该位置的。英伟达表示,该软件是一个客户安装的开源客户端代理,透明且可审计。

  英伟达的新车队管理软件为数据中心运营商提供了详细且实时的GPU基础设施在负载下的表现视图。它持续收集功率行为的遥测数据——包括短暂的峰值——使操作员能够控制在功率限制内。除了电力数据外,系统还监控车队间的利用率、内存带宽使用情况和互联健康情况,帮助运营商最大化每瓦的利用率和性能。这些指标有助于揭示负载不平衡、带宽饱和和链路层面问题,这样一些问题可能悄然降低大型AI集群的性能。

  软件的另一个重点是热量和气流条件,以避免热节流和元件过早老化。通过及早发现热点和气流不足,操作员能够尽可能的防止高密度计算环境通常伴随的性能直线下降,并在许多情况下防止AI加速器的过早老化。

  系统还会验证节点间是否共享一致的软件栈和作参数,这对于可重复的数据集和可预测的训练行为至关重要。任何配置差异,如驱动程序或设置不匹配,都会在平台上显现出来。

  值得注意的是,英伟达新的车队管理服务并非公司唯一用于远程诊断和控制GPU行为的工具,尽管它是最先进的。例如,DCGM是一个本地诊断和监控工具包,提供原始GPU健康数据,但运营商需要自行构建仪表盘和聚合流水线,这大幅度的降低了其可用性,但使运营商能够自行构建所需工具。还有Base Command,这是一个为AI开发、作业调度、数据集管理和协作设计的工作流程和编排环境,而非深入的硬件监控。

  与此同时,这三款工具对数据中心运营者来说构成了强大的难题。DCGM提供节点级探针,Base Command处理工作负载,新服务将其集成到一个可扩展到地理分布GPU部署的全舰队可视化平台中。

推荐资讯