宁德生活圈

网站首页 信息互动 > 正文

NVIDIA 拥有近乎完整的 HPC/AI 堆栈

2022-03-08 15:28:32 信息互动 来源:
导读 万一不是很明显,在过去的十年里,英伟达一直在将自己从一个组件供应商转变为一个完整的平台供应商。这样的举动是没有必要的——在十年前收

万一不是很明显,在过去的十年里,英伟达一直在将自己从一个组件供应商转变为一个完整的平台供应商。这样的举动是没有必要的——在十年前收购 SeaMicro 之后,你可以期待 AMD 对这样的举动非常害羞——但这与流行的想法是一致的,因为摩尔定律正在放慢堆栈的每个部分都有共同设计和共同优化,以发挥系统的最大性能。

没有计算、网络和存储在一起的系统是不存在的——如果你愿意的话,这是一种高度依赖的三位一体。因此,任何平台玩家都不可避免地最终想要控制他们构建的系统的所有三个方面,并在越来越深的层面上控制它们。原因与实际工程和金融工程一样多。任何平台构建者都不可避免地想要控制那些密切关注计算、网络和存储的控制器。

Nvidia 联合创始人兼首席执行官 Jensen Huang 非常清楚,他将 GPU 制造商视为一家平台公司,并在 2020 年 4 月收购 Mellanox Technologies(以 6.9 美元)后接受我们的独家采访时表示了同样的话10 亿美元)和Cumulus Networks 于 2020 年 5 月(未披露且金额小得多),而从软银收购 Arm Holdings 的命运多舛的 400 亿美元交易才刚刚开始。Nvidia 不需要 Arm 来成为更广泛的计算播放器,它只需要一个 CPU,我们强烈怀疑明年推出的基于 Arm 的国产“Grace”CPU 将像 Nvidia 的 GPU 计算引擎一样具有创新性。第一个“费米”GPU 加速器于 2010 年发布.

我们在这里详细介绍了它们

在控制方面,英伟达在 AI Enterprise 下开发了自己的 Base Command 数据准备和机器学习训练运行管理软件,这是一个进行机器学习训练然后创建推理模型的工作流程;它还创建了 Nvidia 创建的 Fleet Command 编排和系统管理工具,用于在边缘运行 AI Enterprise。(这两个都在去年首次亮相,。)今年早些时候,英伟达支付了一笔未公开的金额来获得 Bright Computing,以便将其 Bright Cluster Manager 编入英伟达堆栈。

我们当时表示,如果 Nvidia 选择了 GigaIO 或 Liqid 等可组合和分解互连结构的几家制造商之一,我们不会感到惊讶,坦率地说,我们认为 Nvidia 将从那里开始,因为以灵活的方式分配 GPU 是一种对于很多客户来说,真正的问题是,提高这些昂贵的计算设备的效率也是如此。NVM-Express 闪存也是如此,它正在被分解和动态组合以提高效率和性能,但方式略有不同。

这可能确实是 Nvidia 计划的一部分,但是今天,随着 Excelero 的收购,Excelero 是过去几年一直在推动可分解和可组合存储的几家 NVM-Express 闪存初创公司之一,它开始看起来像 Nvidia 想要的那样。控制其自己的用于 HPC 和 AI 应用程序的块存储,并将组成它以在其以太网和可能的 InfiniBand 网络上运行,并且很可能使用基于 Connect-X NIC、BlueField 多核 Arm 处理器和 Nvidia GPU 组合的 DPU,并且可能在原始 BlueField CPU 充当存储节点控制器,而不是 X86 处理器。后一点是我们看到 Mellanox 在 2019 年开放计算峰会上玩弄的东西,它的 SNAP 是软件定义网络加速处理的缩写,


免责声明: 本文由用户上传,如有侵权请联系删除!


标签: