Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM,将允许用户通过 API 调用来大规模地部署大语言模型。
在企业中部署生成式 AI 将变得空前简单。
NVIDIA NIM 是一套生成式 AI 推理微服务,将支持 KServe 开源软件,可以自动将 AI 模型以云计算应用的规模运行。
NVIDIA NIM 与 KServe 的组合确保了生成式 AI 可以像任何其他大型企业级应用一样进行部署,还让用户能够通过 Canonical、Nutanix 和 Red Hat 等数十家公司的平台广泛使用 NIM。
NIM 在 KServe 上的集成将使 NVIDIA 的技术扩展到开源社区、生态系统合作伙伴和客户。借助 NIM,他们可以通过 API 调用 (即现代编程的一键式操作) 来获得 NVIDIA AI Enterprise 软件平台的性能、支持和安全性。
在 Kubernetes 上提供 AI
KServe 最初是基于 Kubernetes 的机器学习工具包 Kubeflow 的一部分。Kubernete 是一个开源系统,用于部署和管理包含大型分布式应用组件的软件容器。
随着 Kubeflow 在 AI 推理方面的不断扩展,KServe 诞生了,并最终演变成为独立的开源项目。
许多公司都为 KServe 软件做出了贡献并采用了该软件。目前,运行 KServe 软件的公司包括亚马逊云科技、彭博、Canonical、思科、慧与、IBM、Red Hat、Zillow 和 NVIDIA 等。
深入解析 KServe
KServe 本质上是 Kubernetes 的扩展,它像一个强大的云应用一样运行 AI 推理。它使用标准协议,以经过优化的性能运行,并支持 PyTorch、Scikit-learn、TensorFlow 和 XGBoost,而用户无需了解这些 AI 框架的细节。
在新的大语言模型 (LLM) 层出不穷的情况下,该软件尤其有用。
KServe 让用户可以轻松地在模型之间来回切换,测试哪一个最符合他们的需求。当模型的新版本发布时,KServe 的 “金丝雀发布 (canary rollouts)” 功能会自动执行详细验证,并逐步将其部署到生产系统中。
其另一项功能 “GPU 自动缩放” 可以随着服务需求的起伏来高效地管理模型的部署方式,从而使客户和服务提供商获得最佳体验。
生成式 AI 的 API 调用
KServe 的优势现在将通过 NVIDIA NIM 的便捷性提供。
使用 NIM ,只需一个简单的 API 调用即可应对所有的复杂性。企业 IT 管理员能够获得确保应用以最佳性能和效率运行所需的指标,无论应用是在他们的数据中心还是在远程云服务上,即使是在更改了 AI 模型的情况下。
NIM 让 IT 专家成为生成式 AI 专家,变革了公司的运营。这就是为什么 Foxconn 和 ServiceNow 等众多企业都正在部署 NIM 微服务的原因。
NIM 支持数十个 Kubernetes 平台
由于 NIM 与 KServe 的集成,用户将能够在数十个企业平台上访问 NIM,比如 Canonical 的 Charmed KubeFlow 和 Charmed Kubernetes、Nutanix GPT-in-a-Box 2.0、Red Hat 的 OpenShift AI 等等。
KServe 贡献者、Red Hat 首席软件工程师 Yuan Tang 表示: “Red Hat 一直在与 NVIDIA 合作,以便让企业更轻松地使用开源技术来部署 AI。通过增强 KServe 并在 Red Hat OpenShift AI 中增加对 NIM 的支持,我们能够让 Red Hat 的客户更方便地访问 NVIDIA 的生成式 AI 平台。”
“通过将 NVIDIA NIM 推理微服务与 Nutanix GPT-in-a-Box 2.0 集成,客户将能够从云端到边缘以一致的方式去构建可扩展、安全、高性能的生成式 AI 应用。” Nutanix 工程副总裁 Debojyoti Dutta 表示,其团队为 KServe 和 Kubeflow 做出了贡献。
Canonical 的 MLOps 产品经理 Andreea Munteanu表示: “作为一家对 KServe 做出重大贡献的公司,我们很高兴通过 Charmed Kubernetes 和 Charmed Kubeflow 提供 NIM。在我们的共同努力下,用户将能够轻松地使用生成式 AI 的全部功能,并使其保持最高的性能和效率。”
数十家其他软件提供商都能感受到 NIM 的好处,因为他们的产品中也包含了 KServe。
服务开源社区
NVIDIA 一直积极地参与 KServe 项目。正如最近的一篇技术博客中所提到的,KServe 的开放推理协议已经被用于 NVIDIA Triton 推理服务器,可以帮助用户跨多个 GPU、框架和操作模式同时运行许多 AI 模型。
基于 KServe,NVIDIA 专注于在多个 GPU 上一次运行一个 AI 模型的用例。
作为 NIM 集成的一部分,NVIDIA 计划在其开源软件 (包括 Triton 和 TensorRT-LLM) 的基础上,成为 KServe 的积极贡献者。NVIDIA 还是云原生计算基金会 (CNCF) 的活跃成员,该基金会支持生成式 AI 和其他项目的开源代码。
立即通过 NVIDIA API 目录试用 Llama 3 8B 或 Llama 3 70B 大语言模型的 NIM API。全球数百家 NVIDIA 合作伙伴也正在使用 NIM 来部署生成式 AI。
观看 NVIDIA 创始人兼首席执行官黄仁勋在 COMPUTEX 上的主题演讲,了解 AI 等方面的最新信息。