11月5日消息,近日,摩尔线程上线了大语言模型高速推理框架开源项目vLLM的MUSA移植版本,为开发者提供基于摩尔线程全功能GPU进行开源项目MUSA移植的范例。
摩尔线程表示,正努力围绕自主研发的统一系统架构GPU、MUSA软件平台,构建完善好用的MUSA应用生态。
vLLM是一个高效且易用的大模型推理和服务框架,支持创新的PagedAttention内存管理、连续批处理请求、CUDA/HIP图的快速模型执行、CUDA核心优化、分布式推理支持等,可显著提高大语言模型(LLM)的推理性能。
目前,vLLM已在各种大语言模型中得到广泛应用,成为业界常用的开源大模型推理框架。
摩尔线程基于vLLM v0.4.2版本,进行了移植适配,使之支持摩尔线程GPU后端Device,并完全开源,开发者可以二次开发、升级vLLM到社区更新版本等。
文章来源于:21IC 原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。