Meta Llama 3.1模型刚刚发布,英特尔就开启了适配:跑分性能一流

发布时间:2024-07-25  

“开源落后论” 再一次被打脸。7月23日,Meta正式发布Llama 3.1,这是如今开源领域使用者最广泛,性能最顶级的大模型系列。根据Meta提供的基准测试数据,最受关注的405B(4050亿参数)大模型,从性能上已经可媲美GPT-4和Claude 3,同时首次在多项基准测试中击败了GPT-4o等业界领先的闭源模型。可以说,随着它的发布,为大模型开源闭源战争开创了一个新的里程碑。


Llama 3.1多语言大模型组合包含了80亿参数、700亿参数以及4050亿参数(文本输入/文本输出)预训练及指令调整的生成式AI模型。其每个模型均支持128k长文本和八种不同的语言。其中,4050亿参数的Llama 3.1模型在基本常识、可操作性、数学、工具使用和多语言翻译方面具有行业领先的能力。同时,该模型亦帮助开发者社区解锁诸如合成数据生成和模型蒸馏(Model Distillation等全新功能


不过,再强大的大模型,也需要算力支持。如若硬件都不支持的开源大模型,无疑是寸步难行。今日,英特尔就正式公布了其对于Llama 3.1方面的最新动作。


这一次,英特尔的动作非常迅速。


全面优化Llama 3.1


英特尔宣布公司横跨数据中心、边缘以及客户端AI产品已面向Meta最新推出的大语言模型(LLMLlama 3.1进行优化,并公布一系列性能数据


据了解,目前,英特尔丰富的AI产品组合已支持上述最新模型,并通过开放生态系统软件实现针对性优化,主要包括PyTorch及英特尔 PyTorch扩展包、DeepSpeed、Hugging Face Optimum库和vLLM等。


此外,企业AI开放平台(OPEA)亦为这些模型提供支持OPEA这一全新的开放平台项目LF AI & Data基金会发起,旨在聚合生态之力,推动创新,构建开放、多供应商的、强大且可组合的生成式AI解决方案。


具体跑分性能如何?


英特尔也展示了其在至强处理器,以及酷睿 Ultra处理器和锐炫显卡的AI PC产品的初步性能结果。


至强处理器方面,英特尔在第五代英特尔®至强®可扩展处理器上测量使用2个英特尔至强Platinum 8593Q64核、超线程开启、睿频开启、NUMA 4512GB16x32GB DDR5 5600 MT/s [5600 MT/s]BIOS 3B07.TEL2P1、微码0x21000200、三星SSD 970 EVO Plus 2TBCentOS Stream 95.14.0-437.el9.x86_64、使用PyTorchIPEX 2.4运行的模型。


根据基准测试,在第五代英特尔至强平台上以1K token输入和128 token输出运行80亿参数的Llama 3.1模型,可以达到每秒176 token的吞吐量,同时保持下一个token延迟小于50毫秒。图1展示了运行支持128k长文本的80亿参数Llama 3.1模型时,下一个token延迟可低于100毫秒。


作为通用计算的基石,英特尔®至强®处理器为全球用户提供强大算力,现已通过各大云服务商面市。英特尔至强处理器在其每个核心中均内置了英特尔®高级矩阵扩展(AMX)AI引擎,可将AI性能提升至新水平。


1. 基于第五代英特尔至强可扩展处理器的Llama 3.1推理延迟


AI PC方面,处理器搭载英特尔酷睿Ultra 7 165H平台的微软Surface Laptop 6上进行测量,使用32GB LPDDR5 7467Mhz总内存、英特尔显卡驱动程序101.5762IPEX-LLM 2.1.0b20240718Windows 11 Pro版本22631.3593、性能电源策略与核心隔离启用。


显卡使用英特尔酷睿i9-14900K、华硕ROG MAXIMUS Z790 HERO主板、32GB (2x 16GB) DDR5 5600MhzCorsair MP600 Pro XT 4TB NVMe SSD,对英特尔锐炫A770 16GB限量版显卡进行测量。软件配置包括英特尔显卡驱动程序101.5762IPEX-LLM 2.1.0b20240718Windows 11 Pro版本22631.3593、性能电源策略与核心隔离禁用。


由英特尔酷睿 Ultra处理器和锐炫显卡驱动的AI PC可为客户端和边缘提供卓越的设备端AI推理能力。凭借诸如英特尔酷睿平台上的NPU,以及锐炫显卡上英特尔Xe Matrix Extensions加速等专用的AI硬件,AI PC上进行轻量级微调和应用定制比以往更加容易


对于本地研发,PyTorch英特尔PyTorch扩展包等开放生态系统框架可帮助加速。而对于应用部署,用户则可使用英特尔OpenVINO工具包在AI PC上进行高效的模型部署和推理。AI工作负载可无缝部署于CPU、GPU以及NPU上,同时实现性能优化。



2. 在配备内置英特尔锐炫显卡的英特尔®酷睿 Ultra 7 165H AI PC上,Llama 3.1推理的下一个token延迟


3. 在使用英特尔锐炫A770 16GB限量版显卡的AI PC上,Llama 3.1推理的下一个token延迟


利用Llama 3.1OPEA部署企业RAG解决方案


英特尔AI平台和解决方案能够有助于企业部署AI RAG。作为OPEA发起成员之一,英特尔正帮助引领行业为企业AI打造开放的生态系统,同时,OPEA助力Llama 3.1模型实现性能优化


基于可组合且可配置的多方合作组件,OPEA为企业提供开源、标准化、模块化以及异构的RAG流水线(pipeline)。此次测试中,微服务部署于OPEA蓝图的每一支细分领域中,包括防护(Guardrail)、嵌入(Embedding)、大模型、数据提取及检索。端到端RAG流水线通过Llama 3.1进行大模型的推理及防护,使用BAAI/bge-base-en-v1.5模型进行嵌入,基于Redis向量数据库,并通过KubernetesK8s)系统进行编排。


4:基于Llama 3.1的端到端RAG流水线,由英特尔Gaudi 2加速器和至强处理器提供支持


目前,英特尔AI PC及数据中心AI产品组合和解决方案已面向全新Llama 3.1模型实现优化OPEA亦在基于英特尔至强产品上全面启用。未来,英特尔将持续投入软件优化,支持更多全新的模型与用例。

文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>