AI大模型时代,OS、云与芯片如何同频共振?

2024-09-03 13:03  

作者: 付斌

你我都知道,之所x86架构经久不衰,是因为操作系统(OS)和x86芯片同频共振,相互成就。而在LLM时代,想要发挥出AI真正的功效,则需要OS和云与芯片相互联动。

8月30日,2024 龙蜥操作系统大会(OpenAnolis Conference)上,龙蜥社区表示其推出的Anolis OS及衍生版装机量已突破800万套,同时推出更安全、更稳定、更AI的龙蜥操作系统Anolis OS 23官方正式版。

不止如此,阿里云和AMD同时出席本届大会。AI时代,三者会如何改变世界?

当CentOS停摆

中国服务器,正在面临一场大考。

自从今年6月30日,国内最主流的开源服务器操作系统CentOS不再提供所有官方的支持和更新,这也意味着国内厂商需要尽快找到一个可替代
的操作系统,而且最好是国内自主并且真正开源的操作系统。

当然,光是暴力地迁移到国内开源服务器OS,也并非长久之计。现如今,AI大模型风起云涌,服务器也开始逐渐构建了多元算力,包括GPU、CPU、DPU、ASIC等各类硬件架构及设备,而目前国产OS在此方面支持较为薄弱。可以说,只有不断进化的OS才是市场所需要的。

Anolis OS作为国内开源服务器OS的排头兵,就在不断进化之中。这一次的重点,便是AI。

会上,龙蜥社区表示Anolis OS 23 官方正式版更安全、更稳定、更 AI,其采用最通用的Linux ANCK 6.6内核,全面兼容国内外主流CPU架构,适配更新、更丰富的 AI 容器服务生态,在操作系统层面首次原生支持AI算力调用和应用。

Anolis OS 23中通过引入龙蜥生态软件仓库(EPAO),实现一键安装部署 AI 开发环境,解决了 AI 组件之间繁琐的依赖关系,加速 AI 应用的开发、部署流程。

在CentOS告别历史之际,继国产使命之往,开 AI 先河之来,龙蜥社区基于“云+AI”创新理念,正式发布了“CentOS 替代计划”“Anolis OS 23 生态衍生计划”“AI 应用推广计划”三大计划,致力于推动国产操作系统实现从开源到商业化的良性循环发展。

阿里云成就龙蜥之翼

阿里云是开源的受益者,也是积极贡献者。

在创业早期,阿里云就大量使用开源软件,通过学习研究国外优秀开源实践积累了更多技术研发力量;当具备一定能力后,阿里云便积极地将自己的实践以开源软件的形态回馈到社区,并将阿里云内部沉淀的技术通过开源的方式推广成为行业标准;随着阿里云愈发深植行业,阿里云形成“1+4”开源战略,即操作系统、云原生、数据库、大数据。

操作系统,便是“1+4”开源战略中的一环,阿里云联合产业伙伴共同发起的龙蜥社区,已成长为国内领先的操作系统开源社区。回顾过去,阿里云已在龙蜥社区创新历程中留下了深深的印记,通过阿里云与龙蜥社区之间的紧密合作,双方共同塑造了一个可持续、富有创新力的开源生态系统。

首先,龙蜥在云和AI融合中扮演了举足轻重的角色。毕竟一切应用都要在OS上开花,龙蜥则在功能、性能上不断提升,基于开源版本又诞生了许多商业版本,满足了广大用户、企业等各种需求。

其次,阿里云是国内云计算厂商排头兵,在云计算与AI领域拥有深厚积淀,任何应用都脱离不开强大算力和算法的加持,阿里云则赋予龙蜥一个强大的底座,让应用能够自由充分地发挥创意,进入千行百业。

阿里巴巴集团合伙人、阿里云基础设施事业部总经理蒋江伟也在会上表示,得益于众多通用、异构芯片厂商、特别是国产自主芯片厂商在龙蜥社区的积极参与和贡献,阿里云可以更好地发展“一云多芯”战略,在获得更健壮的硬件供应链保障的同时,实现统一资源管理和调度,进而向广大用户提供更高效的算力基础设施服务。

他强调,阿里云坚持长期投入龙蜥社区建设,通过自研技术开源开放与生态社区建设,与合作伙伴共同将龙蜥打造为产业协同的最佳实践。

 
龙蜥与AMD的不期而遇

优质的平台往往源自强强联合。AMD与阿里云便是长久的合作伙伴,前者通过先进的制程工艺,突破的性能和强劲的算力,助力企业实现数字化转型,后者则是软件、AI和云生态的基座。

在双方合作之下,生态产品均拥有强劲的性能。就比如,阿里云瑶池旗下的云原生数仓AnalyticDB for PostgreSQL与AMD新一代硬件深度优化,结合全自研计算引擎及行列混合存储实现性能升级,综合性能提升30%。

除了阿里云,AMD也与国内诸多云服务厂商进行合作。换句话说就是,Anolis OS与AMD的强强联合,也是加速AI应用的关键。

在数据中心中,CPU平台至关重要。而且,与过去不同,现在大多情况下,CPU还会承担很多AI推理应用,阿里云也曾经利用纯CPU方案实现大模型的推理。

Anolis OS 23针对这个问题,聚焦AMD CPU实例,引入了AI专门优化方案,更好的帮助开发者释放出硬件的全部性能,为开发者降本增效。

为了减少 AI 开发者在环境部署上的成本,龙蜥社区推出针对AMD CPU优化的AI推理容器镜像,镜像中直接集成ZenDNN CPU计算加速以及tcmalloc内存加速,即开即用,将AI推理环境部署成本降低为0。

值得一提的是,ZenDNN是AMD针对AMD CPU架构推出的加速库,充分利用扩展指令集优化AI推理计算,帮助AI开发者充分释放AMD平台的深度学习推理性能,Anolis OS 已经正式获得AMD官方支持,成为首款支持ZenDNN的国内发行版。;而tcmalloc则是常用的内存分配器,相比于glibc默认的ptmalloc,它针对多线程程序的内存管理进行了专门优化,以提高内存分配释放的性能,目前Anolis OS 23仓库已引入这两种内存分配器。

重塑OS的核心竞争力

在云与AI深度融合、硬件与AI进一步融合的背景下,龙蜥社区正在向“可用”走向“好用”。

为持续推动“云+AI”创新,龙蜥社区提出“AI原生操作系统”发展路线,主张积极探索AI容器镜像、智能运维AIOps、OS Copilot文档建设等三大方向。

阿里云则在本次大会上表示,持续推动龙蜥操作系统在“Sys for AI”(操作系统支持人工智能)和“AI for Sys”(人工智能改变操作系统)两个方向的突破,重塑OS在AI时代的核心竞争力。

AMD作为硬件解决方案商,不仅能够提供性能强劲的EPYC CPU处理器,还能够进一步提供GPU、DPU、FPGA等加速器,实现“AI on AMD”。
时至今日,龙蜥社区的开源生态队伍依然在不断壮大。总之,龙蜥社区有力地推动了我国云计算产业链的完善和发展,为我国数字产业生态繁荣注入了新活力。

文章来源于:ECCN    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。