近年来随着云计算、大数据特别是大模型的快速发展,数据中心规模不断扩张,产生了更多的服务器管理需求。传统BMC虽然可以实现部分管理,但是在快速迭代的当今尤其是在AI技术的驱动下,存在开发周期长、交付困难、应用单一等难题,并且由于其代码闭源也会导致隐藏的安全漏洞无法及时识别,限制了用户定制开发。OpenBMC凭借领先的开源理念、可扩展的软件架构,被大型互联网厂商广泛应用,并带动了产业连上下游共同探索,逐步成为服务器固件发展的"事实标准"。
在日前召开的2024开放计算中国峰会上,来自阿里云、字节跳动、浪潮信息、英特尔以及电子标准院的专家,从自身探索和实践的角度,现身说法各家在OpenBMC方面的最新进展及未来规划。
OpenBMC大幅降低采购成本 阿里云新增修改10万+行自研代码库
随着云计算、大数据、AI等技术的发展,阿里云服务器规模已经达到数百万台,如何有效管理是摆在阿里云面前的现实问题。
而传统的BMC无法满足新兴运维需求,首先是庞大的服务器数量涵盖了多个品牌不同厂家,各厂家都基于某个IBV建立基础BMC能力再在上层定制开发,因此日常问题的解决需要拉通多方BMC软件规格和能力,带来时间和资源的大量浪费,效率低下;其次,不同品牌的服务器BMC代码也不尽相同,存在巨大的适配成本;第三是应用成本问题,传统BMC基础软件源代码和授权license都需要购买,后续还需要软件维护升级费用,成本较高。
OpenBMC迎合了当下软件质量发展和行业趋势,2020年左右OpenBMC软件逐步走向成熟,在北美一些CSP率先采用。阿里云服务器研发固件团队负责人李羿介绍,阿里云自2020年逐步采用OpenBMC产品,经过4年时间的探索与实践,已经形成行业一支领先的专业OpenBMC技术开发和交付团队,不仅可以在完成交付任务的同时结合云业务自身特点,还不断的回馈社区、贡献伙伴,在多个层面实现了行业领先。
如今,阿里云已经成功在x86、ARM等主流平台中实现了OpenBMC的替代,未来也将探索基于RISC-V等多元芯片平台的可能性。得益于OpenBMC的平台化优势,不同架构下的代码绝大部分都是相同的,只是针对不同平台略有微调。李羿表示,阿里云已经在实现代码的归一化,目前已经提交超过10万行代码,未来有望针对不同产品形态实现全面支持。
字节跳动打造OpenBMC应用新范式 问题分析定位效率大幅提升
从抖音到新晋AI工具"豆包",随着应用覆盖范围的进一步扩大、用户群体的持续增多,字节跳动需要维护的服务器数量已达百万级别,并且仍有不断增长的态势。如何高效、稳定且安全的管理服务器,成为运维团队面临的首要问题。
字节跳动固件架构师郏春辉介绍,传统BMC在解决固件运维难题上存在局限性,难以在服务器需求多样化的情况下满足快速交付的需求。开源OpenBMC能够吸纳先进理念和应用,提供了架构灵活、兼容性强的新选择,非常适合当下互联网与数字化的应用需求。
为了更好地解决固件运维的问题,字节跳动在OpenBMC固件运维能力基础上,不断进行技术创新,致力于提升OpenBMC固件的可观测性,对固件的运行状态、性能表现及内部各种活动进行全方位的监控和解析。通过加强对固件运行时软硬件状态的深入观察和理解,能够更快速地捕捉问题发生时的细节,从而实现高效精准的问题定位和处理。这种深入的可观测性不仅有助于提升系统的稳定性与可靠性,也为业务优化提供了宝贵的数据支持。
事实证明,这种方法非常有效。在引入了Perfetto和Kernel trace以后,问题定位分析时间,由原有的数小时乃至数天,降低至平均1小时以下;问题一次定位分析准确率,由40%提升至80%以上,效率提升非常明显。未来字节还计划在问题分析定位层面更进一步,借助AI技术和大数据分析,细化不同场景下的问题定位,充分发挥自动化优势,让故障无处遁形。
浪潮信息提供差异化方案满足不同需求 下一代产品全面切换OpenBMC
当然,并非所有的企业都有阿里云、字节这样的技术积淀,对于中国市场来说,绝大部分企业用户并没有自研的能力,更倾向于选择表现稳定、安全的商业版本。对于这些企业来说,浪潮信息就是不错的合作伙伴。
去年,浪潮信息就发布了基于OpenBMC的InBry管理固件平台,采用更先进、更高效、更开放的创新架构和开发模式,快速适配各种算力场景,为用户提供开放、稳定、可靠的BMC管理固件,支撑多元算力时代的各类创新应用。"如果说前两年OpenBMC还只是一个趋势,现在则已经是大行其道了",浪潮信息服务器固件研发负责人王兴隆表示。
除了功能更丰富、应用更高效之外,开源版本的优势还在于开放性以及由此产生的安全性,后者也是当下企业关注的重点。对此,王兴隆表示,首先,开源社区采用的是最先进的Linux版本,相比传统BMC应用来说在代码上更完善,成熟性更高。其次,开源社区的代码上传需要多为行业专家的联合评审,接受更多社区参与者随时的监督与审查,所以质量更高。第三,基于开源和可扩展的软件架构,用户也可以将自身使用的安全模型、软件库移植到OpenBMC,这样就能打造符合自身需求的业务安全模型,所以更安全。
如今,浪潮信息更提出了"分层解耦"的理念,在技术上通过硬件层、中间层、应用层的划分实现自动适配、自动识别,达到技术赋能的多元化。此外,浪潮信息也正在与英特尔、英伟达、AMD等业界领军企业合作,实现多元化平台的适配,为产业界提供更低成本、更高效的选择。
"在技术上,我们要基于OpenBMC实现创新,让更多企业享受开源应用的技术红利;产品上,我们将逐步在下一代平台全面切换到OpenBMC,打造更好的商业化版本;社区层面,我们也要建设更好的生态环境,让更多伙伴参与其中达成贡献,打造多元化的服务",王兴隆表示。
英特尔社区贡献名列前茅 持续推动OpenBMC技术创新
作为平台公司,英特尔也在推动OpenBMC发展中扮演了重要角色。每一代英特尔处理器平台的升级对于BMC固件适配来说都是不小的变革,而这些变革都朝着更便捷、更优化的方向来发展。从最初创立OpenBMC到今天,英特尔对于组织的贡献一直排在前列,每一代产品都会经历一年甚至更长时间的测试,以保证在性能、可靠性、稳定性等多方面的品质。
针对不同的应用场景,英特尔也会为客户提供接口实现功能上的定制化需求,这样可以通过代码或者软件的微调更适配于客户业务。同时,英特尔也提供了PFR固件保护功能(Platform Firmware Resilience),为保护企业服务器固件提供了一种全新的方法,可全面防止对服务器所有固件的攻击。
除了安全性的优化之外,如何有效降低服务器能耗也是OpenBMC固件优化的重点。从传统BMC到OpenBMC,其实服务器节能会变得更精准、更低碳。对此,英特尔在节点管理中就提供了能耗管理,并可以根据不同部件进行精细化运维。
从OpenBMC的投入上可以看出,这不仅仅是硬件层面的创新,更多需要融合软件、AI、生态等多个维度,而英特尔也需要扮演行业引领者的角色,为更多生态伙伴提供平台化、系统化的支持。
AI为OpenBMC发展注入活力 正在成为服务器固件"事实标准"
AI技术的出现带来了计算架构的变化,而BMC就势必需要针对这些多元异构的应用变化进行调整。与此同时,AI技术的出现也让大量传统的数据监测、分析变得更加高效,配合数据模型的构建,可以为未来的智能化管理提供技术支持,这也是AI对于OpenBMC带来的全新改变。
"事实上,OpenBMC正在解决传统BMC的瓶颈问题,包括兼容性问题、存在隐藏的代码故障、定制化需求等,已逐步成为了服务器固件的'事实标准'。" 中国电子技术标准化研究院技术总监、固件产业技术创新联盟标测组组长钟伟军表示。
如今,OpenBMC在国内的应用生产已经初具雏形。在相关社区中,已经形成了比较完备和稳定的基础代码,包括阿里云、浪潮信息等30多家公司也在不断提交代码贡献。
未来,希望能够有更多的产业界的伙伴参与到社区建设当中,把自身的优势、经验贡献到社区,让社区拥有更加完备的基础代码,让产业界上下游共享社区成果,有助于产业链生态的繁荣,形成合作共赢的局面。
稿源:美通社
相关文章