2023年生成式AI和大模型的爆发,让我们面对一个变化更加快速也更加激动人心的时代,随着新质生产力和算力基础设施高质量发展的提出,算力和存储基础设施也面临着创新与破局,如何在生成式AI和大模型时代,更好地帮助企业实现数字化创新?
11月29日,由DOIT传媒举办的"数智创新·AI未来"—2023中国数据与存储峰会在北京成功举办,浪潮信息存储产品线副总经理刘希猛和分布式存储总经理姜乐果受邀参会,分享了存储在生成式AI和大模型上的创新理念与实践,与合作伙伴和客户共同探讨通过创新发展应对快速变化的新时代。
浪潮信息存储产品线副总经理刘希猛
新场景:数聚AI加速企业向智能化场景变革
生成式AI和大模型与千行百业进行了全面的融合,带来了自动驾驶、智能制造、智慧医疗等AI+创新应用场景,这些新的应用场景将加速传统产业向智能化的变革。
千行百业的AI+创新应用带来了数据爆发式的增长,数据要素在产业智能化的过程中发挥着重要作用。IDC最新发布的数据显示,中国数据量规模将从2022的23.88ZB增长至2027年的76.6ZB,增长幅度为全球第一,其中企业数据量占据70%,而仅有24%的数据被用于分析或AI决策,这意味着企业将有更大的空间来挖掘数据价值。
中国非常重视数据要素的作用,发布了如《算力基础设施高质量发展行动计划》、《数据要素白皮书》、《生成式人工智能服务暂行方法》等一系列政策,推动企业在激活数据要素潜能和加速人工智能领先等方面的发展。
在AI 时代,原始数据呈现出多源多态的趋势,包括文本、图像、音频、视频等有感数据以及激光、毫米波、红外线等无感数据,会产生TB级乃至PB级多态数据,这一趋势给数据的存储、管理和应用带来了新的需求和挑战。
这些新的需求和挑战体现在巨量多模态数据、超大读写带宽、超高读写IOPS和全生命周期管理四个方面。姜乐果表示,随着训练模型从LLM(语言)、ALM(音频)、CV(计算视觉)、VL(多模态)到FMLM(混合模态),对数据存储的要求从PB级到EB级容量需求,从100GB带宽到TB级带宽的性能访问要求,同时还要求在多源异构数据之间实现快速转换与传输,实现生命的全生命周期管理,以及数据的安全可靠。
新存储:分布式融合存储助力企业实现破局创新
面对AI时代多源多态的数据挑战,企业需要支持多种架构、具有持久性、灵活性的数据基础设施,来部署和实施生成式AI的创新应用。
浪潮信息存储一直秉持"分层解耦"的理念,提供从数据中心、硬件平台、大模型智算软件栈OGAI和基础大模型完整的全栈解决方案,以应对生成式AI和大模型时代的全面需求和挑战。其中解决数据多模多态需求和挑战的就是分布式融合存储平台。
浪潮信息存储面向生成式AI的分布式融合存储解决方案结合生成式AI和大模型的数据采集、数据准备、数据训练、数据推理和数据归档的五个阶段,由同一套存储提供端到端的数据流支持流程,满足面向文本、音频、图像、视频、代码以及多模态和全模态的模型的需求,具有极致融合、极致容量、极致性能和极致管理四大特点。
极致融合是面向海量、多源、异构非结构化数据场景,融合多种存储介质、多协议实时互访互通、系统扁平扩展,可以用一套存储实现多模态场景应用;极致容量是从PB级到EB级甚至是ZB级,通过多种容量算法的加持,让存储空间利用达到最优,让客户的投资收益最大化;极致性能是通过对存储性能的极致提升,带来了超大带宽和超高IOPS,满足了生成式AI和大模型场景对存储的苛刻要求;极致管理提供了闪存、磁盘、磁带、光盘四种介质,以及提供了热温冷冰四种存储资源,实现了资源的互通,可以实现数据全生命周期的管理。
刘希猛认为,在非结构化数据爆发的生成式AI和大模型时代,无论基于高性能文件、流式对象还是原生大数据的智能化应用,浪潮信息的分布式存储平台都将成为企业简化IT部署和实施生成式AI创新的关键支撑。
新实践:在源大模型和企业AIGC上的创新实践
作为全球领先的IT基础设施产品、方案及服务提供商,浪潮信息已经建立了面向大模型应用场景的整体解决方案。
2023年10月,浪潮信息帮助中科大升级其校级"融合计算平台",部署了25个GPU服务器节点和40个分布式融合存储节点,来满足不同学科、领域产生的海量多模态数据需求,助力AI驱动下的高水平科研创新。
在助力企业应用生成式AI和大模型实现数字化创新上,浪潮信息不仅提供了数据中心和硬件平台,还基于数据基础设施的领先性,为企业提供了大模型智算软件栈OGAI和基础大模型"源2.0"。
刘希猛介绍,大模型智算软件栈OGAI"元脑生智"是浪潮信息面向以大模型为核心技术的生成式AI开发与应用场景,提供从集群系统环境部署到算力调度保障和大模型开发管理的全栈全流程的软件,从而降低大模型算力系统的使用门槛、优化大模型的研发效率,保障大模型的生产与应用。
源大模型是浪潮信息存储支持生成式AI和大模型的最佳实践。基于浪潮信息大模型整体方案的"源2.0"大模型已正式发布,并全面开源,这也将会更好地满足企业大模型开发和应用的需求,推动企业的应用创新。
在"源1.0"中文语言大模型的训练中,AS13000就采用最新硬件平台,搭载全闪SSD和高速IB网络,支撑"源1.0"的训练过程高效完成。在近期发布的"源2.0"大模型中,浪潮信息存储更是作为模型训练的基座,为数据的采集、预处理、训练和归档起到了不可忽视的助力,高灵活可扩展的容量为"源2.0"获取12个PB中文数学数据提供了坚实的后盾,使模型训练在容量方面不存在瓶颈。
2023年度存储技术创新奖:HF18000、AS13000
浪潮信息存储此次获得了"2023年度高端存储产品金奖"和"2023年年度存储技术创新奖"。在过去的一年,浪潮信息存储实现了金融行业的六大行、股份制、城商行等用户的全面突破。
浪潮信息未来将会继续秉持着创新的服务理念,基于浪潮信息的基础平台能力和源自JDM的存储场景共同体定制能力,持续将先进的产品、技术、解决方案带给企业,与客户和合作伙伴一起携手共行,帮助企业加快实现数字化转型和创新,加速实现高质量发展,服务未来数字化转型。
相关文章