2008年9月,美国《自然》杂志推出大数据概念,次年开始,大数据成为互联网行业的流行词汇。直到近年来,随着物联网设备的普及,全球数据量呈指数级增长。据IDC预测,到2025年全球数据总量将达175ZB。
这些价值高、体量大、速度快、种类多的大数据,也面临着海量小文件的传输、索引和管理,海量大文件的分块与存储,存储系统的可扩展性与可靠性等问题。“如何更高效、安全地把数据存储下来”成为大家关注的焦点。
疫情推动大数据存储需求
新冠疫情在一定程度上推动了全球数据产业的发展,主要表现为以下几方面:疫情防控方面,健康码、场所码、行程码、核酸码带来激增的数据,这些数据需要存储并保证随时可调取;企业转型方面,新冠疫情爆发之后,许多企业加快了数字化改革步伐;还有因疫情封锁增多,线上会议、远程医疗的需求大增。
大兆极存高级解决方案架构师孟祥利
“物流信息、网购、健康码、地理位置等信息的长期存储,从侧面推动来大数据中心的发展。后疫情时代到来之后,各行业的复苏时机将到来,传统的线下交易和学习,逐渐转成在线上来完成。”大兆极存高级解决方案架构师孟祥利解释说,这些转变会产生大量的数据,快速增长的数据如何实现长期保留和快速分析,成为后疫情时代大数据存储行业的挑战。
浪潮信息存储产品线副总经理李博乐
浪潮信息存储产品线副总经理李博乐指出,“人们的工作/生活方式已悄然改变,健康码、云医疗、云会议等成为新常态,给大数据存储基础设施带来了挑战。”
他以新冠肺炎疫情为例,防疫物资的生产和调度是抗疫的关键,但要做到“精准打击”,必须有一套基于疫情数据,可实时分析判断和调度的“智慧大脑”。在治疗过程中,也需要汇总和分析病人的病例、影像资料、检测结果等数据,为病人诊治、疫苗研究等工作提供数据支撑。浪潮存储通过打造“平台+生态”的方式,在平台型存储产品上进行场景化定制,满足多行业多场景的需求。
全球新冠疫情是把双刃剑,一方面给大数据存储带来了新的机遇,另一方面加剧了元器件供应链短缺。从硬件层面来看,数据中心设备需要用到的存储器件会受限于半导体供应链。2021年的“缺芯”事件,也让存储企业面临了供应短缺、成本上升等问题。
铠侠电子(中国)有限公司董事长兼总经理冈本成之
铠侠电子(中国)有限公司董事长兼总经理冈本成之坦言:“虽然并非完全未受半导体及其他部件供应不足的影响,但是在云投资、企业的IT投资的拉动下,面向数据中心和企业级SSD产品的需求持续坚挺。”据悉,铠侠的SSD产品在数据中心、服务器以及PC等设备均有应用。
宝存科技产品研发副总姜海
宝存科技产品研发副总姜海说,服务器端持续受短量供应影响。为了达成市场目标,许多厂家提高物料库存,以避免缺料造成整机无法供应。有些企业囤货太多,有些企业没有准备充足,出现了“缺芯”的平衡性问题,不过,2022年以后,这种情况将会逐渐缓解。
Gartner最新全球存储市场报告显示:2022年Q1,浪潮存储装机容量同比增长39.7%,是全球市场平均增速的七倍;1499PB的装机容量,位列全球前三、中国第一。李博乐自豪地说,浪潮充分发挥数字化、智能化供应链优势,实现了稳定供应和高效交付,订单按期满足率维持在98%以上。
另外,5G、IoT、AI等技术的商用落地,也让更多设备开始走向智能化,这些设备无时无刻都在产生数据,这些数据也都需要存储和管理。目前,物联网设备入网正处于初期阶段,未来的入网数量将迅速增长,这要求存储企业做好充足的准备。
数据中心“降能耗”是重中之重
数据中心是耗电大户,其电力成本占总营运成本50%以上。云计算、大数据、AI等技术正迅猛发展,数据需求呈几何级增长,数据中心的数量与日俱增,其用电规模也急剧攀升。“降功耗”也成为了存储产业链关注的焦点。
“全国数据中心的耗电量增速已连续八年超过12%,预计到2030年,数据中心耗电量将突破4000亿千瓦时,占社会总耗电量的3.7%,所以‘少耗能、耗新能’是未来数据中心发展的重要方向。风力发电、光伏发电可为数据中心提供新型能源,闪存、高密设备、模块化机柜、精密空调、液冷、热回收利用等新技术,能减少在数据处理、用电、散热等方面的能耗。相对于HDD机械盘阵,在相同容量下,全闪存储电力能耗最高可降低80%,大幅降低数据中心TCO总成本,有效推进数据中心低碳运转。”李博乐分析说。
业内人士表示,大数据的高效存储是数据中心高性能整体效率的关键因素。由于数据量的爆炸式增长和向更高性能的计算、互连协议的演变,数据传输的耗能远超过计算所消耗的能量,让数据尽可能地靠近处理引擎可减少耗能。增加主存储器的容量,不仅能满足处理器内核的增加,还能在主存储器中保留更多数据。
随着行业向DDR5主内存过渡,单个内存芯片的密度可达到64Gbit,比DDR4的最大密度16Gbit还高出四倍。DDR5降低了工作电压,可在性能大幅度提升的条件下,让功率保持在相同的工作范围。但较低的电压也降低了设计裕度,需要信号完整性和电源完整性(SI/PI)的专业知识来确保可靠运行。同样地,PCIe 6.0和CXL 2.0高速互连标准以及HBM2E/3内存的采用,将进一步为数据中心带来性能升级,帮助企业提高管理大数据的效率。
大兆极存通过分层存储技术+支持冷存储介质的方式来满足数据中心节能需求。 “一方面,支持电力节省的介质(使得数据长期存储节电),全线支持冷存储介质(掉电硬盘、光盘),大大降低了碳排放和耗电量;另一方面,磁盘内部使用了auto tiering(自动分层存储技术)的方式,使得有效的空间内承载更多的数据。” 孟祥利介绍说。
“与HDD相比,SSD本身就具有高性能、低功耗的特征。”冈本成之透露说,铠侠将通过开发更大容量、低延迟的SSD产品,来降低处理单GB的耗能,进一步减少SSD耗能,进而降低数据中心设备的功耗。
我国提出了碳中和目标,到2030年实现碳达峰,2060年实现碳中和。国内已经有机构呼吁:到2030年实现“新一代超大规模数据中心100%采用可再生能源”的目标。我们相信,“能耗指标”和“碳排放指标”将成为数据中心行业竞争的核心资源,届时存储产业链企业将更专注“降能耗”工作。
说到“碳中和”相关的内容,8月16-17日,IIC 2022 国际集成电路展览会暨研讨会将在江苏南京国际博览中心2号馆举办,大会聚焦当前最热的“碳中和”话题,在“”上,ADI、英飞凌、X FAB、京东方能源科技、纳芯微、阳光电源等企业将围绕“碳中和”话题做精彩的演讲。在同期举办的“”上,也将有英诺赛科、PI、是德科技等企业的精彩演讲,欢迎 参加。
提升云存储中的数据安全性能
对个人用户来说,他们在购买云存储服务,或者在使用社交软件时,会更关注延迟时间、安全性等问题。尽管云存储很便捷,无论用户使用什么设备,都可轻松访问云端的数据,但随着云存储的进一步普及,数据安全的重要性与日俱增。
孟祥利从大数据存储的角度来分析,“存储安全需要注意两方面,首先,数据的存储安全,使用光存储介质对长期存储数据,可有效防止数据篡改且能长期保留数据,还支持数据加密保证数据安全。其次,数据的可用性安全,使用对象存储进行数据共享和汇聚,有效保证数据安全共享。”
慧荣科技市场营销暨研发资深副总段喜亭
慧荣科技市场营销暨研发资深副总段喜亭表示,慧荣科技的主控能助力SSD拥有低延时、安全性的性能。在低延时方面,通过对PCIe主机接口进行优化,在专用硬件和固件中提供实体和逻辑隔离,来实现一致且可预测的低延迟QoS性能,让SSD在大数据存储应用的复杂IO环境中也能及时响应;在安全性方面,企业级SSD主控搭载NANDXtend®ECC技术,通过结合高性能LDPC纠错码(ECC)引擎和RAID的机器学习算法,在极端应用环境下也能确保数据完整性。
铠侠致力于不断增加闪存容量的技术开发。据冈本成之介绍,112层第5代BiCS FLASH现已量产,162层的第6代BiCS FLASH正在客户端进行认证。未来铠侠还将进一步加强研发技术、增加层数,并提高平面方向的单元阵列的密度,继续扩大闪存容量。为了满足客户对SSD产品的需求,铠侠可根据不同的应用,提供适配的SSD产品线。例如,今年3月发布的PM7 SSD系列,针对企业级服务器、存储系统应用,具备大容量、高性能、高可靠性特点,还加强了安全功能。
“数据中心需7*24小时全天候运行,稳定的性能输出与可预见的QoS延迟非常重要。智能算法可充分发挥NAND的program/erase suspend特性,4K 99.99% QoS随机读取延迟低于12ms,8K/16K 99.99% QoS随机读取延迟分别为25ms和43ms,可为各种企业级IO负载提供优异稳态下的QoS。”姜海认为,QoS的表现与数据中心的安全性能成正比。
李博乐说,数据基础设施主要面临的四大挑战——服务永远在线、数据永不丢失、性能永无止境和容量永远不够——它们分别强调要注重服务价值、数据安全、极致性能、存储容量。在安全方面,在数据采集、传输、存储、处理、交换(共享/使用)、销毁的生命周期中,浪潮存储通过通信安全、应用安全、系统安全、数据安全四个层面进行数据防护,从权限、病毒、漏洞等方面让存储产品成为数据堡垒。
产业链各环节还面临哪些问题?
同一产业链的参与者,会以推动行业向前发展为目标。除了前面大家共同关注的挑战之外,对上下游不同环节的企业来说,大家所需要攻克的难题也许会稍有不同。
“近年来,上游出现硬件供应链失衡,磁盘/SSD也出现了减产、涨价的现象,企业方案只有适配绝大部分硬件 ,符合国产化平台需求,采用融合架构以适用多种场景,才能在供应链失衡时具备竞争优势。”孟祥利称,大兆极存可提供全套的软件定义存储解决方案,这属于IAAS(基础设施即服务)的范畴,是大数据存储产业链的下游。
慧荣科技提供企业级SSD主控芯片、企业级SSD解决方案和软件定义存储解决方案。据段喜亭分析,三星、SK海力士、铠侠、威腾电子、美光、Solidigm及长江存储的闪存在接口命令和使用上都有不同,它们不同世代间的闪存的操作方式也都有所改动。伴随NAND闪存世代的快速迭代,3D TLC和QLC闪存也需要功能更强的主控芯片来带动产品性能、可靠性与使用寿命的提升。另外,数据中心的应用和使用环境各有不同,市场要求性能/价格/容量/安全等都能平衡的存储产品,厂商需提供定制化解决方案。
“如何进一步实现大容量化和高速化”是SSD亟待解决的问题。冈本成之表示,铠侠推出了支持PCIe5.0的SSD和搭载XL-FLASH的SSD。“XL-FLASH基于3D BiCS FLASH™闪存技术,给SSD带来了低延迟性能,弥补了DRAM与传统TLC SSD之间的产品定位空隙。”此外,铠侠还基于NVMe-oF协议开发了KumoScale存储软件,该软件专为以云中心部署的数据中心而设计,可提供高性能NVM Express闪存存储作为分布式网络服务。目前,KumoScale存储软件已经更新到3.20版。
在前文中,姜海围绕功耗和QoS保障做了分析。除了以上两点之外,他还补充说,成本、优化、性能也是宝存科技关注的焦点。“数据中心的所有组件都有降低成本的趋势,企业级SSD的标准演化要对应用端进行的优化日益增多,存储设备的性能虽荣来扩大而线性增长。”
聚焦大数据存储发展的趋势
业内主要有两种存储架构,传统的SAN/NAS存储(硬件架构采用“控制器+硬盘柜”的方式)和分布式存储(采用“标准的x86服务器硬件+存储软件”架构)。现在,许多厂商已经在布局分布式存储,分布式存储会成为未来的主流吗?
“大数据时代,数据规模会越来越大,传统的‘控制器+硬盘柜’基于scale-up架构的存储已经无法满足数据量的急速增长需求。”孟祥利认为分布式存储和集中式存储是相辅相成的关系,集中式存储更适合低延迟、大量小文件的应用,分布式存储更适用于节点数更多、数据量更大的海量数据存储。
“分布式存储采用可扩展的架构,将数据负载分散在多台存储系统中,相比传统的集中式存储系统,不仅能提高存储的效率和数据的安全性,还可以进行性能和容量的横向扩展,解决大规模、高并发场景下的存储访问问题。”李博乐相信,未来企业对于分布式系统的需求将持续增加,数据不仅成为企业转型和数字化的核心资产,海量、多元和非结构化成新数据时代常态。分布式存储将在大数据分析、高性能计算、云计算等应用场景被广泛使用,成为海量非结构化数据的主要载体。
除了“集中式”和“分布式”存储架构之外,“存算一体”和“存算分离”也为业内所关注。
Rambus战略营销副总裁Matt Jones认为,“存算分离”更符合未来大数据存储、企业和数据中心的发展趋势,大数据存储的数据源是多样化和复杂的,不同的数据在计算和存储方面可能有不同的特点和要求。这种架构更加灵活,易于组合和调整,能够适应大数据存储的多样化需求。
孟祥利认为,存算一体的主机高度集成,可以将大数据、AI等能力带到更小型化的应用场景。存算分离的优势和分布式类似,便于更好的扩展、不用进行频繁升级,便于快速扩充存储能力,适合用于更大规模的大数据平台。所以“存算一体”和“存算分离”是相辅相成的关系。
现阶段存储和计算并未形成一体化。“存储的数据需要被HOST引入到CPU和内存中进行处理,计算完成后再将结果存放到存储中去,这增加了中间存取的流量。业界就此提出了存算一体,在存储体系中增加算力,计算在离数据最近的地方进行,避免了数据流量往中间网络传递的浪费。“我认为,存算一体的技术愿景很美好,但业界暂时缺少成熟的标准体系。”姜海指出。
李博乐说,“存算一体”和“存算分离”各有千秋,需要结合不同业务系统类型及应用场景特点有针对性地制定解决方案。“存算一体”适合面向业务负载较低的场景,且业务种类和配比比较固定、系统规模较小的场景,例如银行网点的边缘云部署,其优势是部署容易,资源利用率高,但计算和存储服务有相互干扰且维护复杂度高,扩展性有待提高。
浪潮倡导的是“存算分离”,这种方式适合高弹性、高负载业务,可支撑多种类型差异化大的业务、系统规模较大的存储资源池,适合大规模云平台部署。其优势在于资源相互隔离,避免计算和存储负载间的干扰,维护复杂度低,在数据爆发式增长的数字经济新时代更受市场认可。
本文为《国际电子商情》2022年8月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击
相关文章
我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>