数据编织是一种新兴的数据管理设计,在中国保持了较高的市场吸引力。2022年Gartner数据和分析云采用调研显示,尽管受访者对“数据编织”一词的定义不尽相同,但42%的中国用户表示已采用这一技术,另有34%的受访者计划在未来12个月内采用这项技术。这两个选项的受访者占比都超过了全球水平(见图1)。
图1:中国客户与全球客户的数据编织采用计划
数据分析和人工智能(AI)技术及其在垂直行业用例的爆炸式增长,使企业数据基础设施变得日益复杂和难以维护。经济和地缘政治不确定性导致数据监管环境难以预测,进一步提高了管理难度。如果企业无法实施由主动元数据驱动的数据编织来提升数据和分析(D&A)弹性和敏捷性,D&A系统的维护成本将超过其创造的价值。
千变万化的宏观环境导致了数据管理规范的不确定性
过去两年,中国政府发布了多项国家原则,如《数据二十条》和《数字经济发展十四五规划》,以促进数据、分析和AI在经济中的应用。与此同时,新的数据分析和AI用例(物联网[IOT]、数字孪生、元宇宙、生成式AI等)不断涌现,使中国企业机构进一步推动数据分析和AI的普及。
另一方面,主要由地缘政治紧张局势驱动的数据安全原则和自给自足要求,也在迫使企业更谨慎、更合规地使用数据。
为同时满足上述两个看上去对立的需求,数据和分析能力的升级路线图和优先任务变得难以预测。同时,由于缺乏对当前数据和分析平台使用情况的持续监控和分析,企业无法主动识别潜在的分析需求和问题,导致大部分数据管理任务很被动。数据编织中的主动元数据管理,可以帮助企业机构以主动和自主的方式识别这些需求和问题。
更加复杂和去中心化的D&A架构
由于境内外的D&A供应商生态系统完全不同,数据安全和跨境数据传输法规日益明确,在中国境内和境外同时开展业务的企业(例如在中国开展业务的跨国企业,以及正在海外开展业务的中国企业)必须构建两组不同的D&A架构,甚至是不同的IT架构。对于仅在中国境内开展业务的企业机构来说,云迁移和技术自给自足计划的开展,会使其D&A架构长期处于转型中的状态。
出于上述原因,中国企业机构的D&A架构与全球同行相比,会具有更强的去中心化属性和复杂性。这将导致IT运营成本大幅增加,流程也会变得更为复杂。
分析对比数据的设计期望与实际体验之间的差距,可以更有效地完成上述大部分任务。数据编织中的主动元数据管理,通过比较设计时元数据和运行时元数据来帮助企业机构分析数据的设计期望与实际体验。这将使企业机构的系统、数据和数据管道在资源效率、性能、安全性、合规性和可用性方面始终处于“自动化可观测”状态。
跨部门沟通障碍
技术和业务团队之间的沟通障碍,仍然是中国企业机构快速、可持续地利用数据创造业务价值的一个主要障碍。2022年,Gartner收到了大量中国客户关于D&A项目跨部门沟通的问询,包括如何更好地与业务利益相关者对齐数据业务语义,以及如何使数据团队更快地做出响应。这些问题大多关乎数据定义与其真实运营体验之间的偏差,即“语义漂移”。在大型企业机构中,这个问题更严重,会拖累或阻碍数据和分析项目。
主动元数据管理通过对数据工程师和数据消费者内容的持续分析,生成大量洞察,包括:
特定用例中使用的源数据语义是否发生了变化
数据使用过程中是否存在安全或隐私问题
数据管道中的业务逻辑是否需要更新,以纠正语义漂移导致的数据质量问题