当前位置: 首页 > news >正文

数据编织-异构数据存储的自动化治理

大约十年前,笔者曾经有过一个思考:“当时绝大多数客户都已经进行了近20年的信息化建设,拥有了数个到数十个不等的信息系统。这些信息系统会选择合适的数据存储技术来存放相关的数据。每个系统都会拥有多张不同的数据表。随着时间的迁移,客户是否还能够对数据表有清晰的了解?是否还知道数据表的用途、数据表中字段的含义以及相关性?”。当时很多客户也已经进行了相关的数据治理建设,引入了数据仓库技术,对数据进行了分层管理。少量客户也开始使用数据湖技术对全结构数据进行管理。但实际情况是,总有或这或那的原因,很多系统的数据表游离于这些治理平台之外。客户始终无法了解数据存储情况的全貌。

为此,笔者当时做了一个demo系统,能够自动化的帮助客户在单数据库中分析数据表的字段业务类型以及表间的关系。后因工作原因,此项工作就搁置一边了。直到去年,笔者团队在HuggingFists系统基本开发稳定后,重新捡起了这一理念,并重新规划了系统设计。近日,系统第一个版本的功能已经基本成型,在整理产品资料时,笔者团队突然发现,我们对产品的很多理解和定义竟然与“数据编织(Data Fabric)”的理念完美契合。为此,我们积极拥抱了这一理念,并借其阐述我们的经验与理解。

数据编织

一种以自动化、智能元数据驱动的统一数据集成与管理架构,它通过一个逻辑层连接分散在云、本地、数据库、应用中的数据,实现“在哪里都能找到、理解、访问和信任数据”,而无需物理移动数据。

核心思想为:

  • 技术驱动:依赖 AI/ML、知识图谱、主动元数据(Active Metadata)自动发现、关联和推荐数据。

  • 统一逻辑视图:构建企业级“数据地图”,屏蔽底层异构性。

  • 自动化治理:在数据被访问时自动应用安全、质量、合规策略。

  • 支持虚拟化:常与数据虚拟化(Data Virtualization)结合使用。

异构存储的自动化治理

数据编织与前面几代数据治理架构(数据仓库、数据湖、Lambda / Kappa 架构)的最大区别就是其不再寻求数据在物理层面的统一,而是更强调数据在逻辑层面的可管理性。它省去了数据的迁移成本,但将面临更为复杂的异构存储系统的应用和管理难题。

实现异构存储的自动化治理会面临以下的难点:

多样且蓬勃发展的数据存储技术

客户的实际环境中会存在各类存储技术,包括:数据库、文件系统、事件流以及应用系统等。其中数据库类型最为丰富,又包括关系库、文档库、列簇库、键值库、向量库、图库、时序库等等。数据编织系统需要有能力接入各类存储系统,且能够方便的扩展支持更多的数据存储技术。

数据表、数据字段的统一表示

分散在不同数据库中的数据表与数据字段缺乏统一表示。在对其进行治理管理时,需能方便的追溯,定位并访问到源数据库。

字段级语义识别

不同系统对同一类信息经常有不同的表达方式,时间,电话号码等信息就非常典型。时间可以表示为:2025-12-13 08:00:00,2025/12/13 08:00:00等不同形式;电话号码也可随习惯表达为:13344444444,133-4444-4444等不同格式。有效识别这些不同格式的数据类型。

数据表关系分析

基于数据表结构信息,数据信息自动识别各表之间的关系。能够获得异构数据表的结构信息及相关数据,分析出表间的关系。得到跨数据存储系统的全局表关系视图。

异构存储自动化治理实践

下面我们简单模拟一个为客户自动化治理数据的过程

接入异构数据存储系统

利用“数据源管理”系统接入用户的各类数据源,这里的数据源管理与HuggingFists系统中的一致,详见HuggingFists系统中关于数据源管理的介绍。

定义业务数据类型

业务数据类型的定义是数据治理中最核心的一个部分。不同客户由于业务的差异会拥有并关注不同的业务数据。按照客户的数据情况,为客户定制特定的业务数据类型可以产生更好的数据治理效果。当前步骤如果省略的话,可以使用系统自带的缺省规则对数据类型进行识别,效果上与定义好特定业务数据类型有一定的差距。

定义自动化治理作业

选中待治理的数据源及数据表

查看治理结果
治理后的表实体列表

表实体内信息
概览

结构

关系

结语

在数据爆炸式增长、技术架构日益多元的今天,企业面临的不再是“有没有数据”的问题,而是“能不能理解、信任并高效利用数据”的挑战。传统的数据治理模式依赖物理集中与人工标注,难以应对复杂多变的异构环境;而数据编织所倡导的逻辑统一、智能驱动、自动治理的理念,恰为这一难题提供了新的解题思路。

本文展示的自动化治理实践是我们在这一方向上的初步探索:通过主动元数据、AI辅助识别、跨源关系建模等能力,在不移动数据的前提下,构建起一张覆盖全域、语义清晰、动态演进的企业级数据地图。这不仅降低了治理门槛,也提升了数据资产的可见性与可用性。

当然,数据编织并非万能灵药——它对底层连接能力、语义理解精度、策略执行一致性提出了更高要求。未来,我们将持续优化字段级语义识别的准确性,增强跨系统关系推理的深度,并进一步融合数据质量、安全合规与访问控制策略,让“在哪里都能找到、理解、访问和信任数据”从愿景走向日常。

http://www.rkmt.cn/news/121809.html

相关文章:

  • 【dz-998】导盲犬多功能喂食器的设计与实现
  • 终极免费方案:如何快速搭建企业级Vue3后台管理系统?
  • 【dz-999】筒子纱的设计与实现
  • 从延迟到丢包,车路协同信息同步痛点全解析,一文掌握高可靠通信设计精髓
  • 如何解决AMD显卡驱动臃肿问题
  • (SC-400高危漏洞预警):最新风险评估发现的3大安全隐患
  • 终极Windows动态桌面指南:打造个性化视频壁纸的完整教程
  • 2025年A53焊接钢管定制厂家权威推荐榜单:x46无缝钢管/L360M无缝钢管/蒸汽管道源头厂家精选 - 品牌推荐官
  • ET框架UI事件系统快速入门:委托驱动的交互实现全解析
  • AI篮球分析系统:用机器学习重塑投篮训练的科学方法
  • 嵌入式数据和代码分离的机制
  • AI与网络测试的结合,会碰撞出怎样的火花?
  • 【Agent互操作性突破】:定义未来AI生态的6大接口规范详解
  • Dify大模型平台版本回退实战:从v1.11.1安全降级到v1.10.x!
  • 2025年离婚律师排行榜:全国性优秀律所深度解析,婚姻律师事务所/离婚财产分割律师/离婚律师/北京哪个律所离婚做的好离婚律师事务所排行 - 品牌推荐师
  • 【Agent驱动的智慧物流】:3步实现运输路线自适应调整
  • 2025 年 12 月电动推杆厂家权威推荐榜:涵盖直线/微型/直流/伸缩/自锁等全品类,揭秘高性能精密传动核心品牌 - 品牌企业推荐师(官方)
  • 北京律师机构实力排行榜(2025-2026):高胜诉率解决方案权威测评 - 苏木2025
  • 2025年北京办公室出租专业公司排行榜,资质齐全品牌企业推荐 - 工业品牌热点
  • 在http接口编写过程中,前端传入参数query跟path两种参数的区别
  • 终极Web条码解决方案:ZXing.js如何重塑JavaScript条码处理生态
  • 物流智能调度进阶之路(量子Agent赋能路径优化实战)
  • 10分钟极速搭建:Papermerge智能文档管理平台完整指南
  • 29、Linux系统安全防护指南
  • 电力巡检图像识别中的小样本困境,3步实现高效模型训练
  • 过氧化氢泄漏后应急处置
  • 【医疗多模态Agent权重优化】:揭秘高效模型融合背后的黑科技
  • 2025年北京科技企业孵化机构推荐,创享独角兽实力凸显 - 工业品牌热点
  • Win-PS2EXE终极指南:一键将PowerShell脚本编译为EXE
  • ABAP结构体和内表类型笔记