尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

数据编织-异构数据存储的自动化治理

数据编织-异构数据存储的自动化治理
📅 发布时间:2026/6/18 11:53:54

大约十年前,笔者曾经有过一个思考:“当时绝大多数客户都已经进行了近20年的信息化建设,拥有了数个到数十个不等的信息系统。这些信息系统会选择合适的数据存储技术来存放相关的数据。每个系统都会拥有多张不同的数据表。随着时间的迁移,客户是否还能够对数据表有清晰的了解?是否还知道数据表的用途、数据表中字段的含义以及相关性?”。当时很多客户也已经进行了相关的数据治理建设,引入了数据仓库技术,对数据进行了分层管理。少量客户也开始使用数据湖技术对全结构数据进行管理。但实际情况是,总有或这或那的原因,很多系统的数据表游离于这些治理平台之外。客户始终无法了解数据存储情况的全貌。

为此,笔者当时做了一个demo系统,能够自动化的帮助客户在单数据库中分析数据表的字段业务类型以及表间的关系。后因工作原因,此项工作就搁置一边了。直到去年,笔者团队在HuggingFists系统基本开发稳定后,重新捡起了这一理念,并重新规划了系统设计。近日,系统第一个版本的功能已经基本成型,在整理产品资料时,笔者团队突然发现,我们对产品的很多理解和定义竟然与“数据编织(Data Fabric)”的理念完美契合。为此,我们积极拥抱了这一理念,并借其阐述我们的经验与理解。

数据编织

一种以自动化、智能元数据驱动的统一数据集成与管理架构,它通过一个逻辑层连接分散在云、本地、数据库、应用中的数据,实现“在哪里都能找到、理解、访问和信任数据”,而无需物理移动数据。

其核心思想为:

  • 技术驱动:依赖 AI/ML、知识图谱、主动元数据(Active Metadata)自动发现、关联和推荐数据。

  • 统一逻辑视图:构建企业级“数据地图”,屏蔽底层异构性。

  • 自动化治理:在数据被访问时自动应用安全、质量、合规策略。

  • 支持虚拟化:常与数据虚拟化(Data Virtualization)结合使用。

异构存储的自动化治理

数据编织与前面几代数据治理架构(数据仓库、数据湖、Lambda / Kappa 架构)的最大区别就是其不再寻求数据在物理层面的统一,而是更强调数据在逻辑层面的可管理性。它省去了数据的迁移成本,但将面临更为复杂的异构存储系统的应用和管理难题。

实现异构存储的自动化治理会面临以下的难点:

多样且蓬勃发展的数据存储技术

客户的实际环境中会存在各类存储技术,包括:数据库、文件系统、事件流以及应用系统等。其中数据库类型最为丰富,又包括关系库、文档库、列簇库、键值库、向量库、图库、时序库等等。数据编织系统需要有能力接入各类存储系统,且能够方便的扩展支持更多的数据存储技术。

数据表、数据字段的统一表示

分散在不同数据库中的数据表与数据字段缺乏统一表示。在对其进行治理管理时,需能方便的追溯,定位并访问到源数据库。

字段级语义识别

不同系统对同一类信息经常有不同的表达方式,时间,电话号码等信息就非常典型。时间可以表示为:2025-12-13 08:00:00,2025/12/13 08:00:00等不同形式;电话号码也可随习惯表达为:13344444444,133-4444-4444等不同格式。有效识别这些不同格式的数据类型。

数据表关系分析

基于数据表结构信息,数据信息自动识别各表之间的关系。能够获得异构数据表的结构信息及相关数据,分析出表间的关系。得到跨数据存储系统的全局表关系视图。

异构存储自动化治理实践

下面我们简单模拟一个为客户自动化治理数据的过程

接入异构数据存储系统

利用“数据源管理”系统接入用户的各类数据源,这里的数据源管理与HuggingFists系统中的一致,详见HuggingFists系统中关于数据源管理的介绍。

定义业务数据类型

业务数据类型的定义是数据治理中最核心的一个部分。不同客户由于业务的差异会拥有并关注不同的业务数据。按照客户的数据情况,为客户定制特定的业务数据类型可以产生更好的数据治理效果。当前步骤如果省略的话,可以使用系统自带的缺省规则对数据类型进行识别,效果上与定义好特定业务数据类型有一定的差距。

定义自动化治理作业

选中待治理的数据源及数据表

查看治理结果
治理后的表实体列表

表实体内信息
概览

结构

关系

结语

在数据爆炸式增长、技术架构日益多元的今天,企业面临的不再是“有没有数据”的问题,而是“能不能理解、信任并高效利用数据”的挑战。传统的数据治理模式依赖物理集中与人工标注,难以应对复杂多变的异构环境;而数据编织所倡导的逻辑统一、智能驱动、自动治理的理念,恰为这一难题提供了新的解题思路。

本文展示的自动化治理实践是我们在这一方向上的初步探索:通过主动元数据、AI辅助识别、跨源关系建模等能力,在不移动数据的前提下,构建起一张覆盖全域、语义清晰、动态演进的企业级数据地图。这不仅降低了治理门槛,也提升了数据资产的可见性与可用性。

当然,数据编织并非万能灵药——它对底层连接能力、语义理解精度、策略执行一致性提出了更高要求。未来,我们将持续优化字段级语义识别的准确性,增强跨系统关系推理的深度,并进一步融合数据质量、安全合规与访问控制策略,让“在哪里都能找到、理解、访问和信任数据”从愿景走向日常。

相关新闻

  • 【dz-998】导盲犬多功能喂食器的设计与实现
  • 终极免费方案:如何快速搭建企业级Vue3后台管理系统?
  • 【dz-999】筒子纱的设计与实现

最新新闻

  • 2026 年北京离婚律师专业实力推荐榜:家事纠纷维权选型客观评测报告 - 信息热点
  • 2026年码垛机推荐榜单:全自动/高位/低位/立柱/编织袋/纸箱/桶/粉料/肥料码垛机,江苏/无锡机器人码垛厂家实力解析 - 品牌发掘
  • 机器学习学习路径:从零开始的实战指南
  • 2026 地下水自动化监测仪品牌推荐,生产厂家排行榜 - 王工聊地下水监测
  • 2026年 江苏包装机/全自动包装机/定量包装机,铜精粉吨袋上袋机/包装称/高位码垛机器人,源头实力厂家榜单推荐 - 品牌发掘
  • 机器学习模型上线:从沙盒到生产系统的工程契约

日新闻

  • 2026年不锈钢卷板厂家推荐排行榜:冷轧热轧/304/201不锈钢卷板,高颜值耐腐蚀源头厂家实力精选 - 企业推荐官【官方】
  • FLUX.1-dev FP8模型实战指南:24GB以下显卡高效部署方案
  • 2026佛山长途搬家价目表:跨省跨市搬家费用完整计算指南 - 从来都是英雄出少年

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号