一、主动数据治理,数据治理新范式
1、新治理范式探索的背景
大多数管理过数仓的同学应该都有一个普遍共识是数据仓库建设时间越长,管理复杂度会越大。一是引入的数据技术越来越多,管理的集群会越来越多;二是参与数据生产和使用的角色和人员会越来越多;三是业务需要引入的数据会越来越多。最后会形成一个特别复杂的数据依赖网络,而数据管理的目标是要不断满足业务的效率、性能、质量、成本、安全等方面不断增长的需求。
在上述背景下,三个问题会越来越突出:
- 第一个问题是看不清。数据依赖网络越来越复杂,我们想要去理解某一个数据字段口径会越来越费时费力,一旦出现数据异常问题,想要去追溯到它的根因需要一层一层往上去找,一层一层去找人询问,排查过程非常困难。另外,做模型变更的时候往往会出现一个问题,就是表血缘扩散非常快,拉出两三层之后数据完全没法看,变更影响评估噪音非常多。
- 第二个问题是管不住。业务需求太急,应用层无序建设膨胀严重,中间层空心化,导致很多质量问题,成本问题,以及各种安全合规问题。
- 第三个问题是治理难。问题模型、重复数据等盘点困难,由于数据消费场景错综复杂,下游迁移工作量巨大,上下游协同成本高,新模型的切换难以推动。
面对上述问题,数据管理复杂度与日俱增,因此我们需要更加精细和更加智能的数据管理手段。