数据沿袭是一门了解数据如何在组织中流动的学科:数据从哪里来、到哪里去以及沿途发生了什么。数据沿袭通常用于支持法规遵从性、数据治理和技术影响分析,它可以回答这些问题以及其他问题。
每当有人谈论数据沿袭及其实现方法时,人们的注意力往往集中在自动化上。这是意料之中的,因为自动化计算和建立沿袭的过程对于理解和维护可靠的数据管道系统至关重要。毕竟,沿袭的“乌托邦”是使用各种方法自动化一切,以便沿袭跟踪演变为无需人工干预的自动操作。
人们很少谈论描述性或手动派生的谱系(也常称为自定义技术谱系或自定义谱系),这是提供全面谱系框架的同等重要的工具。不幸的是,描述性谱系没有得到应有的关注或认可。如果你在数据专业人士中说“手动拼接”,每个人都会感到畏缩并逃跑。
在她的书中, 从业务角度看数据沿袭Irina Steenbeek 博士介绍了描述性沿袭的概念,即“一种在存储库中手动记录基于元数据的数据沿袭的方法”。
过去的描述性血统
20 世纪 90 年代的血统解决方案关注点狭窄。通常,它们基于单一技术或用例。提取、转换和加载 (ETL) 工具当时主导着数据集成领域,主要用于数据仓库和商业智能。
供应商的血统和影响分析解决方案只需在该单一解决方案的域内运行。这让事情变得简单。血统分析是在封闭的沙箱内进行的,编制了一个连接路径矩阵,该矩阵实施了与一组有限的控件和操作员一致的连接方法。
当所有产品都一致、来自单一供应商且几乎没有未知模式时,自动化血统更容易实现。然而,这相当于被蒙住眼睛锁在壁橱里。
这种方法和观点现在不切实际,坦率地说,毫无用处。现代数据堆栈要求我们的沿袭解决方案更加灵活,能够支持大量解决方案。现在,当没有其他方法时,沿袭必须能够提供使用螺母和螺栓连接事物的工具。
描述血统用例
在讨论描述性沿袭的用例时,重要的是要考虑每个用例的目标用户社区。前两个用例主要针对技术受众,因为沿袭定义适用于实际的物理资产。
最后两个用例更抽象,层次更高,对那些对大局感兴趣的技术水平较低的用户有直接吸引力。然而,即使是实物资产的低级沿袭对每个人都有价值,因为它可以通过沿袭工具进行总结,并形成对整个组织有益的“大局”见解。
关键而快速的桥梁
对血统的需求远远超出了 ETL 示例等专用系统的范围。在单一工具场景中经常会遇到描述性血统,但即使在那里,你也会发现自动化无法覆盖的情况。
示例包括只有特定工具的资深专家才能理解的罕见使用模式、解析器无法理解的奇怪新语法、短暂但不可避免的异常、缺失的源代码块以及围绕遗留例程和过程的复杂包装器。此用例还涵盖了简单的脚本或手动复制的顺序(平面)文件。
描述性谱系可让您将原本无法自动连接的资产绑定在一起。这适用于由于技术限制、真正缺失的链接或缺乏访问实际源代码的权限而断开连接的资产。
在这个用例中,描述性谱系扩展了我们已有的谱系,使其更加完整,填补了空白并跨越了桥梁。这也称为混合谱系,它充分利用了自动化,同时补充了更多资产和连接点。
支持新工具
不断扩展的技术组合为描述性谱系提供了下一个主要用例。随着我们的行业探索新领域和解决方案以最大限度地发挥数据的价值,我们见证了万物与我们的数据交互的环境的激增。
一个站点很少只有一套专用工具集。数据由多种解决方案接触和操作,包括本地和云转换工具、数据库和数据湖。来自旧系统(无论是停用还是使用中的)的资源以及新的报告工具也发挥着作用。
当今使用的技术种类繁多,令人难以置信,而且数量还在不断增长。虽然跨领域的自动化谱系可能是目标,但没有足够的供应商、从业者和解决方案提供商来为如此复杂的世界创建终极自动化“简易按钮”。
因此,需要描述性沿袭来定义新系统、新数据资产和新连接点,并将它们连接到已经使用自动化解析或跟踪的内容。
应用程序级血统
描述性沿袭也用于更高级别或应用程序级别的沿袭,有时称为业务沿袭。这通常很难通过自动化实现,正是因为应用程序级沿袭没有固定的行业定义。
为一个用户或一组用户完美定义高级谱系可能不符合您的首席数据架构师所设想的确切设计。描述性谱系使您能够定义所需的谱系,无论需要多深。
这是一个真正适合用途的谱系,通常停留在高抽象层次,甚至没有提到比特定数据库集群或应用程序区域名称更深层次的内容。对于金融机构的某些部分,谱系可能是通用的,指向一个称为“风险聚合”的目标区域。
未来血统
描述性谱系的另一个用例是“成为” 或者 未来 谱系。对未来应用程序的谱系进行建模的能力(尤其是以混合形式与现有谱系定义一起实现时)有助于组织评估工作成果、衡量对现有团队和系统的潜在影响,并跟踪整个过程中的进展。
未来应用程序的描述性谱系不会因源代码尚未返回或发布、未在生产中运行或仅在黑板上勾勒轮廓而受到阻碍。未来谱系可以独立存在,也可以与前面描述的混合模型中的现有谱系相结合。
这些只是描述性沿袭对整个企业沿袭可见性总体目标的补充。描述性沿袭填补了空白,支持未来的设计,弥补了差距,增强了您的整体沿袭解决方案,使您能够更深入地了解您的环境,从而提高信任度并做出更好的业务决策的能力。
使用描述性谱系增强您的应用程序。获得见解并做出更好的决策。请联系您的 IBM 代表了解更多信息。
了解如何实施手动沿袭
本文是否有帮助?
是的不