数据管理平台的核心元素,数据治理的核心
1、什么是元数据
元数据(metadata)是关于数据的组织、数据域及其关系的信息,简单来说,元数据就是被用来描述数据的数据。
概念阐述总归生涩,下面用几个简单的例子来比喻一下:
例1:元数据是“户口本”。有了“户口本”,我们不仅能了解此人的出生年月等基本信息,还能知晓他的亲属关系。这些信息就构成了对这个人的详细描述,这些信息就是描述这个人的元数据。
例2:元数据是“图书目录”。图书馆中的图书目录包含图书名称、编号、作者、位置等信息,有了它
一、关于元数据
1、什么是元数据
元数据(metadata)是关于数据的组织、数据域及其关系的信息,简单来说,元数据就是被用来描述数据的数据。
概念阐述总归生涩,下面用几个简单的例子来比喻一下:
例1:元数据是“户口本”。有了“户口本”,我们不仅能了解此人的出生年月等基本信息,还能知晓他的亲属关系。这些信息就构成了对这个人的详细描述,这些信息就是描述这个人的元数据。
例2:元数据是“图书目录”。图书馆中的图书目录包含图书名称、编号、作者、位置等信息,有了它,图书管理员就能快速查找图书。元数据能够帮助数据管理员管理数据。
例3:元数据是“藏宝图”,按图索骥就能找到宝藏。元数据能够帮助企业盘点自己有哪些数据,以及这些数据的位置、来源、去向、路径等。
收集元数据,能够帮助企业回答下面的问题:我们有哪些数据?数据的使用人数有多少?如何查找数据?数据的流转情况如何?通过血缘关系进行溯源和问题分析等等。
那么在实际业务场景中,元数据又是怎样的呢?
示例:比如 175 这个数字,它在特定场景下,有如下的元数据:
2、元数据&元数据管理的重要性在表格中,“175”是实体数据,而业务元数据、技术元数据、操作元数据、管理元数据,分别从各自的角度描述了“175”这个数字,所以,它们都在元数据的范畴内。
数据治理的前提是要有数据,并且要求数据类型全、量大,并尽可能的覆盖数据流转的各个环节,而元数据是“所有系统、文档和流程中包含的所有数据的语境。是生数据的知识。”换句话说,如果没有元数据,组织IT系统中收集和存储的所有数据都会失去意义,也就没有业务价值。
要想获得元数据的价值,需要根据建立的流程、在行业标准和最佳实践指导的范围内管理元数据。在“DAMA车轮图”中,元数据管理占据了十大数据管理领域其中很重要的一环:
元数据管理是一项和主数据管理、数据治理一样重要的功能,因为元数据管理是每一个这些准则的基础组件。不管理好元数据,是不能管理好主数据的。
二、元数据的分类
按照不同领域和功能,元数据一般来说可分为:技术元数据、业务元数据、操作元数据、管理元数据。由于使用视角不同会影响到对元数据的分类,所以具体的分类标准并不严格。(比如数据安全等级指标——从安全部门的视角来看,属于业务元数据;从开发部门的视角来看,就属于管理元数据。)
1、技术元数据
技术元数据是用于开发和日常管理数据仓库时用的数据。它作为数据的结构化,能够方便计算机、数据库对数据进行识别、存储、传输和交换。
对开发人员来说,它有助于明确数据的存储、结构,为应用开发和系统集成打牢基础;对业务人员来说,它有助于理清数据关系,从而能够更加快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。
常见的技术元数据:
l 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;
l 数据存储类型、位置、数据存储文件格式或数据压缩类型等;
l 字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等;
l 调度依赖关系、进度和数据更新频率等。
2、业务元数据
业务元数据描述的对象,是数据的业务含义、业务规则等。通过对业务元数据的明确,人们对它的理解和使用会变得更加容易。元数据使得数据的二义性不复存在,人们对数据含义能够产生一致的认知,避免了“自说自话”的情况,进而为数据分析和应用提供支撑。
常见的业务元数据:
l 业务定义、业务术语解释等;
l 业务指标名称、计算口径、衍生指标等;
l 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;
l 数据的安全或敏感级别等。
3、操作元数据
操作元数据描述了数据的操作属性,比如管理部门、管理责任人等。数据操作属性的明确,有助于将数据管理责任落实到部门和个人,是数据安全管理的基础条件。
常见的操作元数据:
l 数据所有者、使用者等;
l 数据的访问方式、访问时间、访问限制等;
l 数据访问权限、组和角色等;
l 数据处理作业的结果、系统执行日志等;
l 数据备份、归档人、归档时间等。
4、管理元数据
管理元数据包含了数据管理的信息在其中,例如:表的业务属主、表的技术负责人。
常见的管理元数据:
l 数据的来源;
l 数据的功用;
l 数据的负责人;
l 数据的价值体现等。
三、元数据管理方法
元数据管理是对元数据的创建、存储、整合、控制的一整套流程,它能够帮助开发和业务人员快速了解数据上下游关系、数据本身含义;它可以精准定位需要查找的数据,减少数据研究的时间成本,提高工作效率。
元数据管理也是数据治理工作的重中之重,在数据治理项目中,我们通常从以下几个方面推进元数据管理工作:
1、元数据范围
首先,要确定需要进行管理操作的元数据范围。实际情况中,不一定所有数据都要做元数据管理。更多情况下,业务数据会被选择进行元数据管理,非业务数据(例如:备份数据、系统日志等)一般不会被纳入管理范围内,主要原因是,元数据管理能够帮助业务和开发人员快速掌握业务数据。
确定规则后,就要根据公司实际情况,整理出需要进行元数据管理的业务系统、数据库、数据库用户、表等。非结构化数据的元数据抽取也可支持,比如:word、pdf等。
2、元数据接入
元数据一般是从源系统接入,如果企业已经拥有数仓,或对实时性要求不高,为了节约开发工作量、提升工作效率,会将已有的元数据从数仓接入,还未接入的从源系统接入。
这种方案的风险在于:如果数仓的数据和源系统出现不一致的情况,元数据就会出现错误。现如今,大部分的元数据抽取都采用配置自动化的方式进行。
3、元数据标准
为了保证元数据的完整性和一致性,当出现数据库或数据定义不规范的情况时,要建立元数据管理的规范和标准,反推前端源数据整改。同时,要对元数据进行权限管理,规范权限的管理流程(元数据的权限分层、元数据权限申请流程、元数据的发布流程、元数据的审核流程等)。
4、元数据维护
指对已发布的元数据进行管理和维护,如果需要对已上线的元数据进行调整优化,就必须重新通过元数据发布流程,不允许直接修改元数据。同时,成立元数据操作日志,记录所有元数据操作行为。
可根据要求,按照业务流程、业务主题域、开发流程设计对应目录,将不同的元数据挂在对应的目录下。
5、元数据查找、分析、报告
划分单独页面,支持对元数据进行模糊或精准快速查找。
产出元数据资产报告,帮助企业快速了解元数据访问热度、数据价值、数据成本、数据分布等相关信息。
四、元数据应用
元数据应用场景:
可以看出,建立好元数据,不仅能够方便数据治理,也可以衍生出丰富的应用,如数据地图,血缘分析,数据冷热分析,数据资产管理等。(山东中翰软件有限公司)
数据治理的数据治理成功的关键——元数据管理
独立企业数据集成软件提供商Informatica公司(纳斯达克代码:INFA)认为:数据治理成功的关键在于元数据管理,即赋予数据上下文和含义的参考框架。经过有效治理的元数据可提供数据流视图、影响分析的执行能力、通用业务词汇表以及其术语和定义的可问责性,最终提供用于满足合规性的审计跟踪。元数据管理成为一项重要功能,让 IT 部门得以监视复杂数据集成环境中的变化,同时交付可信、安全的数据。因此,良好的元数据管理工具在全局数据治理中起到了核心作用。 Informatica将数据治理定义为“在组织范围内,对流程、政策、标准、技术和人员进行职能协调和定义来将数据作为公司资产管理,从而实现对准确、一致、安全且及时的数据的可用性管理和可控增长,以此制定更好的业务决策,降低风险并改善业务流程”。
数据治理着重于交付可信、安全的信息,为制定明智的业务决策、有效的业务流程并优化利益相关方交互提供支持。因此,数据治理本身并非是结果,而仅仅是方法:即通过数据治理来支持最关键的业务目标。 正如某家大型银行的高管所言:“如果没有数据治理,任何元数据管理方案注定会失败。”元数据管理可作为一项重要功能,让IT部门得以管理复杂数据集成环境中的变化,同时交付可信、安全的数据。当业务利益相关方参与这一进程并接受对数据参考框架的责任,其优势将变得更有说服力。此时,企业就能将业务元数据与基层的技术元数据进行关联,为全公司范围内的协作提供词汇表和背景资料。
例如,当业务用户要求其在 IT 部门的搭档在报告或分析中显示“净收入”,就无需再提问“哪种净收入——财务、销售还是市场营销?”除提供其他优势外,良好的元数据管理还可通过免除此类重要问题,促进数据治理:
· 这个业务术语的含义是什么?
· 在(几个相似的)业务术语中应当使用哪一个?
· 该术语的来源是什么?
· 该数据从数据源转移到目标时是如何进行转换的?
· 由谁负责该术语的定义、记录和管理?
· 谁修改过该术语?如何及何时进行修改?
· 哪些政策和规则适用于该术语?(示例包括数据质量规则、安全屏蔽规则、存档规则和数据保留政策)
· 修改环境中的某一特定数据对象会对其他数据对象产生哪些影响?
· 在不对可能使用相同数据对象的其他报告和分析造成影响的前提下,需要多长时间来实施环境变更? 一系列公司方案推动了数据治理的进展,也由此带动了元数据管理。这些方案包括:
· 通用业务词汇表(简单的数据管理)。这种“小规模试水”方法着重于某一特定问题或业务部门的通用业务词汇表。
· 全面数据治理(或数据管理策略)。这是一种更近似由上至下的方式,通常用于涉及企业内一系列业务部门的较大规模计划,并以按多个阶段(如果不是更长时间)进行管理的计划中的多个商机为目标。
· 合规。此类方案的推动因素是为遵守国际、国家、当地或行业法规的需求。合规——通常由一个治理、风险与合规性(GRC)职能部门进行管理,显然与数据治理唇齿相依。在发现、分析和记录企业的多项内部数据治理要求的同时,还必须与适用外部法规的相关特定要求进行统筹协调。其中部分示例包括:
· 银行业:Basel II、Basel III、多德弗兰克法案(Dodd Frank)、洗钱法案
· 保险业:偿付能力监管标准II(Solvency II )
· 医疗保健:HITECH Act、HIPAA
· 一般金融服务:萨班斯—奥克斯利法案
· 元数据管理。这是更上一层楼的做法,将元数据管理和数据治理作为“最佳实践”与各个新的业务方案挂钩。该方案对业务案例和项目范围进行定义。在多家未能成功实施较大型数据治理方案的公司中,这一方法则取得了成功。 几乎所有企业面临着管理数据量、速度和种类的挑战。Hadoop/MapReduce 技术在复杂数据分析能力以及按相对低廉的成本实现最大数据扩展性方面提供了一些有趣的优势。Hadoop 在不久的将来取代关系性DBMS的可能性不大,这两项技术更有可能并存,因为它们各有独到之处。虽然用于管理和分析数据的技术可能不同,元数据管理和数据治理的目标应始终保持不变:为支持良好的业务决策提供可信、及时且相关的信息。不存在所谓的“大数据治理”或“大数据元数据管理”——相反,这是一个将全局企业数据治理和元数据管理活动加以扩展来包容全新数据类型和数据源的问题。
Hadoop带来的挑战之一就是元数据管理。如果没有良好的元数据管理和数据治理,Hadoop将会缺乏透明度、可审计性以及数据的标准化与重复利用能力。企业仍将需要对数据相关关键信息的可见性,例如其来源、质量和所有权,否则就必须承受Hadoop变成环境内的又一个数据孤岛的风险。在该领域涌现的 HCatalog 和Hive /HiveQL等新技术将使得从非结构化和半结构化数据中收集元数据变得更加简易,从而实现Hadoop上的数据沿袭。这些功能对于将Hadoop集成入总体数据集成框架,以防止大数据在企业中遭到孤立隔绝,可如同任何其他数据源一样进行治理至关重要。 Informatica可提供功能齐全而又稳健可靠的工具,具备交付可信、安全的数据和启动成功的元数据管理方案所需的全部精确功能。Metadata Manager & BusinessGlossary可提供独一无二的多项优势,让IT经理能够尽量降低在实施变更时对关键业务数据造成损害的业务风险。
InformaticaMetadata Manager & Business Glossary是 InformaticaPowerCenter Standard Edition的关键组件之一。它可提供为数据治理方案奠定基础所需的核心元数据管理工具。Metadata Manager & Business Glossary是一项单个产品,配备一个共享的元数据信息库。它具备两个用户界面,供两类截然不同的用户使用:
· MetadataManager 可让 IT 人员处理技术元数据。
· Business Glossary 可让业务和 IT 管理员协同管理业务元数据。
ITSS WG1发布的白皮书表明
数据治理模型包括三个框架:范围,促成因素和执行及评估。他们每个方面都包含许多组件来进行展示和描述它们是如何工作的。该框架显示数据治理内部的逻辑关系。范围展示了我们应该关注什么,促成因素展示了数据治理的推动因素,执行和评估展示了如何实现治理的方法。该DG模型可以通过三个框架帮助我们理解数据治理。
数据治理的范围包括四个层次的内容。首先,应该 有一个治理要素负责管理其它管理要素,保证治理与管理的一致性。其次,下面的三个层次分别列示了需要治理的数据管理要素,其中价值创造层列示了通过数据治理所创造的价值服务。价值保证层描述了一个组织治理数据时重要保证服务。基础数据服务层描述了一个数据治理的基础数据服务。
什么是元数据(MetaData)及元数据的用途
元数据(Meta Data)是关于数据的数据,当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据,元数据主要用来描述数据的上下文信息。
通俗的来讲,假若图书馆的每本书中的内容是数据的话,那么找到每本书的索引则是元数据,元数据之所以有其它方法无法比拟的优势,就在于它可以帮助人们更好的理解数据。
发现和描述数据的来龙去脉,特别是那些即将要从OLTP系统上升到DW/BI体系建设的企业,元数据可以帮他们形成清晰直观的数据流图,元数据是数据管控的基本手段。
元数据是为了提升共享、重新获取和理解企业信息资产的水平,元数据是企业信息管理的润滑剂,不对元数据进行管理或管理不得当。
信息将被丢失或处于隐匿状态而难以被用户使用,数据集成将十分昂贵,不能对业务进行有效支撑。终端用户要识别相关的信息将十分困难,最终用户将失去对数据的信任。
扩展资料
元数据分类
元数据管理的范围将涵括数据产生、数据存储、数据加工和展现等各个环节的数据描述信息,帮助用户理解数据来龙去脉、关系及相关属性。按其描述对象的不同可以划分为三类元数据:技术元数据、业务元数据和管理元数据。这三种元数据的具体描述如下:
1、技术元数据 技术元数据是描述数据系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖数据源接口、数据仓库与数据集市存储、ETL、OLAP、数据封装和前端展现等全部数据处理环节;
2、业务元数据 业务元数据是描述数据系统中业务领域相关概念、关系和规则的数据,主要包括业务术语、信息分类、指标定义和业务规则等信息;
3、管理元数据 管理元数据是描述数据系统中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责和管理流程等信息。
参考资料来源:百度百科-元数据
文章评论