数据库

位置:IT落伍者 >> 数据库 >> 浏览文章

数据仓库元数据管理


发布日期:2023年08月03日
 
数据仓库元数据管理

第一章元数据概论

企业的计算机系统每年会产生很多数据很多企业面临着这样的困境难以有效的管理大量的繁杂的不一致的数据并方便地访问利用这些数据进行辅助决策

建立数据仓库提供一个方法把数据转化为有用的可信赖的信息支持商业决策建立数据仓库一个重要的工作是元数据管理元数据(Metadata)就是数据的数据用于建立管理维护和使用数据仓库元数据管理是企业级数据仓库中的关键组件贯穿于建立数据仓库的整个过程

元数据使得用户可以掌握数据的历史情况如数据从哪里来?流通时间有多长?更新频率是多大?数据元素的含义是什么?对它已经进行了哪些计算转换和筛选等等在需求不确定情况下在瞬间万变的商业环境下元数据可以更好的支持需求的变化降低项目风险

通常把元数据分为技术元数据(Technical Metadata)和业务元数据(Business Metadata)技术元数据是描述关于数据仓库技术细节的数据这些元数据应用于开发管理和维护数据仓库业务元数据从商业和业务的角度描述数据仓库的数据提供了良好的语义层定义业务元数据使业务人员能够更好的理解数据仓库分析出来的数据

元数据贯彻于建立数据仓库的整个过程不只是ETL过程需要元数据的支持

元数据的应用

在使用元数据的同时随着数据仓库市场的发展业界出现许多数据仓库管理和分析的工具各种工具使用不同的元数据标准来表示和处理不同系统之间的迁移数据交换变得困难于是我们希望用一种单一的元数据标准使得各种组织的元数据具有单一的元模型(MetaModel)因此需要建立一种标准使得不同的数据仓库和商业智能系统之间可以相互交换元数据

第二章元数据标准

元数据标准CWM

OMG于年颁布元数据标准CWM (Common Warehouse Metamodel Version CWM定义一个描述数据源数据目的转换分析的元数据框架以及定义建立和管理数据仓库的过程和操作提供使用信息的继承

目前宣布支持CWM的厂商包括IBMOracleHyperionDimension EDIGenesis IONAHPNCR和Unisys等

CWM基于个工业标准

UML Unified Modeling LanguageOMG建模标准

MOF Meta Object FacilityOMG建立元模型和模型库的标准提供在异构环境下的数据交换的接口

XMI XML Metadata InterchangeOMG元数据交换标准

UML在CWM中得到充分的应用担任个不同的角色

UML用来做为与MOF对应的metametamodelUML相当于MOF ModelUML Notation和OCL(Object Constraint Language)被用来做为建模语言图形符号约束语言定义和描述CWM

UML用来创建元模型UML特别是Object Model 包描述的子集用来从其它元模型继承等级和关联以建立CWM

UML做为面向对象元模型(objectoriented metamodel)UML被用来描述面向对象的数据

CWM元模型包括大量的子元模型(subMetamodel)这些子元模型描述了建立数据仓库和商业智能的各个主要部分的通用数据仓库元数据

主要包括

数据资源包括各个元模型描述了面向对象数据关系数据库记录多维和XML等数据

数据分析包括描述数据转换OLAP数据挖掘信息展现商业术语等的元模型

数据仓库管理这包括数据仓库过程以及数据仓库操作结果的元模型

CWM元模型设计的目的是最大化的重用对象模型Object Model (UML的子集) 尽可能的共享通用的模型构建最典型的是CWM重用/依赖对象模型来描述面向对象的数据资源另外其它类型的数据资源的主要Metamodel元素在对象模型中都有相同的模型元素与之相对应

使用CWM

CWM的目标使用者

CWM标准包括了技术元数据和业务元数据的定义涉及数据仓库生命周期的所有阶段所以不只是实施工程师和实施顾问使用CWM最终用户也会受益于CWM

CWM的目标使用者包括类人员

数据仓库平台和工具供应商

专业服务咨询商

数据仓库开发者

数据仓库管理员

最终用户

信息技术主管(CIO)

基于CWM的数据仓库

CWM的目标使用者将会参与到开发和使用基于CWM的数据仓库的过程中但并不是所有的角色需要参与整个过程而是参与到下面列举的的个阶段中的一个或多个

Establishment实现和配置CWM包括建立一个通用资料库

Build使用CWM定义一个基线数据仓库配置(建立数据源和目的的交换路径)

Operation操作和使用基于CWM的数据仓库

Maintenance维护使用了CWM定义的数据仓库的配置

CWM标准组织结构

CWM元模型使用包(package)和包等级结构来控制复杂性提高理解性支持重用模型元素包括下面的包

对象模型包

对象模型包是构建和描述其它CWM包的元模型类的基础

&#; 核心包包括CWM核心对象模型的类和关联被其它CWM包使用

&#; 行为包包括用来描述CWM对象的行为的类和关联

&#; 关系包包括用来描述各个CWM对象之间关系的类和关联

&#; 实例包包括用来描述CWM实例的类和关联

基础包

基础包是表示CWM概念和架构的模型元素

&#; 商业信息包包括用来描述关于模型元素的商业信息的类和关联

&#; 数据类型包包括用来描述创建模型需要的特定数据类型构建的类和关联

&#; 表达式包包括用来描述表达树(expression trees)的类和关联

&#; 关键字和索引包包括用来描述主键和索引的类和关联

&#; 软件部署包包括用来描述软件在数据仓库中如何部署和配置的类和关联

&#; 类型映射包包括用来描述两个系统之间数据类型映射关系的类和关联

资源包

资源包是用来描述数据资源和记录的信息

&#; 关系包包括用来描述关系型数据的元数据的类和关联

&#; 记录包包括用来描述记录型数据的元数据的类和关联

&#; 多维包包括用来描述多维型数据的元数据的类和关联

&#; XML包包括用来描述XML数据的元数据的类和关联

分析包

分析包定义了如何对信息进行加工和处理以及信息展示

&#; 转换包包括用来描述数据转换工具的元数据的类和关联

&#; OLAP包包括用来描述OLAP工具的元数据的类和关联

&#; Data Mining包包括用来描述数据挖掘工具的元数据的类和关联

&#; 信息展示包包括用来描述信息展示工具的元数据的类和关联

&#; 商业术语包包括用来描述商业分类学和术语表的元数据的类和关联

管理包

管理包用于数据仓库管理和维护

&#; 仓库过程包包括用来描述数据仓库过程的元数据的类和关联

&#; 仓库操作包括用来描述数据仓库操作和查询结果的元数据的类和关联

第三章建立元数据库

元数据库是用于存储元数据的地方元数据库最好选用主流的关系数据库管理系统支持CWM标准一个元数据库还包含那些用于操作和查询元数据的机制建立元数据库的主要好处是提供了统一的关键数据结构和业务规则易于将企业内部的多个数据集市有机的结合起来特别是现在一些客户倾向建立多个数据集市而不是一个庞大无比的数据仓库

可以考虑在建立数据仓库(或数据集市)之前先建立一个用于描述数据的用于应用集成的元数据库做好数据仓库实施的初期支持工作对后续开发和维护有很大的帮助

在拥有不同厂商不同功能和不同元数据库的环境下要实现两种产品之间的元数据同步是非常富有挑战性的工作因为必须从一种产品中获得足够详细的元数据将其映射到另一种产品中再指出两者意义或编码的差别通常系统有数百数千个元数据必须对每个元数据重复这一过程

在整个数据仓库环境中元数据管理工具可以从各个数据仓库组件中收集元数据存储到元数据库中然后向业务用户传递和展示正确的信息采集集成和描述元数据可以扩展到十分广泛的范围可以在设计和建模的过程中可以在数据转换清洗和过滤的过程中也可以在数据移植的过程中可以从数据库/数据存储软件和前端展示工具中得到元数据

元数据库为整个企业的宝贵信息提供了详细的记录保存数据存储位置和商业含义生成和维护数据的主体数据驱动的应用处理与其它数据的关系以及数据的转换过程等元数据库保证了数据仓库数据的一致性和准确性为企业进行数据质量管理提供数据依据

另外元数据库还支持强大的查询和报表生成工具用户使用报表工具可以查询元数据库从元数据库获得重要的决策支持信息

上一篇:关系数据库的模式设计

下一篇:移动数据