数据库

位置:IT落伍者 >> 数据库 >> 浏览文章

数据仓库白皮书


发布日期:2018年03月12日
 
数据仓库白皮书

人们在日常生活中经常会遇到这样的情况超市的经营者希望将经常被同时购买的商品放在一起以增加销售保险公司想知道购买保险的客户一般具有哪些特征医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征从而为治愈这种疾病提供一些帮助……对于以上问题现有信息管理系统中的数据分析工具无法给出答案因为无论是查询统计还是报表其处理方式都是对指定的数据进行简单的数字处理而不能对这些数据所包含的内在信息进行提取随着信息管理系统的广泛应用和数据量激增人们希望能够提供更高层次的数据分析功能为此数据仓库应运而生

数据仓库的概念及特点

数据仓库概念始于本世纪年代中期首次出现是在号称数据仓库之父William HInmon的《建立数据仓库》一书中随着人们对大型数据系统研究管理维护等方面的深刻识认和不断完善在总结丰富集中多行企业信息的经验之后为数据仓库给出了更为精确的定义数据仓库是在企业管理和决策中面向主题的集成的与时间相关的不可修改的数据集合

数据仓库并没有严格的数学理论基础也没有成熟的基本模式且更偏向于工程具有强烈的工程性因此在技术上人们习惯于从工作过程等方面来分析并按其关键技术部份分为数据的抽取存储与管理以及数据的表现等三个基本方面

⑴数据的抽取数据的抽取是数据进入仓库的入口由于数据仓库是一个独立的数据环境它需要通过抽取过程将数据从联机事务处理系统外部数据源脱机的数据存储介质中导入到数据仓库数据抽取在技术上主要涉及互连复制增量转换调度和监控等方面数据仓库中的数据并不要求与联机事务处理系统保持实时同步因此数据抽取可以定时进行但多个抽取操作执行的时间相互的顺序成败对数据仓库中信息的有效性则至关重要

⑵存储和管理数据仓库的真正关键是数据的存储和管理数据仓库的组织管理方式决定了它有别于传统数据库同时也决定了其对外部数据的表现形式要决定采用什么产品和技术来建立数据仓库的核心则需要从数据仓库的技术特点着手分析

⑶数据的表现数据表现实际上相当于数据仓库的门面其性能主要集中在多维分析数理统计和数据挖掘方面而多维分析又是数据仓库的重要表现形式近几年来由于互联网的发展使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面而不仅仅是在网上发布数据

提到数据仓库人们难免会想到仅有一字之差的数据库那么数据仓库和我们经常提到的数据库有哪些区别呢?为什么要使用数据仓库呢?

从数据库到数据仓库

市场需求是技术发展的源动力在数据库应用的早期计算机系统所处理的是从无到有的问题是传统手工业务自动化的问题例如银行的储蓄系统电信的计费系统它们都属于典型的联机事务处理系统在当时一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞争力记得在年代末北京工商银行率先推出了全市个人储蓄通存通兑业务广大市民便将先前就近存于不同银行的存款一并取出而存入了工商银行这便是通过联机事务处理系统而获得市场优势的案例其次当时单位容量的联机存储介质比现在昂贵得多相对于市场竞争的压力将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了因此联机事务处理系统只涉及当前数据系统积累下的历史业务数据往往被转储到脱机的环境中此外在计算机系统应用的早期还没有积累大量的历史数据可供统计与分析从而联机事务处理成为整个年代直到年代初数据库应用的主流

然而应用在不断地进步当联机事务处理系统应用到一定阶段的时候企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析从而做出有利的决策同样就拿北京各银行的储蓄业务来说如今各家都拥有了联网的储蓄系统再要获得市场竞争的优势就需要在决策上下功夫例如在业务密集地区增设自助网点推出有针对性(如某类职业圈某年龄段)的储蓄服务计划这些决策需要对大量的业务数据包括历史业务数据进行分析才能得到而这种基于业务数据的决策分析我们把它称之为联机分析处理如果说传统联机事务处理强调的是更新数据库——向数据库中添加信息那么联机分析处理就是要从数据库中获取信息利用信息因此着名的数据仓库专家Ralph Kimball写道我们花了多年的时间将数据放入数据库如今是该将它们拿出来的时候了

事实上将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法但在实际的操作中人们却发现要获得有用的信息并非想象的那么容易第一所有联机事务处理强调的是数据更新处理性能和系统的可靠性并不关心数据查询的方便与快捷联机分析和事务处理对系统的要求不同同一个数据库在理论上难以做到两全第二业务数据往往被存放于分散的异构环境中不易统一查询访问而且还有大量的历史数据处于脱机状态形同虚设第三业务数据的模式是针对事务处理系统而设计的数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计于是有人感歎年前查询不到数据是因为数据太少了而今天查询不到数据是因为数据太多了针对这一问题人们专门为业务的统计分析建立一个数据中心它的数据可以从联机的事务处理系统异构的外部数据源脱机的历史业务数据中得到它是一个联机的系统专门为分析统计和决策支持应用服务通过它可满足决策支持和联机分析应用所要求的一切这个数据中心就叫做数据仓库如果需要给数据仓库一个定义的话那么可以把它看作一个作为决策支持系统和联机分析应用数据源的结构化数据环境数据仓库所要研究和解决的问题就是从数据库中获取信息

那么数据仓库与数据库(主要指关系数据库)又是什么关系呢?回想当初 人们固守封闭式系统是出于对事务处理的偏爱 人们选择关系数据库是为了方便地获得信息我们只要翻开 CJ Date博士的经典之作《An Introduction to Database Systems》便会发现今天数据仓库所要提供的正是当年关系数据库要所倡导的然而成也萧何败也萧何由于关系数据库系统在联机事务处理应用中获得的巨大成功使得人们已不知不觉将它划归为事务处理的范畴过多地关注于事务处理能力的提高使得关系数据库在面对联机分析应用时又显得老革命遇到新问题——今天的数据仓库对关系数据库的联机分析能力提出了更高的要求采用普通关系型数据库作为数据仓库在功能和性能上都是不够的它们必须有专门的改进因此数据仓库与数据库的区别不仅仅是应用的方法和目的上的同时也涉及产品和配置

以辩证的眼光来看数据仓库的兴起实际上是数据管理的一种回归是螺旋式的上升今天的数据库就好比当年的层次数据库和网型数据库它们面向事务处理今天的数据仓库就好比是当年的关系数据库它针对联机分析所不同的是今天的数据仓库不必再为联机事务处理的特性而奔忙由于技术的专业化它可更专心于联机分析领域的发展和探索

从厂商的角度看经过长期发展联机事务处理系统的市场至年代中期出现饱和迹象其增长速度明显减慢这导致各大数据库厂商的传统业务增长面临严峻挑战寻求新的业务增长点成为他们的当务之急数据仓库的兴起无疑为数据库产品创造了巨大的市场它成为世纪末到世纪初数据库市场的一个新的增长点因此数据仓库这个词儿打一开始便伴随着轰轰烈烈的市场炒作对于广大用户来说只有从自身应用需求出发破除技术和概念的神秘性奉行拿来主义避虚就实密切关注技术发展的方向方可获得满意的产品解决方案和经济效益

总之数据仓库并非是一个仅仅存储数据的简单信息库因为这实际上与传统数据库没有两样数据仓库实际上是一个以大型数据管理信息系统为基础的附加在这个数据库系统之上的存储了从企业所有业务数据库中获取的综合数据的并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统如果说传统数据库系统的重点与要求是快速准确安全可靠地将数据存进数据库中的话那么数据仓库的重点与要求就是能够准确安全可靠地从数据库中取出数据经过加工转换成有规律信息之后再供管理人员进行分析使用

IBMOracle等厂商都提出了自己的数据仓库结构但严格说来任何一个数据仓库结构都是从一个基本框架发展而来实现时再根据分析处理的需要具体增加一些部件其中斯坦福大学WHPS课题组提出的一个基本的数据仓库模型如图所示

为了能够将已有的数据源提取出来并组织成可用于决策分析所需的综合数据的形式一个数据仓库的基本体系结构中应有以下几个基本组成部分

◆数据源 指为数据仓库提供最底层数据的运作数据库系统及外部数据

◆监视器 负责感知数据源发生的变化并按数据仓库的需求提取数据

数据仓库基本体系结构

◆集成器 将从运作数据库中提取的数据经过转换计算综合等操作集成到数据仓库中

◆数据仓库 存贮已经按企业级视图转换的数据供分析处理用根据不同的分析要求数据按不同的综合程度存储数据仓库中还应存储元数据其中记录了数据的结构和数据仓库的任何变化以支持数据仓库的开发和使

上一篇:在可以为空的外键中检查数据的有效性

下一篇:更改数据