三概念模型
数据模型设计的第一步是对用户需求的归纳需要综合考虑业务划分和用户组织两方面的问题在明确需求的基础上可以进行逻辑数据模型的设计大致需要经过分为三个步骤高层模型设计即概念模型设计确定数据仓库的主要主题及相互关系中层模型设计明确各主题域的实体底层模型设计明确各个实体的属性本章以国内某财产保险公司的业务为例介绍财产保险行业的数据仓库建模
财产保险业务与公司组织机构
下图是国内财产保险公司的主要组织机构
国内财产保险经营的主要保险业务如下
; 机动车辆保险
; 家庭财产保险
; 企业财产保险
; 建筑安装工程保险
; 货物运输保险
; 船舶保险
; 航空航天保险
; 其它保险
数据仓库概念模型
目前保费收入还是国内财产保险企业的主要利润来源在激烈的市场竞争中客户是竞争的焦点在数据仓库中客户信息占有极为重要的地位围绕着客户资料信息客户的投保记录索赔记录都具有极高的分析价值另外合作伙伴对保险业务的开拓也具有重要地位如保险代理人经纪人等中介公司的相关信息
基础数据仓库
基础数据仓库用以存储详细的业务数据采取以客户信息为中心各个业务环节数据为基础的中心发散型结构系统面向经营分析以经营业务数据为主如下图所示
基础数据仓库概念模型介绍
—— 客户资料
负责存储用户的详细资料主要的客户属性包括客户ID用户第一次投保时间资料更新时间业务类型用户特征属性用户类型缴费情况投保情况信用情况保费收入水平等等客户资料主题的数据主要针对企业用户和大客户在可能的情况下尽量体现客户间的关系比如某一家庭财险用户隶属于某一企业客户客户资料数据体现最新的客户状态客户资料永久在线保存当客户资料发生变化时旧的客户信息被转移到客户历史资料库中在每一个客户的生命周期中客户资料随时可能发生变化客户历史资料数据详尽的记录每一次变化的细节为以后客户信用评估和用户行为分析需求提供依据客户历史资料永久在线保存
—— 客户投保记录
以详细的保单数据为主体现在某一时间段内客户的投保情况由于数据量比较庞大客户投保记录一般在数据仓库中在线保存两年最长不超过五年投保记录是业务分析最重要的数据基础必要的时候投保记录可以为很多业务提供数据支持比如大客户管理等
—— 客户缴费记录
记录用户投保后保费的缴纳情况从中可以了解保险公司与每一个客户在不同业务的应收情况是对业务发展的重要衡量依据也是对客户群进行细分的重要指标不同保险企业对缴费记录在线保存的时限要求不同一般在一年以上五年以下
—— 客户索赔记录
客户索赔记录是过去客户每次索赔的详细记录比如索赔金额时间保单号立案号险种索赔清单索赔单证事故描述等索赔记录是客户行为模式的重要组成也是反欺诈分析客户流失分析的重要依据
—— 客户赔付记录
记录保险公司对每一个客户的每一笔赔付主要的信息包括赔付时间立案号赔案号单证赔付计算情况损失原因赔付金额是否通融赔付通融赔付的原因和通融赔付金额等与索赔记录相结合可以了解保险公司对客户索赔的反应时间和处理速度
—— 客户退保/退费记录
了解用户退保和退费的情况每一笔退保/退费的原因时间保单号金额等等
—— 中介信息
描述中介公司的类型比如经纪人兼职代理人或专业代理人各中介公司的业务量保险公司之处的中介费用等等
基础数据仓库概念模型的实现
概念模型的意义在于体现用户的需求和基本的数据组织结构在实际的设计过程中可能需要根据实际的业务情况进行模型的拆分比如客户资料模型针对不同客户的情况拆分成企业客户个人客户集团个人客户投保记录模型根据不同的业务拆分成车险投保记录财产险投保记录运输险投保记录船舶险投保记录等
根据不同业务情况设计业务主题
数据集市
详细业务数据是数据仓库的基础但对于金融企业来说对业务发展宏观情况的把握是比详细的客户分析更为迫切的需求所以在初期任何金融行业数据仓库的应用都以对聚合数据的分析为主聚合数据存储在数据集市中数据集市的数据直接通过查询工具提供给最终用户所以数据集市的设计直接关系到数据仓库应用的成败现阶段我国大多数金融数据仓库系统正处于初始阶段其主要功能需求是了解各省分公司子公司和各项业务的发展和运营情况因此数据集市的设计是数据模型设计最重要的环节数据集市的数据结构可以按照数据粒度和数据所体现的业务范围划分
按照数据粒度划分
数据集市按照数据粒度的大小可以划分为三个部分轻度汇总中度汇总高度汇总汇总程度越高数据粒度越大数据在线保留时间越长所体现的业务事实越宏观如下图所示
按照数据粒度划分的数据集市结构
轻度汇总数据可以支持很多对客户个体的业务分析比如从基础数据仓库投保记录汇总生成每个用户一段时间的投保情况中度汇总数据在业务分析中经常被用到大多数情况用于对宏观客户群体的业务分析比如制定保费政策时可以通过中度汇总数据了解不同险种不同时间的发展和收益情况高度汇总数据用于了解保险公司业务整体的运营和发展情况在实际的设计中可以根据用户需求决定针对不同的业务采用不同的数据粒度
按照业务划分
按照业务进行数据集市结构的划分可以把数据集市从总体上分为两个模块综合业务分析模块和独立业务分析模块如下图
按照业务划分的数据集市结构
—— 综合业务分析
综合业务分析主要面向保险公司整体业务的分析从综合业务分析可以了解保险公司的用户构成情况中介发展情况业务收入情况赔付情况共保/分保客户服务保费收入情况和竞争对手发展情况从综合业务模块可以了解各个业务的总体发展情况但由于各个业务属性的差异详细的业务分析必须进入独立业务分析模块
—— 独立业务分析
财产保险各业务各险种的业务特点具有极大差异对不同险种业务人员所关心的信息也不尽相同所以各个业务在独立业务分析模块构成不同的分析主题除此之外对有共性的业务进行综合构成综合的业务分析主题比如个人大客户分析企业客户业务分析就是把相关的业务主题进行综合的结果
四发展与扩充
数据仓库数据模型的设计在满足目前业务需求的基础上必须考虑未来的业务情况和需求需要认真考虑两方面的问题
; 适应未来业务需求和技术环境的改变
; 数据仓库本身涉及业务范围的扩展
适应未来的变化
分段式数据仓库结构可以大大提升数据仓库适应变化的能力在未来可能对数据仓库产生影响的变化无外乎两种
; 业务需求的变化引致对信息需求的变化
; 技术环境的变化
适应业务需求的变化
用户需求的变化根据变化的程度和对数据仓库系统的影响被分为两个不同的层次
—— 可自适应的变化
即信息的需求虽然有所变化但利用已经存储在数据集市中的数据仍然可以支持需要改变的只是数据访问和信息展现的方式这不需要对数据仓库的数据结构进行修改就可以实现在进行数据模型设计时在保证查询效率的前提下要尽量使各个业务主题可以满足最多的信息需求
—— 需要调整的变化
即数据集市的数据虽然无法满足信息的需求但可以从基础数据仓库中的数据获得针对这样的变化有两种处理方法
; 如果这个变化只是偶尔出现可以直接从基础数据仓库的数据中进行数据的查询和分析这样可能会牺牲一些性能但不需对数据仓库的结构和数据模型进行修改
; 另一种方法是针对以后将频繁使用的新业务需求可以采取修改现行数据集市和建立新的数据集市的方法实现由于数据集市只是对基础数据仓库中相关的详细数据进行聚合所以只需要很小的工作量就可以调整数据仓库实现新的需求
适应技术环境的变化
技术环境的变化也是比较普遍出现的变化比如业务系统的升级或迁移可能对数据仓库的结构造成较大影响分段存储区和基础数据仓库的使用把这种风险降到最小
分段存储区是业务数据进入数据仓库之前的缓存区复杂的数据转换清洗工作在分段存储区进入基础数据仓库时实现当业务系统的数据结构发生变化时可以利用从业务系统到分段存储区的数据抽取操作把这些变化与数据清洗转换操作隔离即在对新的业务系统进行数据抽取操作时进行适当的数据结构转换使分段存储区中的数据与原来保持一致避免对数据仓库的数据结构和主要的后台处理程序造成影响从业务系统到分段存储区的数据抽取程序只需十分简单的修改就可以实现需要的功能
元数据管理的意义
元数据管理系统可以大大提高数据仓库系统适应变化的能力元数据记录数据仓库过程中设计的业务规则数据结构数据移动规则等一旦上述某一点发生变化可以通过元数据管理工具进行影响分析定位需要修改的目