数据库

位置:IT落伍者 >> 数据库 >> 浏览文章

深入探讨数据仓库建模与ETL的实践技巧[4]


发布日期:2024年02月10日
 
深入探讨数据仓库建模与ETL的实践技巧[4]

缓慢变化维度第三种类型

新增数据维度成员改变了属性例如某一维度成员新加入了一列该列在历史数据中不能基于它浏览而在目前数据和将来数据中可以按照它浏览那么此时我们需要改变维度表属性即加入新的字段列那么我们将使用存储过程或程序生成新的维度属性在后续的数据中将基于新的属性进行查看

(五)创建事实表

在确定好事实数据和维度后我们将考虑加载事实表

在公司的大量数据堆积如山时我们想看看里面究竟是什么结果发现里面是一笔笔生产记录一笔笔交易记录… 那么这些记录是我们将要建立的事实表的原始数据即关于某一主题的事实记录表

我们的做法是将原始表与维度表进行关联生成事实表(图六picbmp)注意在关联时有为空的数据时(数据源髒)需要使用外连接连接后我们将各维度的代理键取出放于事实表中事实表除了各维度代理键外还有各量度数据这将来自原始表事实表中将存在维度代理键和各量度而不应该存在描述性信息即符合瘦高原则即要求事实表数据条数尽量多(粒度最小)而描述性信息尽量少

如果考虑到扩展可以将事实表加一唯一标识列以为了以后扩展将该事实作为雪花型维度不过不需要时一般建议不用这样做

事实数据表是数据仓库的核心需要精心维护在JOIN后将得到事实数据表一般记录条数都比较大我们需要为其设置复合主键和索引以实现数据的完整性和基于数据仓库的查询性能优化事实数据表与维度表一起放于数据仓库中如果前端需要连接数据仓库进行查询我们还需要建立一些相关的中间汇总表或物化视图以方便查询

什么是ETL

在数据仓库的构建中ETL贯穿于项目始终它是整个数据仓库的生命线包括了数据清洗整合转换加载等各个过程如果说数据仓库是一座大厦那么ETL就是大厦的根基ETL抽取整合数据的好坏直接影响到最终的结果展现所以ETL在整个数据仓库项目中起着十分关键的作用必须摆到十分重要的位置

[] [] [] [] [] []

               

上一篇:深入探讨数据仓库建模与ETL的实践技巧[5]

下一篇:深入探讨数据仓库建模与ETL的实践技巧[3]