数据库

位置:IT落伍者 >> 数据库 >> 浏览文章

数据抽取、清洗与转换及BI项目中ETL设计[2]


发布日期:2023年05月19日
 
数据抽取、清洗与转换及BI项目中ETL设计[2]

与存放DW的数据库系统相同的数据源处理方法

这一类数源在设计比较容易一般情况下DBMS(包括SQLServerOracle)都会提供数据库链接功能在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select 语句直接访问

与DW数据库系统不同的数据源的处理方法

这一类数据源一般情况下也可以通过ODBC的方式建立数据库链接如SQL Server和Oracle之间如果不能建立数据库链接可以有两种方式完成一种是通过工具将源数据导出成txt或者是xls文件然后再将这些源系统文件导入到ODS中另外一种方法通过程序接口来完成

对于文件类型数据源(txtxls)可以培训业务人员利用数据库工具将这些数据导入到指定的数据库然后从指定的数据库抽取或者可以借助工具实现如SQL SERVER 的SSIS服务的平面数据源和平面目标等组件导入ODS中去

增量更新问题

对于数据量大的系统必须考虑增量抽取一般情况业务系统会记录业务发生的时间可以用作增量的标志每次抽取之前首先判断ODS中记录最大的时间然后根据这个时间去业务系统取大于这个时间的所有记录利用业务系统的时间戳一般情况下业务系统没有或者部分有时间戳

数据的清洗转换

一般情况下数据仓库分为ODSDW两部分通常的做法是从业务系统到ODS做清洗将髒数据和不完整数据过滤掉再从ODS到DW的过程中转换进行一些业务规则的计算和聚合

[] [] [] []

               

上一篇:数据抽取、清洗与转换及BI项目中ETL设计[3]

下一篇:数据抽取、清洗与转换及BI项目中ETL设计[1]