数据清洗
数据清洗的任务是过滤那些不符合要求的数据将过滤的结果交给业务主管部门确认是否过滤掉还是由业务单位修正之后再进行抽取不符合要求的数据主要是有不完整的数据错误的数据和重复的数据三大类
A不完整的数据其特征是是一些应该有的信息缺失如供应商的名称分公司的名称客户的区域信息缺失业务系统中主表与明细表不能匹配等需要将这一类数据过滤出来按缺失的内容分别写入不同Excel文件向客户提交要求在规定的时间内补全补全后才写入数据仓库
B错误的数据产生原因是业务系统不够健全在接收输入后没有进行判断直接写入后台数据库造成的比如数值数据输成全角数字字符字符串数据后面有一个回车日期格式不正确日期越界等这一类数据也要分类对于类似于全角字符数据前后有不面见字符的问题只能写SQL的方式找出来然后要求客户在业务系统修正之后抽取;日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败这一类错误需要去业务系统数据库用SQL的方式挑出来交给业务主管部门要求限期修正修正之后再抽取
C重复的数据特别是维表中比较常见将重复的数据的记录所有字段导出来让客户确认并整理
数据清洗是一个反复的过程不可能在几天内完成只有不断的发现问题解决问题对于是否过滤是否修正一般要求客户确认;对于过滤掉的数据写入Excel文件或者将过滤数据写入数据表在ETL开发的初期可以每天向业务单位发送过滤数据的邮件促使他们尽快的修正错误同时也可以作为将来验证数据的依据数据清洗需要注意的是不要将有用的数据过滤掉了对于每个过滤规则认真进行验证并要用户确认才行
[] [] [] []