一直觉得数据仓库很遥远毕竟它对资源的要求很高经济统计计算机等综合能力
数据仓库是面向决策支持的应用用于提供一个统一的视角在过去对于不同的部门来说对每个客户的认识是片面的也许客户部门会认为一个总投诉的客户肯定不是一个好客户但对于财务部门来说该客户为公司创造了利润是个好客户对于市场部门来说他还想交叉销售一些其他服务但实际上每个员工都只是了解他们的客户的一部门数据仓库就是要把这些来自不同应用不同系统的数据整理组织到一起集中处理形成一个全企业的single view
应该看到的是大量数据是数据仓库的基础没有大量的历史和当前数据那么数据仓库就是空谈但数据仓库不是一个data storage不是简单地把各个业务系统的数据装进去而是需要很好的重新组织形成一个良好的data model任何一个成功的数据仓库项目都要求对行业要有深刻的认识才可能帮助客户提炼需求整理业务规划战略目前国内具备数据仓库实施能力的非常少原因就是没有足够的行业顾问咨询能力通常数据仓库的数据要求完整一致相关性原子化(不可分割)因此进入数据仓库的数据都要进行ETL
数据仓库不是一个产品而是一个不断完善的过程对于没有真正接触过的数据仓库的大多数企业他们很难理解这个毕竟这与以往的系统有着太大的区别简单说来数据仓库的建设是一个螺旋式上升的过程曾经有位国外的数据仓库专家认为数据仓库的实施应该是阶段性实施把一个个大目标分割成数个小步骤迅速地实现一个一个小目标让客户尽快的体会实施带来的好处这将大大推动客户的需求和主动性曾经有人说数据仓库很容易就做成一个报表系统其实数据仓库的实施有多个阶段最初实现报表功能接着是分析功能再次是预测功能我觉得数据仓库可以是一个不错的报表系统尤其是跨部门跨业务的报表这是相当具有吸引力的而且对于初次使用数据仓库的客户这是最为直接的成果但应该注意到数据仓库应该不断向前发展实现DSS的功能这是数据仓库实施厂商和客户互动的结果不能指望客户与你站在一个高度
数据仓库在国内刚起步实施起来可参考可借鑒的只有国外的案例这在一定程度上不利于数据仓库的但谁在其中推动了市场的发展谁就赢得了巨大的中国市场国内可以做数据仓库的只有很少几个行业主要是生产系统不完备历史数据有限但就是这些行业也是一个很大的市场
数据集市是数据仓库面向主题的商业视图它包含比数据仓库少得多的数据量通常数据仓库是面向全企业的而数据集市则是面向部门级的数据集市是放在dw中还是单独拿出来这要从多个角度考虑费用性能用户量并发访问量如果有必要则可以把数据集市单独拿出来定期从数据仓库中refresh
再说一下olap的问题其实对于一些predined的业务问题可以利用cube解决首先是速度快不必从dw/dm中重新组织数据另外安全数量众多的ad hoc很容易把dw/dm拖垮而对于一些临时的动态的查询可以根据需要从数据集市/数据仓库中执行但这要求it部门的参与并且通常有严格的访问控制