在实际的工作环境下许多人会遇到海量数据这个复杂而艰巨的问题它的主要难点有以下几个方面
一数据量过大数据中什么情况都可能存在
如果说有条数据那么大不了每条去逐一检查人为处理如果有上百条数据也可以考虑如果数据上到千万级别甚至过亿那不是手工能解决的了必须通过工具或者程序进行处理尤其海量的数据中什么情况都可能存在例如数据中某处格式出了问题尤其在程序处理时前面还能正常处理突然到了某个地方问题出现了程序终止了
二软硬件要求高系统资源占用率高
对海量的数据进行处理除了好的方法最重要的就是合理使用工具合理分配系统资源一般情况如果处理的数据过TB级小型机是要考虑的普通的机子如果有好的方法可以考虑不过也必须加大CPU和内存就象面对着千军万马光有勇气没有一兵一卒是很难取胜的
三要求很高的处理方法和技巧
这也是本文的写作目的所在好的处理方法是一位工程师长期工作经验的积累也是个人的经验的总结没有通用的处理方法但有通用的原理和规则
下面我们来详细介绍一下处理海量数据的经验和技巧
一选用优秀的数据库工具
现在的数据库工具厂家比较多对海量数据的处理对所使用的数据库工具要求比较高一般使用Oracle或者DB微软公司最近发布的SQL Server 性能也不错另外在BI领域数据库数据仓库多维数据库数据挖掘等相关工具也要进行选择象好的ETL工具和好的OLAP工具都十分必要例如InformaticEassbase等笔者在实际数据分析项目中对每天万条的日志数据进行处理使用SQL Server 需要花费小时而使用SQL Server 则只需要花费小时
[] [] [] [] []