十五使用数据仓库和多维数据库存储
数据量加大是一定要考虑OLAP的传统的报表可能个小时出来结果而基于Cube的查询可能只需要几分钟因此处理海量数据的利器是OLAP多维分析即建立数据仓库建立多维数据集基于多维数据集进行报表展现和数据挖掘等
十六使用采样数据进行数据挖掘
基于海量数据的数据挖掘正在逐步兴起面对着超海量的数据一般的挖掘软件或算法往往采用数据抽样的方式进行处理这样的误差不会很高大大提高了处理效率和处理的成功率一般采样时要注意数据的完整性和防止过大的偏差笔者曾经对亿千万行的表数据进行采样抽取出万行经测试软件测试处理的误差为千分之五客户可以接受
还有一些方法需要在不同的情况和场合下运用例如使用代理键等操作这样的好处是加快了聚合时间因为对数值型的聚合比对字符型的聚合快得多类似的情况需要针对不同的需求进行处理
海量数据是发展趋势对数据分析和挖掘也越来越重要从海量数据中提取有用信息重要而紧迫这便要求处理要准确精度要高而且处理时间要短得到有价值信息要快所以对海量数据的研究很有前途也很值得进行广泛深入的研究
[] [] [] [] []