十使用文本格式进行处理
对一般的数据处理可以使用数据库如果对复杂的数据处理必须借助程序那么在程序操作数据库和程序操作文本之间选择是一定要选择程序操作文本的原因为程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等例如一般的海量的网络日志都是文本格式或者csv格式(文本格式)对它进行处理牵扯到数据清洗是要利用程序进行处理的而不建议导入数据库再做清洗
十一定制强大的清洗规则和出错处理机制
海量数据中存在着不一致性极有可能出现某处的瑕疵例如同样的数据中的时间字段有的可能为非标准的时间出现的原因可能为应用程序的错误系统的错误等这是在进行数据处理时必须制定强大的数据清洗规则和出错处理机制
十二建立视图或者物化视图
视图中的数据来源于基表对海量数据的处理可以将数据按一定的规则分散到各个基表中查询或处理过程中可以基于视图进行这样分散了磁盘I/O正如根绳子吊着一根柱子和一根吊着一根柱子的区别
十三避免使用位机子(极端情况)
目前的计算机很多都是位的那么编写的程序对内存的需要便受限制而很多的海量数据处理是必须大量消耗内存的这便要求更好性能的机子其中对位数的限制也十分重要
十四考虑操作系统问题
海量数据处理过程中除了对数据库处理程序等要求比较高以外对操作系统的要求也放到了重要的位置一般是必须使用服务器的而且对系统的安全性和稳定性等要求也比较高尤其对操作系统自身的缓存机制临时空间的处理等问题都需要综合考虑
[] [] [] [] []