大数据正在彻底改变IT世界
那么
什么样的数据谈得上数据呢?
根据IDC的报告未来十年全球大数据将增加倍仅在年我们就将看到ZB(也就是万亿GB)的大数据创建产生这相当于每位美国人每分钟写条Tweet而且还是不停地写万年在未来十年管理数据仓库的服务器的数量将增加倍以便迎合倍的大数据增长
毫无疑问大数据将挑战企业的存储架构及数据中心基础设施等也会引发云计算数据仓库数据挖掘商业智能等应用的连锁反应年企业会将更多的多TB(TB=GB)数据集用于商务智能和商务分析;到年全球数据使用量预计暴增倍达到ZB(ZB=亿TB)
大数据面临的挑战——RISC已无法满足未来的企业架构需求
对于海量的数据信息如何对这些数据进行复杂的应用成了现今数据仓库商业智能和数据分析技术的研究热点数据挖掘就是从大量的数据中发现隐含的规律性的内容解决数据的应用质量问题充分利用有用的数据废弃虚伪无用的数据是数据挖掘技术的最重要的应用传统的数据库中的数据结构性很强即其中的数据为完全结构化的数据而目前数据最大特点就是半结构化因此此类数据挖掘比面向单个数据仓库的数据挖掘要复杂得多
谈到传统数据仓库的时候大家不免就会买存储设备选服务器不管是IBM Power或者是Oracle架构的这些其实都是在传统时代非常有名的数据库品牌把它构建在一起构成数据仓库微软COCNOS等都提供解决方案
但从目前来看现有的数据仓库已经远远不能满足未来的企业大数据架构
对企业业务来说不光要有高扩展性而且是动态的需求能够让设备自由扩充不用去管数据仓库应用具体运行在这些机器的哪一台上这些计算能力的耗费完全是根据业务的伸缩而来的
传统的架构做这类的项目十年到二十年的时间它们有一个特点数据仓库的访问和传统的不同所谓的不同就是查询特别大查询的语句特别长特别复杂不像去银行的存提款只是在众多的记录中查询一两条它符合大数据查询的特征传统的查询索引作用非常有限在数据库中涉及多张表的连接同时还有汇总算标准差等复杂的运算但是相反它的并发请求不是很多一个企业就是人再多不会同时超过一千个业务分析员在分析数据
因此在数据仓库诞生的第一天系统一直就有一个瓶颈要把大查询分解成小任务这些小任务由并行的服务器来完成我们强调小的机器要多而不要大的机器CPU数少因此数据仓库天生就是MPP开放架构的CPU加上并行扩展横向扩展数量从这方面来看扩展性较差并行处理能力有限的RISC架构已经不能代表未来的企业架构
而以英特尔为代表的X处理器天生就是为大数据应用而生Oracle推出的Exadata数据仓库服务器采用了英特尔至强(Nehalem)处理器DDR内存和Gbps InfiniBandExadata数据库机第二版的CPU内存和网络速度分别提高了%%%单个数据库服务器内存容量则达到了GB原始磁盘容量和每机架磁盘容量达到TBTBSun FlashFire内存卡则实现了高性能的OLTP
当大数据遭遇云计算
云计算为什么能盛行呢?在互联网领域应用系统的构建客户群体是不确定的系统规模不确定系统投资不固定业务应用有很清晰的并行分割特征数据仓库系统的构建数据仓库规模可估算数据仓库的系统投资与业务分析的价值和回报相关商业智能应用属于整体应用Saas模式构建数据仓库系统
在大数据技术上用云计算构建下一代数据仓库成为热门话题这当中包括大数据管理分布式进行文件系统如HadoopMapreduce数据分割与访问执行;同时SQL支持以Hive HADOOP为代表的SQL界面支持从系统需求来看大数据的架构对系统提出了新的挑战
集成度更高这意味着一个标准机箱最大限度完成特定任务华硕不久推出的一款高密度机架式服务器RSU高度最大能采用支持个双路计算节点实现单机个英特尔系列处理器和高达总计G内存资源
配置更合理速度更快存储控制器I/O通道内存CPU网络均衡设计针对数据仓库访问最优设计比传统类似平台高出一个数量级以上这方面的经典案例是数据仓库头号厂商Teradata其采用双路Xeon六核处理器的企业级数据仓库可轻松为数千名用户处理更复杂更大量的工作负载持续负载以及批负载操作性查询简单报表和复杂的分析所有功能均在同一个平台上运行与上一代产品相比动态企业级数据仓库的性能提高了%占地面积保持不变减少了能源消耗和空间需求
整体能耗更低同等计算任务能耗最低
系统更加稳定可靠能够消除各种单点故障环节统一一个部件器件的品质和标准
管理维护费用低数据藏的常规管理全部集成
可规划和预见的系统扩容升级路线图
云计算环境作为大数据处理平台
云计算环境中基本计算单元的分化
企业云计算平台上虽然有多个并行计算的CPU但并没有创造出具有超强数据处理能力的超级CPU因此云计算平台需要的是有并行运算能力的软件系统同时当所有用户的数据全部放在云端时虽然存储容量可以很方便地扩充但面对大量用户同时发起的海量数据处理请求简单的数据处理逻辑已经无法满足需要
可以看到国内有相当多的电商企业用小型机和Oracle扛了好几年并请了全国最牛的Oracle的专家不停优化他的Oracle和小型机初期发展可能很快但是后来由于数据量激增业务开始受到严重影响最典型的例子无疑是京东商城前段时间发生的大规模访问请求宕机事件因此他们开始逐渐放弃了Oracle或者MSSQL并逐渐转向MySQL X的分布式架构
目前的基本计算单元常常是普通的X服务器它们组成了一个大的云而未来的云计算单元里有可能有存储单元计算单元协调单元总体的效率会更高
对系统稳定性的需求
在应对大规模访问的时候有一些系统稳定性的追求来自很多方面来自网络稳定性数据库稳定性对系统而言需要把握一个大原则需要消除任何单点故障不光是网络上单点故障还有来自你呼叫中心里的单点故障只要有单点故障一定要消除掉因为对于电商行业而言每一秒都是钱电子商务业务如果宕机一个小时损失多少是可以算出来的电商行业需要非常全面的技术系统监控报警系统有时候你会发现你如果通过技术系统的监控去推导出你的技术发生问题已经晚了