你也许无法相信未来数据管理产品的功能因此让我们从目前数据库的一些新特性着手
一位年轻人因患某种相对罕见的流感而到医院就诊这是检查医师本周遇到的第三个相似的病例他需要更多的信息困惑不解的医师取了血样并安排了其他一些程序然后他坐在计算机前面(通过一个简单的图形用户界面)申请了一系列血样分析项目并将结果与世界各地具有相似症状的患者进行比较他还请求检索与该年轻人情况相似的患者的诊断治疗和结果记录然后医师向疾病控制与预防中心(CDC)请求获得该病症发展的相关信息几分钟后医师就为其他患者找到了这种不寻常流感的治疗方法该流感近期在污染程度较为严重的一些城市流行
这种情景能在今日成为可能吗?有可能(假如我们已拥有正确的科学分析和仿真工具包)但要为此支付高级应用发展和系统配置所需的费用数据管理早已发生变革以使类似情景切实可行系统在更快集成度更高更易使用的同时增强功能可扩展性和分布性
本文中我将介绍数据管理行业今后几年酝酿的产品以及推进DB优先发展的动力
复杂因素
当今的公司正面临不断增加的数据管理工作的挑战越来越多的商务程序实现了自动化更多的历史记录和分析工作被捕获并保存下来新的规章制度正在改变商业模式简言之数据量在不断增加用于处理孤立程序的专用系统必须连接起来以生成报表例如兼并和收购迫使商务程序(风险分析)和数据(客户信息)进行集成不同的商业单位必须共享信息以获得新的收入增长点而公司也必须与商业伙伴供应商和客户交流信息全球商务意味着管理分布式数据库并提供全天候的可用性成本居高不下经济停滞竞争压力增加迫使企业提高运行效率这通常意味着员工数量减少同时管理的数据维护及访问任务的复杂性日益增加
当数据管理所带来的挑战日益增加时信息的重要性就被提升到前所未有的高度各种形式的信息——数据库电子数据表文档管理系统文本文件网页图表和图像——就成为企业共同的财富因此对数据库和其他各种来源的数据进行管理的需求以及为非IT专家的商业用户提供更便捷的方式访问这些数据的需求都在日益增加
更好的引擎
更多的数据需要存储更多的业务需要处理更多的分析需要完成而且没有喘息时间这些都期待着所有的数据管理要素继续改进
载入和检索速度研究具有更快的载入和检索速度的存储方法仍将打头阵快速数据访问研究包括新型索引(例如能够迅速适应新数据类型的通用索引结构)采用多维聚簇加速访问多维数据该技术已在 DB Universal Database (UDB) v中应用并将在后续的版本中继续使用IBM 不断研发不同的存储方案以增加数据聚簇速度并加强对大对象的控制能力
对大量数据的高效查询解决海量业务数据高效处理和复杂查询的工作也正在进行中例如IBM Almaden 研究中心开发了一种新方法它通过采样获得数据的随机子集并根据该样本估计或外推解答使系统能够更快地为复杂查询提供近似解答该技术已应用在DB UDB v 测试基础版中采样将以更快的速度获得更好的统计信息帮助优化和不同的设计顾问此外为提高带有大量子查询和复杂操作内容(例如和外部关联和反关联)的查询性能所做的相关改进工作也在进行中有望在某些类型的查询上取得重大飞跃
用以储存针对高频次查询的预先计算解答的具体化查询列表(MQT)可能被更广泛地采纳目前 MQT 已经可用并且正在扩展以储存更多的一般性查询解答例如DB v 能够储存关联结果即使查询中并无集合体查询引擎能够更好地自主决定何时使用 MQT 解答当前查询用于提示系统何时创建 MQT 可能奏效的工具已出现将来数据库系统能够自主创建 MQT并用于索引(如关联检索)和常用结果缓存中当用于连接远程数据时(v已采用)MQT 将发挥更大的作用
在大共享内存和非共享多处理器中你将获得更多的分割数据(分区)选择和处理查询的新算法
提高可用性业务压力要求适应更多环境的高可用性热备用系统瞬时切换已成为高端配置的标准并将更为普及总之用户可以从一系列的服务质量承诺中选择在性能可用性以及费用之间所需的权衡同时通过使用减少冗余硬件和备份信息研究和开发人员将使那些权衡更容易实现IBM 还在研究对存在的问题进行早期探测和自动更正
分布式商务模型
关于电子商务的需要已有很多着述如今越来越多的公司使用Web服务器应用JEENET 和 XML 的复杂混合体在网上从事商务活动在该环境内外获取数据通常需要通过诸如 JDBC 这样的接口实现数据访问并将结果转换为 XML然后将 XML 打包作为Web服务响应目前可以这种方式转移数据但这确实有些令人乏味将来数据库会被更加直接地植入Web使其成为Web应用基础架构的无缝元件
数据管理和Web服务数据库早已成为Web服务供应商通过Web服务接口应答请求不久它也将成为Web服务的消费者也就是说在查询过程中它能够调用Web服务以返回所需信息例如在一次单步查询中用户可以查找一个包含本地储存状况描述首选供应商(从不同的本地列表)可用性及价格信息的零件(通过Web服务发出向供应商的请求并返回当前信息)DB 早已显示出这种能力目前你不得不通过用户定义的函数在 SQL 语句中明确地调用Web服务照此发展你甚至可以将Web服务视为列表的别名从而能够透明地访问应用开发和部署工具将随技术而发展
XML支持数据及处理集成的基础即是对 XML 的稳定性支持包括支持 XML 作为基本的数据类型XML Extender 允许用户保存和检索 XML数据通过它DB能够支持 XML将来IBM 会在引擎中引入更多的这种支持以优化访问目前通过对SQL 语言(SQL/XML) 的标准化扩展可以将关系数据以 XML 文件的形式返回由此可将数据以电子商务业务中数据交换所需的类型返回所交换的文档可在 RDBMS 中安全储存
双语数据库尽管 XML 显然将成为电子商务数据交换的标准关系数据库并不会从此消失仅支持 XML 的数据库并不能代替无处不在的关系系统一部分原因是将全部数据进行转换所需的费用另一部分原因是比 XML 数据库更为成熟的关系技术的出现相反未来的数据库能够为 XML 提供全面的关系能力和真正的本地支持它们将在引擎中构建支持 XML 的存储管理和检索工具而且既可使用 XML 语言查询即XQuery 又可使用 SQL这种双语数据库可使用户按需要同时利用关系和 XML 的优势以实施其最佳应用IBM Xperanto 团队正在从事此项工作
分布式数据信息集成
你已经了解到 XML 和 Web 服务是如何帮助你处理复杂的分布式商务模型它们提供了一种分布式数据的集成方法在不同的应用或企业之间交换数据不过有时却需要更为精细的数据集成
如今的企业通常是高度分布的某个职能部门可能分散于好几个地点某大型制药公司可能在几个不同国家都有研究实验室实验室里的科学家们则需要共享实验和仿真信息IBM 的数据管理开发团队就分布在四个国家的七个地点并在世界各地其他一些地方也有相关的研究机构开发者需要在这些不同工作地点之间共享所需的技术规范代码状态和信息
独立的机构会选择不同的基础架构在某些盛行兼并和收购的行业里功能相同的部门却拥有完全不同的 IT 基础架构这并不少见业务运转通常仍需在这些不同的地区和系统间共享信息
信息集成有多种机制包括
基于应用的集成最常用的信息集成方法可能是通过使用专门的应用实现对感兴趣的资源的硬连接访问然后手动合并查询结果应用集成框架业务流程集成工作流程系统以及Web服务都为程序员提供高级提取服务使其能够方便地从额外的来源获取数据当然合并数据(即执行关联)仍需手动编程
集中化的数据仓库对于那些需要复杂分析的应用许多公司选择将需要的数据拉入(从数据来源处复制)单独的数据仓库(数据中心)这样做可以使SQL 全身心地投入到分析中并且也无需通过应用处理分散的数据
数据联合造就虚拟数据库并不是所有的数据都能进入数据仓库有时数据变化太快有时该数据不为本企业所有(如归其商业伙伴或某一信息服务机构所有)有时该数据的格式不对不能存贮到关系型数据库系统中或被其搜索到这时 DB 数据仓库和数据中心就可大显其道IBM 杰出的技术可将那些各自为政的异构型分布数据源联合起来数据联合让用户查询分布式数据时更为简便就好像这些数据存贮在单一数据库中同时应用也变得更简易并且拥有单一数据库的功能而无需复制与维护成本通过数据联合应用可将底层数据存放到查询中使这些功能不被再次执行(如果数据实际移动这些功能会执行)
数据联合在客户机应用与数据之间增加了一个部件——层这个特殊的层使得性能达到平衡在查询过程中数据存贮在不同点(没有合并)将可能产生网络延迟借超级优化功能之东风数据联合使得多种应用间的数据集成更为高效简捷
未来各种模型的融合信息集成很有可能成为大多数公司追逐的热点你也许可以看见不同的技术成熟并且融合某一特定集成问题的解决方案将涉及到数据仓库(用于可以存贮于关系型系统的关键数据)与数据联合(用于集成不适合数据仓库的数据)之间的集成丰富的元数据设施简化了从不同的数据源中映射清除数据同时简化了将数据关联在一起的过程