摘要利用网格计算集群系统XML等技术对分散的Web信息资源按地区按专业内容从逻辑上进行了有效的组织和管理设计了一个基于网格的面向专业内容的Web信息检索体系结构为用户高效地获取面向专业内容的信息资源提供了一种方法 关键词网格计算集群系统XMLAgentWeb 引言 近年来互联网得到了迅速的发展网上信息资源愈来愈庞大且信息具有量大分散异构等特性因此传统的Web信息检索工具开始暴露出它性能低下的一面具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录根本无法从中再细找或者找到的内容和要找的内容不是一个专业领域的造成信息无效的现象但随着人们信息意识的增强对信息内容及信息服务的需求也在不断的演变和发展对获取信息的专业化实效性等方面有了新的要求如何针对专业领域中特定的用户群为他们提供专业的度身量造的信息服务使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题本文利用网格计算集群系统XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构它能将地理位置分散的异构的信息按地区按专业内容从逻辑上进行合理的组织和管理为用户快速有效地获取自己所需要的信息提供了一种方法 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术其目的是将网上各种资源组织在一个统一的大框架下为解决大型复杂计算数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台实现互联网上所有资源的全面连通实现信息资源的全面共享 为解决不同领域复杂科学计算与海量信息服务问题人们以网络互连为基础构造了不同的网格他们在体系结构要解决的问题类型等方面各不相同但网格计算至少需要具有三种基本功能资源管理任务管理任务调度本文设计的信息检索体系结构围绕网格计算的基本功能及信息检索的特点主要有以下三个层次组成见图 ()网格结点结点是网格计算资源的提供者本系统主要是由一系列的集群系统组成它们在地理位置上是分布的构成了一个分布检索群体作为信息共享的基础结构平台集群系统负责整个集群范围内的信息管理维护和查询 ()网格计算中间件中间件是信息资源管理和用户任务调度任务管理的工具它是整个网格信息资源管理的核心部分它根据用户的信息请求任务在整个网格内负责信息资源的匹配定位实现用户任务到集群系统的映射 ()网格用户层主要为用户应用提供接口支持用户对所需要的信息资源进行描述创建提交等 本系统的主要思想是在逻辑上将地理位置分散的异构的信息划分组建成多个集群系统集群系统对集群内的资源进行管理和任务调度再利用网格中间件对各集群系统进行管理从而形成对整个网格资源的管理并对用户的信息需求进行统一的管理和调度这种管理模型既可以尊重各个集群系统的本地信息管理策略又可利用中间件在全局意义上对网格信息资源进行管理 集群系统的设计 由于Web信息资源数量十分庞大用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题往往造成在消耗巨大的通信资源后依然存在资源查不准查不全的问题目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体并使其从客户端看来就如同一台服务器在服务这使得在逻辑上合并组织地理位置分布的信息资源成为可能因此本文首先考虑采用分布协作策略将Web信息资源按地区按专业内容分割一方面使信息资源数量相对缩小便于数据的组织管理和维护另一方面按专业内容易于制定一个公用的XML规范便于集群内各类信息资源的描述从而可建立一个基于XML的面向专业内容的信息集成系统集群系统的具体结构见图 集群服务器主要由接口Agent基于专业内容的XML信息集成系统资源服务Agent资源发布Agent等组成其中接口Agent根据任务提供的接口参数登记接收管理各种信息资源请求任务并提供安全认证和授权资源服务Agent根据信息资源请求任务利用XML信息集成系统提供的数据为用户提供实际的资源检索操作并将检索结果信息发送给用户资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数 下面主要说明基于专业内容的XML信息集成系统的构造方法 XML(theeXtensibleMarkupLanguage)是WC于年宣布作为Internet上数据表示和数据交换的新标准它是一种可以对信息进行自我描述的语言它允许开发人员通过创建格式文件DTD(DocumentTypeDefinitions)定制标记来描述自己的数据DTD规范是一个用来定义XML文件的语法句法和数据结构的标准XML使用普通文本因此具有跨平台的优点XML的优点在于 ()简单规范性XML文档基于文本标签有一套严谨而简洁的语法结构便于计算机用户理解 ()可扩展性用户可以自定义具有特定意义的标签自定义的标签可以在任何组织客户应用之间共享 ()自描述性自描述性使其非常适用不同应用间的数据交换而且这种交换是不以预先定义一组数据结构为前提因此具有很强的开放性 ()互操作性XML可以把所有信息都存于文档中传输而远程的应用程序又可以从中提取需要的信息XML数据是不依赖于某个特定的平台的应用因此它为基于特定专业内容的表达提供了一种极好的手段可以作为表示专业内容的语言 目前人们研制Web信息集成系统其基本方法可分成两类存入仓库法(thewarehousingapproach)和虚拟法(thevirtualapproach)可使用这两类方法利用XML在数据组织和交换方面的优越性采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射建立基于XML的Web信息集成系统其结构与获取信息的工作过程参见文献[] 网格中间件的设计 图所示的网格中间件的主要功能是 ()消除不同用户与集群系统之间数据表达的差异使信息资源数据对用户来说是透明的 ()管理维护Web上分布的各集群系统网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息对关系数据库的操作可维护集群系统的分布式逻辑使本结构在可变性和扩充性上具有柔性 ()接受用户的信息请求任务能快速定位于满足要求的集群系统通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系 内部主要功能模块说明如下 ()接收Agent模块主要用于登记接收管理各种信息资源请求任务并提供安全认证和授权 ()关系数据库及数据服务Agent关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加删除检索和修改等操作 ()格式转换Agent模块提供用户信息资源请求文档与各集群系统中文档的格式转换功能由于XML是自定义的各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上因此经过格式转换可使信息资源的格式对用户是透明的 ()XML文档分析Agent模块提取格式转换后的XML文档中各个标签通过查询网格中间件中的关系数据库实现用户信息请求任务与集群系统的对应关系并得到满足条件的集群系统的相关信息获取各集群系统的接口参数 ()发送Agent模块将转换过的信息资源请求XML文档发送到相应的集群系统中 其中Agent技术是解决分布式智能应用问题的关键技术Agent是指能够自主地连续地在一动态变化的存在于其它系统中运行的且不断于环境交互的实体在系统中引入Agent可使系统具有人的特征代表用户完成用户的任务并能动态适应环境的变化更好地满足用户的需求提高信息检索的能力 工作过程 要使本体系结构具有高协作性和互操作性用户网格中间件集群系统以及其它Agent等实体之间的通信是整个系统运转的关键由于XML为基于特定专业内容的表达提供了一种极好的手段XML是一种元语言其严格的定义和规则集使人和机器都能更容易的阅读文档因此本文将XML集成到各部分的通信语言中在用户发出的信息检索请求文档网格中间件集群系统之间的通信均利用XML定义这样做增强了通信的语义信息和灵活性并可以在多种平台使用并且基于XML的通信语言其通信内容的表达比其它方法更容易开发语法分析器 具体的工作过程如下 ()请求定位过程由网格用户层向网格中间件发送用户的信息检索请求文档描述网格接口参数信息请求内容等在接受Agent进行身份确认及权限确认后经文档格式转换Agent模块文档分析Agent模块发送Agent模块处理后定位于某些特定的集群系统服务器 ()应答处理过程集群系统服务器经验证调用资源服务Agent对信息集成系统进行查询后将查询结果信息传输给用户 结语 本文利用网格计算集群系统XML在数据组织交换共享方面的优势对大量分散异构的面向专业内容的信息资源提供了一种有效组织和管理方法并通过网格中间件实现了信息资源的数据格式转换与快速定位提高了信息检索的效果本文仅提出了一个体系结构设计对更为复杂的实际问题的适用性还有待进一步的完善和改进 |