面向Web的数据挖掘
Web上有海量的数据信息怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点数据挖掘就是从大量的数据中发现隐含的规律性的内容解决数据的应用质量问题充分利用有用的数据废弃虚伪无用的数据是数据挖掘技术的最重要的应用相对于Web的数据而言传统的数据库中的数据结构性很强即其中的数据为完全结构化的数据而Web上的数据最大特点就是半结构化所谓半结构化是相对于完全结构化的传统数据库的数据而言显然面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多
异构数据库环境
从数据库研究的角度出发Web网站上的信息也可以看作一个数据库一个更大更复杂的数据库Web上的每一个站点就是一个数据源每个数据源都是异构的因而每一站点之间的信息和组织都不一样这就构成了一个巨大的异构数据库环境如果想要利用这些数据进行数据挖掘首先必须要研究站点之间异构数据的集成问题只有将这些站点的数据都集成起来提供给用户一个统一的视图才有可能从巨大的数据资源中获取所需的东西其次还要解决Web上的数据查询问题因为如果所需的数据不能很有效地得到对这些数据进行分析集成处理就无从谈起
半结构化的数据结构
Web上的数据与传统的数据库中的数据不同传统的数据库都有一定的数据模型可以根据模型来具体描述特定的数据而Web上的数据非常复杂没有特定的模型描述每一站点的数据都各自独立设计并且数据本身具有自述性和动态可变性因而Web上的数据具有一定的结构性但因自述层次的存在从而是一种非完全结构化的数据这也被称之为半结构化数据半结构化是Web上数据的最大特点
解决半结构化的数据源问题
Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题解决Web上的异构数据的集成与查询问题就必须要有一个模型来清晰地描述Web上的数据针对Web上的数据半结构化的特点寻找一个半结构化的数据模型是解决问题的关键所在除了要定义一个半结构化数据模型外还需要一种半结构化模型抽取技术即自动地从现有数据中抽取半结构化模型的技术面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提
XML与Web数据挖掘技术
以XML为基础的新一代WWW环境是直接面对Web数据的不仅可以很好地兼容原有的Web应用而且可以更好地实现Web中的信息共享与交换XML可看作一种半结构化的数据模型可以很容易地将XML的文档描述与关系数据库中的属性一对应起来实施精确地查询与模型抽取
XML的产生与发展
XML(eXtensibleMarkupLanguage)是由万维网协会(WC)设计特别为Web应用服务的SGML(StandardGeneralMarkupLanguage)的一个重要分支总的来说XML是一种中介标示语言(MetamarkupLanguage)可提供描述结构化资料的格式详细来说XML是一种类似于HTML被设计用来描述数据的语言XML提供了一种独立的运行程序的方法来共享数据它是用来自动描述信息的一种新的标准语言它能使计算机通信把Internet的功能由信息传递扩大到人类其他多种多样的活动中去XML由若干规则组成这些规则可用于创建标记语言并能用一种被称作分析程序的简明程序处理所有新创建的标记语言正如HTML为第一个计算机用户阅读Internet文档提供一种显示方式一样XML也创建了一种任何人都能读出和写入的世界语XML解决了HTML不能解决的两个Web问题即Internet发展速度快而接入速度慢的问题以及可利用的信息多但难以找到自己需要的那部分信息的问题XML能增加结构和语义信息可使计算机和服务器即时处理多种形式的信息因此运用XML的扩展功能不仅能从Web服务器下载大量的信息还能大大减少网络业务量
XML中的标志(TAG)是没有预先定义的使用者必须要自定义需要的标志XML是能够进行自解释(SelfDescribing)的语言XML使用DTD(DocumentTypeDefinition文档类型定义)来显示这些数据XSL(eXtensibleStyleSheetLanguage)是一种来描述这些文档如何显示的机制它是XML的样式表描述语言XSL的历史比HTML用的CSS(层叠式样式表CascadingStyleSheets)还要悠久XSL包括两部分一个用来转换XML文档的方法一个用来格式化XML文档的方法XLL(eXtensibleLinkLanguage)是XML连接语言它提供XML中的连接与HTML中的类似但功能更强大使用XLL可以多方向连接且连接可以存在于对象层级而不仅仅是页面层级由于XML能够标记更多的信息所以它就能使用户很轻松地找到他们需要的信息利用XMLWeb设计人员不仅能创建文字和图形而且还能构建文档类型定义的多层次相互依存的系统数据树元数据超链接结构和样式表
XML的主要特点
正是XML的特点决定了其卓越的性能表现XML作为一种标记语言有许多特点
()简单XML经过精心设计整个规范简单明了它由若干规则组成这些规则可用于创建标记语言并能用一种常常称作分析程序的简明程序处理所有新创建的标记语言XML能创建一种任何人都能读出和写入的世界语这种创建世界语的功能叫做统一性功能如XML创建的标记总是成对出现以及依靠称作统一代码的新的编码标准
()开放XML是SGML在市场上有许多成熟的软件可用来帮助编写管理等开放式标准XML的基础是经过验证的标准技术并针对网络做最佳化众多业界顶尖公司与WC的工作群组并肩合作协助确保交互作业性支持各式系统和浏览器上的开发人员作者和使用者以及改进XML标准XML解释器可以使用编程的方法来载入一个XML的文档当这个文档被载入以后用户就可以通过XML文件对象模型来获取和操纵整个文档的信息加快了网络运行速度
()高效且可扩充支持复用文档片断使用者可以发明和使用自己的标签也可与他人共享可延伸性大在XML中可以定义无限量的一组标注XML提供了一个标示结构化资料的架构一个XML组件可以宣告与其相关的资料为零售价营业税书名数量或其它任何数据元素随着世界范围内的许多机构逐渐采用XML标准将会有更多的相关功能出现一旦锁定资料便可以使用任何方式透过电缆线传递并在浏览器中呈现或者转交到其他应用程序做进一步的处理XML提供了一个独立的运用程序的方法来共享数据使用DTD不同的组中的人就能够使用共同的DTD来交换数据你的应用程序可以使用这个标准的DTD来验证你接受到的数据是否有效你也可以使用一个DTD来验证你自己的数据
()国际化标准国际化且支持世界上大多数文字这源于依靠它的统一代码的新的编码标准这种编码标准支持世界上所有以主要语言编写的混合文本在HTML中就大多数字处理而言一个文档一般是用一种特殊语言写成的不管是英语还是日语或阿拉伯语如果用户的软件不能阅读特殊语言的字符那么他就不能使用该文档但是能阅读XML语言的软件就能顺利处理这些不同语言字符的任意组合因此XML不仅能在不同的计算机系统之间交换信息而且能跨国界和超越不同文化疆界交换信息
XML在Web数据挖掘中的应用
XML已经成为正式的规范开发人员能够用XML的格式标记和交换数据XML在三层架构上为数据处理提供了很好的方法使用可升级的三层模型XML可以从存在的数据中产生出来使用XML结构化的数据可以从商业规范和表现形式中分离出来数据的集成发送处理和显示是下面过程中的每一个步骤:
促进XML应用的是那些用标准的HTML无法完成的Web应用这些应用从大的方面讲可以被分成以下四类需要Web客户端在两个或更多异质数据库之间进行通信的应用试图将大部分处理负载从Web服务器转到Web客户端的应用需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用需要智能Web代理根据个人用户的需要裁减信息内容的应用显而易见这些应用和Web的数据挖掘技术有着重要的联系基于Web的数据挖掘必须依靠它们来实现
XML给基于Web的应用软件赋予了强大的功能和灵活性因此它给开发者和用户带来了许多好处比如进行更有意义的搜索并且Web数据可被XML唯一地标识没有XML搜索软件必须了解每个数据库是如何构建的但这实际上是不可能的因为每个数据库描述数据的格式几乎都是不同的由于不同来源数据的集成问题的存在现在搜索多样的不兼容的数据库实际上是不可能的XML能够使不同来源的结构化的数据很容易地结合在一起软件代理商可以在中间层的服务器上对从后端数据库和其它应用处来的数据进行集成然后数据就能被发送到客户或其他服务器做进一步的集合处理和分发XML的扩展性和灵活性允许它描述不同种类应用软件中的数据从描述搜集的Web页到数据记录从而通过多种应用得到数据同时由于基于XML的数据是自我描述的数据不需要有内部描述就能被交换和处理利用XML用户可以方便地进行本地计算和处理XML格式的数据发送给客户后客户可以用应用软件解析数据并对数据进行编辑和处理使用者可以用不同的方法处理数据而不仅仅是显示它XML文档对象模式(DOM)允许用脚本或其他编程语言处理数据数据计算不需要回到服务器就能进行XML可以被利用来分离使用者观看数据的界面使用简单灵活开放的格式可以给Web创建功能强大的应用软件而原来这些软件只能建立在高端数据库上另外数据发到桌面后能够用多种方式显示
XML还可以通过以简单开放扩展的方式描述结构化的数据XML补