PHP开发搜索引擎技术全解析-php-IT落伍者

谈到网页搜索引擎时很多人都会想到雅虎的确雅虎开创了一个互联网络的搜索时代然而雅虎目前用于搜索网页的技术却并非该公司原先自己开发的年月雅虎采用了Google这家由斯坦福大学学生创建的公司的技术理由非常简单Google的搜索引擎比雅虎先前使用的技术能更快更准确搜索到所需要的信息

让我们自己来设计开发一个强劲高效的搜索引擎和数据库恐怕短时间内在技术资金等方面是不可能的不过既然雅虎都在使用别人的技术那么我们是不是也可以使用别人现成的搜索引擎网站呢？

剖析编程思路

我们可以这样设想模拟一个查询向某个搜索引擎网站发出相应格式的搜索命令然后传回搜索结果对结果的HTML代码进行分析剥离多余的字符和代码最后按所需要的格式显示在我们自己的网站页面里

这样问题的关键就在于我们要选定一个搜索信息准确（这样我们的搜索才会更有意义啊）速度快（因为我们分析搜索结果并显示需要额外的时间）搜索结果简洁（便于进行HTML源代码分析和剥离）的搜索网站由于新一代搜索引擎Google的各种优良特性这里我们选择它为例来看看用PHP怎样实现后台对Google搜索前台个性化显示这一过程

我们先来看看Google的查询命令的构成进入Google网站在查询栏中输入abcd点击查询按钮我们可以发现浏览器的地址栏变成http://wwwgooglecom/search?q=abcd&btnG=Google%CB%D%CB%F&hl=zhCN&lr= 可见Google是通过表单的get方式来传递查询参数并递交查询命令的我们可以使用PHP中的file()函数来模拟这个查询过程

了解File( ) 函数

语法: array file(string filename);

返回值为数组将文件全部读入数组变量中这里的文件可以是本地的也可以是远程的远程文件必须指明所使用的协议例如 result=file(http://wwwgooglecom/search?q=a mp;hl=zhCN&lr= )该语句将模拟我们在Google上查询单词abcd的过程并将搜索结果以每行为元素传回到数组变量 result中因为这里读取的文件是远程的所以协议名http://不能缺少

如果要让用户输入搜索字符进行任意搜索我们可以做一个输入文本框和提交按钮并将上文中的被搜索字符abcd用变量替换

echo

; file://没有参数的form默认提交方式为get提交到本身

echo ; file://构造一个文本输入框

echo ; file://构造一个提交查询按钮

echo

;

if (isset( keywords)) file://提交后PHP会生成变量 kwywords即要求下面的程序在提交后运行

{

urlencode( keywords); file://对用户输入内容进行URL编码

result=file(http://wwwgooglecom/search?q= keywords&btnG=Google%CB%D%CB%F&hl=zhCN&lr=);

file://对查询语句进行变量替换将查询结果保存在数组变量 result中

result_string=join( result); file://将数组$result合并成字符串各数组元素之间用空格粘和

file://进一步处理

}

?﹥

上面的这段程序已经能按用户输入内容进行查询并将返回的结果合成一个字符串变量$result_string请注意要使用urlencode()函数将用户输入内容进行URL编码才可以正常地对输入的汉字空格以及其他特殊字符进行查询这样做也是尽可能逼真地模拟Google的查询命令保证搜索结果的正确性

对Google的分析

为了便于理解现在假设我们所真正需要的东西是搜索结果的标题网址和简介等这是一个简洁而典型的需求这样我们所要做的便是去除Google搜索结果的台头和脚注包括一个Google的标志再次搜索的输入框和搜索结果说明等并且在剩余的搜索结果各项条目中剥离原来的HTML格式标记替换成我们想要的格式

要做到这一点我们必须仔细地分析Google搜索结果的HTML源码找到其中的规律不难发现在Google的搜索结果的正文总是包含在源码的第一个

标记和倒数第二个

标记之间并且倒数第二个

标记后紧跟table字符而且这个组合

以下所有程序均依次接续在上文程序的进一步处理处

result_string = strstr( result_string );

file://取 result_string从第一个开始后的字符串以去除Google台头

position= strpos( result_string table符号的位置

result_string= substr( result_string position);//截取第一个table符号之前的字符串以去除脚注

应用与实现

现在我们已经得到有用的HTML源码主干了剩下的问题是如何自主地显示这些内容我们再分析一下这些搜索结果条目发现每个条目之间也是很有规律的用分隔也就是各成一个段落按这个特点我们用explode()函数把每个条目切开

语法explode(string separator string string);

返回一个数组按separator切开后的各个小字串被保存在数组中

于是

result_array=explode( result_string); file://用字串把结果切开

我们就得到一个数组 result_array其中每个元素都是一个搜索结果条目我们所要做的仅仅是研究每个条目及其HTML显示格式代码然后按要求替换就行了下面用循环来处理 result_array中的每个条目

for( i=; i {

file://处理每个条目

}

对于每个条目我们也很容易找到一些特点每个条目都由标题摘要简介类别网址等组成每个部分都换行即包含标记于是再次分割（以下处理程序放在上文的循环中）

every_item=explode( result_array[ i]);

这样我们得到一个数组 every_item其中 every_item[]就是标题 every_item[]和 every_item[]两行为摘要 every_item[]和 every_item[]等等的头部如果包含简介:＜ font size= color=#fff＞类别:＜ /font＞字符则是简介或类别（因为有的结果条目没有该项）如果头部包含＜ font color=green＞则肯定就是网址啦这种对比判断我们常使用正则表达式（略）如果要替换也很方便比如包含标题的$every_item[]其本身是有链接的我们希望修改这个链接属性让它在新窗口打开链接

echo eregi_replace( {

file://处理每个条目中除去第一项（第一项为标题已经显示）的每一项

file://更多格式修改

}

这样就修改了链接属性其余很多显示格式的修改剥离替换都能用正则替换eregi_replace()来完成

至此我们已经得到了每个搜索条目的每一项并能任意修改每项的格式甚至可以给他套上漂亮的表格然而一个好的程序应该能适应各种运行环境的这里也不例外我们其实还只是讨论了搜索结果的HTML剥离的一种框架方法真正要做得完美还要考虑很多内容比如要显示一共搜索出多少结果分成多少页等等甚至还可以刨除与Google相关的那些类别简介等代码让客户根本看不到原始网站不过这些内容和要求我们都能通过分析HTML进行剥离得到现在大家完全能自己动手做个极富个性化的搜索引擎