网络安全

位置:IT落伍者 >> 网络安全 >> 浏览文章

批量保存网页信息


发布日期:2023年02月19日
 
批量保存网页信息
壮壮在一家医药零售单位工作,需要经常和本省的一些制药企业联系,但记录网页中众多联系地址的工作量是非常大的。以登录中国医药网(http://www.pharmnet.com.cn/cgi/company_search.cgi)为例,在“搜索企业”处输入“四川”,一共可以获得159家企业之多。

现在我们利用网络数据库探索者来批量保存这些联系地址,就能大大减少重复劳动的工作量。

下载地址:http://www2.skycn.com/soft/14620.html

一、查找页面规律

在使用网络数据库探索者前我们要摸清页面的规律,一般可以从两、三个所需页面的链接地址对比中找到规律。在“四川”的企业列表中进入第二、第三页,发现它们的地址分别为:http://www.pharmnet.com.cn/cgi/company_search.cgi?p=2&t=company&terms=四川&c=和http://www.pharmnet.com.cn/cgi/company_search.cgi?p=3&t=company&terms=四川&c=,可见地址变化的就是p的值,依此类推就可以得出p=4是第四页、p=5就是第五页……这里的p就是数据页的url关键字,其前面的地址部分http://www.pharmnet.com.cn/cgi/company_search.cgi?是url1,后面的&t=company&terms=四川&c=则是url2了。tW.wingwit.cOM

二、设置规则

清楚页面规律后还需要为要保存的网页信息建立一个规则。开启网络数据库探索者,在“文件”下点击“新建规则文件”打开“设置规则”窗口(图1)。首先设置“一级规则”,一级规则的内容就是类似制药企业列表这样的一级数据了。在“规则用途”方面是根据所要保存的页面数据大小来定,这里的各企业联系方法数据较小就勾选“提取一般数据”,接下来给规则输入一个名称并输入数据页的url1、url2和关键字。

提示:如果没有url2就以空格代替;填写url关键字的时候要注意其大小写要和实际地址中的一致。

因为在页面中我们只需要其中的列表部分,这里要设置一下列表部分的“起始关键字”,一般可以取列表上一行的固定文字,这里取用“共有159家企业”;“每页行数”则是从关键字开始一直到列表结束的行数,包括空格;“提取页数”就是列表的页数了,这里共有11页,就设置为“1到11”,“递增值”一般设置为1。

我们真正所需的企业联系信息是列表中的各个企业的链接页面值,即二级数据,因此在设置完“一级规则”后勾选“二级规则”,进入“二级设置”选项卡,勾选“使用提取行数”,“二级链接的url范围”的选择可先在软件自带的浏览器中打开一个一级数据网页如http://www.pharmnet.com.cn/cgi/company_search.cgi?p=2&t=company&terms=四川&c=,然后按下“二级链接的url范围”后的小按钮,在弹出的窗口中定位好所需网页资料的序号(图2),若需要28~42之间的二级数据,则“二级链接的url范围”就是“28到42”;然后像设置“一级规则”一样设置好“二级数据页的起始关键字”和“提取行数”就可以“确定”保存规则了。

提示:在选择“使用提取行数”和“使用结束关键字”时要注意,如果二级数据的行数固定就选“使用提取行数”选项,否则选“使用结束关键字”。

三、批量提取数据

规则设置完毕返回软件主界面就可以提取所需要的网页信息了。在“规则”下选择刚才建立的规则文件“四川制药企业”,单击“提取”按钮就可以执行数据库的信息提取了。提取完毕,在“数据浏览”中可以查看到与一级数据相对应的二级数据即各制药企业的具体联系方法了。运行“文件→提取的数据另存为文本”就能保存所需要的网页信息了。

编后:某些网站提供的网页信息是以分页形式发布出来的,这样的网页具有一定的规律性且数据量大,要想保存这样的网页若依靠手工逐一操作,工作量太大。使用网络数据库探索者可以直接读取网站数据库来保存网页信息,能够有效减少重复劳动,减轻工作量。

上一篇:网络备份新秀──Mofile

下一篇:收藏夹网址自动排