php

位置:IT落伍者 >> php >> 浏览文章

使用PHP的cURL库进行网页抓取


发布日期:2021年08月17日
 
使用PHP的cURL库进行网页抓取

使用PHP的cURL库可以简单和有效地去抓网页你只需要运行一个脚本然后分析一下你所抓取的网页然后就可以以程序的方式得到你想要的数据了无论是你想从从一个链接上取部分数据或是取一个XML文件并把其导入数据库那怕就是简单的获取网页内容cURL 是一个功能强大的PHP库本文主要讲述如果使用这个PHP库

启用 cURL 设置

首先我们得先要确定我们的PHP是否开启了这个库你可以通过使用php_info()函数来得到这一信息

﹤?php

phpinfo();

?﹥

如果你可以在网页上看到下面的输出那么表示cURL库已被开启

如果你看到的话那么你需要设置你的PHP并开启这个库如果你是在Windows平台下那么非常简单你需要改一改你的phpini文件的设置找到php_curldll并取消前面的分号注释就行了如下所示

//取消下在的注释

extension=php_curldll

如果你是在Linux下面那么你需要重新编译你的PHP了编辑时你需要打开编译参数——在configure命令上加上–withcurl 参数

一个小示例

如果一切就绪下面是一个小例程

﹤?php

// 初始化一个 cURL 对象

$curl = curl_init();

// 设置你需要抓取的URL

curl_setopt($curl CURLOPT_URL http://cocrecom);

// 设置header

curl_setopt($curl CURLOPT_HEADER );

// 设置cURL 参数要求结果保存到字符串中还是输出到屏幕上

curl_setopt($curl CURLOPT_RETURNTRANSFER );

// 运行cURL请求网页

$data = curl_exec($curl);

// 关闭URL请求

curl_close($curl);

// 显示获得的数据

var_dump($data);

如何POST数据

上面是抓取网页的代码下面则是向某个网页POST数据假设我们有一个处理表单的网址http://wwwexamplecom/sendSMSphp其可以接受两个表单域一个是电话号码一个是短信内容

﹤?php

$phoneNumber = ;

$message = This message was generated by curl and php;

$curlPost = pNUMBER=   urlencode($phoneNumber) &MESSAGE=

 urlencode($message)  &SUBMIT=Send;

$ch = curl_init();

curl_setopt($ch CURLOPT_URL http://wwwexamplecom/sendSMSphp);

curl_setopt($ch CURLOPT_HEADER );

curl_setopt($ch CURLOPT_RETURNTRANSFER );

curl_setopt($ch CURLOPT_POST );

curl_setopt($ch CURLOPT_POSTFIELDS $curlPost);

$data = curl_exec();

curl_close($ch);

?﹥

从上面的程序我们可以看到使用CURLOPT_POST设置HTTP协议的POST方法而不是GET方法然后以CURLOPT_POSTFIELDS设置POST的数据

关于代理服务器

下面是一个如何使用代理服务器的示例请注意其中高亮的代码代码很简单我就不用多说了

﹤?php 

$ch = curl_init();

curl_setopt($ch CURLOPT_URL http://wwwexamplecom);

curl_setopt($ch CURLOPT_HEADER );

curl_setopt($ch CURLOPT_RETURNTRANSFER );

curl_setopt($ch CURLOPT_HTTPPROXYTUNNEL );

curl_setopt($ch CURLOPT_PROXY fakeproxycom:);

curl_setopt($ch CURLOPT_PROXYUSERPWD user:password);

$data = curl_exec();

curl_close($ch);

?﹥

关于SSL和Cookie

关于SSL也就是HTTPS协议你只需要把CURLOPT_URL连接中的http://变成https://就可以了当然还有一个参数叫CURLOPT_SSL_VERIFYHOST可以设置为验证站点

关于Cookie你需要了解下面三个参数

CURLOPT_COOKIE在当面的会话中设置一个cookie

CURLOPT_COOKIEJAR当会话结束的时候保存一个Cookie

CURLOPT_COOKIEFILECookie的文件

HTTP服务器认证

最后我们来看一看HTTP服务器认证的情况

﹤?php

$ch = curl_init();

curl_setopt($ch CURLOPT_URL http://wwwexamplecom);

curl_setopt($ch CURLOPT_RETURNTRANSFER );

curl_setopt($ch CURLOPT_HTTPAUTH CURLAUTH_BASIC);

curl_setopt(CURLOPT_USERPWD [username]:[password])

$data = curl_exec();

curl_close($ch);

?﹥

关于其它更多的内容请参看相关的cURL手册

               

上一篇:PHP史上最大变化 Zend增加应用服务器功能

下一篇:PHP 6预览 新增多项特性及改进