php

位置:IT落伍者 >> php >> 浏览文章

用 PHP 读取文件的正确方法


发布日期:2018年06月21日
 
用 PHP 读取文件的正确方法
了解如何使用 PHP 的各种文件函数查看诸如 fopenfclose 和 feof 之类的基本文件函数了解诸如 fgetsfgetss 和 fscanf 之类的读取函数并且发现用一两行代码处理整个文件的函数

让我们算一算有多少种方法

处理诸如 PHP 之类的现代编程语言的乐趣之一就是有大量的选项可用PHP 可以轻松地赢得 Perl 的座右铭Theres more than one way to do it(并非只有一种方法可做这件事)尤其是在文件处理上但是在这么多可用的选项中哪一种是完成作业的最佳工具?当然实际答案取决于解析文件的目标因此值得花时间探究所有选项

传统的 fopen 方法

fopen 方法可能是以前的 C 和 C++ 程序员最熟悉的因为如果您使用过这些语言那么它们或多或少都是您已掌握多年的工具对于这些方法中的任何一种通过使用 fopen(用于读取数据的函数)的标准方法打开文件然后使用 fclose 关闭文件如清单 所示

清单 用 fgets 打开并读取文件

$file_handle = fopen(myfile r);while (!feof($file_handle)) {   $line = fgets($file_handle);   echo $line;}fclose($file_handle);

虽然大多数具有多年编程经验的程序员都熟悉这些函数但是让我对这些函数进行分解有效地执行以下步骤

    打开文件$file_handle 存储了一个对文件本身的引用

    检查您是否已到达文件的末尾

    继续读取文件直至到达文件末尾边读取边打印每行

    关闭文件

记住这些步骤我将回顾在这里使用的每个文件函数

fopen

fopen 函数将创建与文件的连接我之所以说创建连接是因为除了打开文件之外fopen 还可以打开一个 URL

$fh = fopen( r);

这行代码将创建一个与以上页面的连接并允许您开始像读取一个本地文件一样读取它

fopen 中使用的 r 将指示文件以只读方式打开由于将数据写入文件不在本文的讨论范围内因此我将不列出所有其他选项但是如果是从二进制文件读取以获得跨平台兼容性则应当将 r 更改为 rb稍后您将看到这样的示例

feof

feof 命令将检测您是否已经读到文件的末尾并返回 True 或 False清单 中的循环将继续执行直至您达到文件myfile的末尾如果读取的是 URL 并且套接字由于不再有任何数据可以读取而超时则 feof 也将返回 False

fclose

向前跳至清单 的末尾fclose 将实现与 fopen 相反的功能它将关闭指向文件或 URL 的连接执行此函数后您将不再能够从文件或套接字中读取任何信息

fgets

在清单 中回跳几行您就到达了文件处理的核心实际读取文件fgets 函数是处理第一个示例的首选武器它将从文件中提取一行数据并将其作为字符串返回在那之后您可以打印或者以别的方式处理数据清单 中的示例将精细地打印整个文件

如果决定限制处理数据块的大小您可以将一个参数添加到 fgets 中限制最大行长度例如使用以下代码将行长度限制为 个字符

$string = fgets($file_handle );

回想 C 中的\字符串末尾终止符将长度设为比实际所需值大一的数字因而如果需要 个字符则以上示例使用 应养成以下习惯只要对此函数使用行限制就添加该额外字符

fread

fgets 函数是多个文件读取函数中惟一一个可用的它是一个更常用的函数因为逐行解析通常会有意义事实上几个其他函数也可以提供类似功能但是您并非总是需要逐行解析

这时就需要使用 freadfread 函数与 fgets 的处理目标略有不同它趋于从二进制文件(即并非主要包含人类可阅读的文本的文件)中读取信息由于的概念与二进制文件无关(逻辑数据结构通常都不是由新行终止)因此您必须指定需要读入的字节数

$fh = fopen(myfile rb);$data = fread($file_handle );

使用二进制数据

注意此函数的示例已经使用了略微不同于 fopen 的参数当处理二进制数据时始终要记得将 b 选项包含在 fopen 中如果跳过这一点Microsoft® Windows® 系统可能无法正确处理文件因为它们将以不同的方式处理新行如果处理的是 Linux® 系统(或其他某个 UNIX® 变种)则这可能看似没什么关系但即使不是针对 Windows 开发的这样做也将获得良好的跨平台可维护性并且也是应当遵循的一个好习惯

以上代码将读取 字节 ( KB) 的数据不管指定多少字节fread 都不会读取超过 个字节 ( KB)

假定文件大小不超过 KB则以下代码应当能将整个文件读入一个字符串

$fh = fopen(myfile rb);$data = fread($fh filesize(myfile));fclose($fh);

如果文件长度大于此值则只能使用循环将其余内容读入

fscanf

回到字符串处理fscanf 同样遵循传统的 C 文件库函数如果您不熟悉它则 fscanf 将把字段数据从文件读入变量中

list ($field $field $field) = fscanf($fh %s %s %s);

此函数使用的格式字符串在很多地方都有描述(如  中)故在此不再赘述可以这样说字符串格式化极为灵活值得注意的是所有字段都放在函数的返回值中(在 C 中它们都被作为参数传递

fgetss

fgetss 函数不同于传统文件函数并使您能更好地了解 PHP 的力量该函数的功能类似于 fgets 函数但将去掉发现的任何 HTML 或 PHP 标记只留下纯文本查看如下所示的 HTML 文件

清单 样例 HTML 文件

<html>    <head><title>My title</title></head>    <body>        <p>If you understand what Cause there aint no one for to give you no pain            means then you listen to too much of the band America</p>    </body></html>

然后通过 fgetss 函数过滤它

清单 使用 fgetss

$file_handle = fopen(myfile r);while (!feof($file_handle)) {   echo = fgetss($file_handle);}fclose($file_handle);

以下是输出

My title        If you understand what Cause there aint no one for to give you no pain            means then you listen to too much of the band America

fpassthru 函数

无论怎样读取文件您都可以使用 fpassthru 将其余数据转储到标准输出通道

fpassthru($fh);

此外此函数将打印数据因此无需使用变量获取数据

非线性文件处理跳跃访问

当然以上函数只允许顺序读取文件更复杂的文件可能要求您来回跳转到文件的不同部分这时就用得着 fseek 了

fseek($fh );

以上示例将跳转回文件的开头如果不需要完全返回 —— 我们可设定返回千字节 —— 然后就可以这样写

fseek($fh );

从 PHP V 开始您有一些其他选项例如如果需要从当前位置向前跳转 个字节则可以尝试使用

fseek($fh SEEK_CUR);

类似地可以使用以下代码向后跳转 个字节

fseek($fh SEEK_CUR);

如果需要向后跳转至文件末尾前 个字节处则应使用 SEEK_END

fseek($fh SEEK_END);

在到达新位置后可以使用 fgetsfscanf 或任何其他方法读取数据

不能将 fseek 用于引用 URL 的文件处理

提取整个文件

现在我们将接触到一些 PHP 的更独特的文件处理功能用一两行处理大块数据例如如何提取文件并在 Web 页面上显示其全部内容?好的您看到了 fgets 使用循环的示例但是如何能够使此过程变得更简单?用 fgetcontents 会使过程超级简单该方法将把整个文件放入一个字符串中

$my_file = file_get_contents(myfilename);echo $my_file;

虽然它不是最好的做法但是可以将此命令更简明地写为

echo file_get_contents(myfilename);

本文主要介绍的是如何处理本地文件但是值得注意的是您还可以用这些函数提取回显和解析其他 Web 页面

echo file_get_contents();

此命令等效于

$fh = fopen( r);fpassthru($fh);

您一定会查看此命令并认为那还是太费力PHP 开发人员同意您的看法因此可以将以上命令缩短为

readfile();

readfile 函数将把文件或 Web 页面的全部内容转储到默认的输出缓沖区默认情况下如果失败此命令将打印错误消息要避免此行为(如果需要)请尝试

@readfile();

当然如果确实需要解析文件则 file_get_contents 返回的单个字符串可能有些让人吃不消您的第一反应可能是用 split() 函数将它分解一下

$array = split(\n file_get_contents(myfile));

但是既然已经有一个很好的函数为您执行此操作为什么还要这样大费周章?PHP 的 file() 函数一步即可完成此操作它将返回分为若干行的字符串数组

$array = file(myfile);

应当注意的是以上两个示例有一点细微差别虽然 split 命令将删除新行但是当使用 file 命令(与 fgets 命令一样)时新行仍将被附加到数组中的字符串上

但是PHP 的力量还远不止于此您可以在一条命令中使用 parse_ini_file 解析整个 PHP 样式的 ini 文件parse_ini_file 命令接受类似清单 所示的文件

清单 样例 ini 文件

; Comment[personal information]name = King Arthurquest = To seek the holy grailfavorite color = Blue[more stuff]Samuel Clemens = Mark TwainCaryn Johnson = Whoopi Goldberg

以下命令将把此文件转储为数组然后打印该数组

$file_array = parse_ini_file(holy_grailini);print_r $file_array;

以下输出的是结果

Listing 输出

Array(    [name] => King Arthur    [quest] => To seek the Holy Grail    [favorite color] => Blue    [Samuel Clemens] => Mark Twain    [Caryn Johnson] => Whoopi Goldberg)

当然您可能注意到此命令合并了各个部分这是默认行为但是您可以通过将第二个参数传递给 parse_ini_file 轻松地修正它process_sections这是一个布尔型变量将 process_sections 设为 True

$file_array = parse_ini_file(holy_grailini true);print_r $file_array;

并且您将获得以下输出

清单 输出

Array(    [personal information] => Array        (            [name] => King Arthur            [quest] => To seek the Holy Grail            [favorite color] => Blue        )    [more stuff] => Array        (            [Samuel Clemens] => Mark Twain            [Caryn Johnson] => Whoopi Goldberg        ))

PHP 将把数据放入可以轻松解析的多维数组中

对于 PHP 文件处理来说这只是冰山一角诸如 tidy_parse_file 和 xml_parse 之类的更复杂的函数可以分别帮助您处理 HTML 和 XML 文档有关这些特殊函数的使用细节请参阅 参考资料如果您要处理那些类型的文件则那些参考资料值得一看但不必过度考虑本文中谈到的每种可能遇到的文件类型下面是一些用于处理到目前为止介绍的函数的很好的通用规则

最佳实践

绝不要假定程序中的一切都将按计划运行例如如果您要查找的文件已被移动该当如何?如果权限已被改变而无法读取其内容又当如何?您可以通过使用 file_exists 和 is_readable 预先检查这些问题

清单 使用 file_exists 和 is_readable

$filename = myfile;if (file_exists($filename) && is_readable ($filename)) {$fh = fopen($filename r);# Processingfclose($fh);}

但是在实践中用这样的代码可能太繁琐了处理 fopen 的返回值更简单并且更准确

if ($fh = fopen($filename r)) {# Processingfclose($fh);}

由于失败时 fopen 将返回 False这将确保仅当文件成功打开后才执行文件处理当然如果文件不存在或者不可读您可以期望一个负返回值这将使这个检查可以检查所有可能遇到的问题此外如果打开失败可以退出程序或让程序显示错误消息

如 fopen 函数一样file_get_contentsfile 和 readfile 函数都在打开失败或处理文件失败时返回 Falsefgetsfgetssfreadfscanf 和 fclose 函数在出错时也返回 False当然除 fclose 以外您可能已经对这些函数的返回值都进行了处理使用 fclose 时即使文件处理未正常关闭也不会执行什么操作因此通常不必检查 fclose 的返回值

由您来选择

PHP 不缺读取和解析文件的有效方法诸如 fread 之类的典型函数可能在大多数时候都是最佳的选择或者当 readfile 刚好能满足任务需要时您可能会发现自己更为 readfile 的简单所吸引它实际上取决于所要完成的操作

如果要处理大量数据fscanf 将能证明自己的价值并比使用 file 附带 split 和 sprintf 命令更有效率相反如果要回显只做了少许修改的大量文本则使用 filefile_get_contents 或 readfile 可能更合适使用 PHP 进行缓存或者创建权宜的代理服务器时可能就属于这种情况

PHP 给您提供了大量处理文件的工具深入了解这些工具并了解哪些工具最适合于要处理的项目您已拥有很多的选择因此好好地利用它们享受使用 PHP 处理文件的乐趣

               

上一篇:浅析php插件 HTMLPurifier HTML解析器

下一篇:PHP中实现面向对象编程的研究