php

位置:IT落伍者 >> php >> 浏览文章

用PHP读取超大文件的实例代码


发布日期:2023年12月09日
 
用PHP读取超大文件的实例代码

去年年底的各种网站帐号信息的数据库洩漏很是给力啊趁机也下载了几个数据库准备学学数据分析家来分析一下这些帐号信息虽然这些数据信息都已经被“整理”过的不过自己拿来学习也挺有用的毕竟有这么大的数据量

数据量大带来的问题就是单个文件很大能够打开这个文件相当不容易记事本就不要指望了果断死机用MSSQL的客户端也打不开这么大的SQL文件直接报内存不足原因据说是MSSQL在读取数据的时候是一次性地将读取到的数据放在内存中如果数据量过大而内存不足则会直接导致系统瘫掉

Navicat Premium
这儿推荐一个软件Navicat Premium相当给力啊几百兆的SQL文件轻松就打开了一点都不卡而且这个客户端软件支持MSSQLMYSQLOracle……等等各种数据库的连接其它的很多功能就自己慢慢研究了

虽然用Navicat可以打开CSDN这个MB的SQL文件但是内容却是没意义的而且也不方便对这些帐号信息进行查询分类统计等等操作唯一的方法就是把这些数据一条一条地读取出来然后分拆每条记录的不同片段再将这些片段以数据字段的格式存入数据库这样就可以方便以后的使用了

使用PHP读取超大文件
PHP有很多种文件读取的方式根据目标文件的不同采取更合适的方法可有效地提高执行效率由于CSDN数据库文件很大所以我们尽量不在短时间内全都读取出来毕竟每读取一条数据还要对其分拆和写入操作那么比较合适的方式就是对文件进行分区域地读取通过使用PHP的fseek和fread相结合即可做到随意读取文件中的某一部份数据下面是实例代码

复制代码 代码如下:
function readBigFile($filename $count = $tag = "rn") {
$content = "";//最终内容
$current = "";//当前读取内容寄存
$step= ;//每次走多少字符
$tagLen = strlen($tag);
$start = ;//起始位置
$i = ;//计数器
$handle = fopen($filenamer+);//读写模式打开文件指针指向文件起始位置
while($i < $count && !feof($handle)) {
fseek($handle $start SEEK_SET);//指针设置在文件开头
$current = fread($handle$step);//读取文件
$content = $current;//组合字符串
$start += $step;//依据步长向前移动
//依据分隔符的长度截取字符串最后免得几个字符
$substrTag = substr($content $tagLen);
if ($substrTag == $tag) { //判断是否为判断是否是换行或其他分隔符
$i++;
$content = "<br />";
}
}
//关闭文件
fclose($handle);
//返回结果
return $content;
}
$filename = "csdnsql";//需要读取的文件
$tag = "n";//行分隔符 注意这里必须用双引号
$count = ;//读取行数
$data = readBigFile($filename$count$tag);
echo $data;

关于函数传入的变量$tag的值根据系统不一样传入的值也是有区别的Windows用”rn”linux/unix用”n”Mac OS用”r”

程序执行的大概流程先定义读取文件的一些基础变量然后打开文件将指针定位在文件的指定位置并读取指定大小的内容每读取一次将内容存储在变量中直到达到读取要求的行数或文件结束

绝不要假定程序中的一切都将按计划运行

根据上面的代码虽然能够得到文件中指定位置指定大小的数据但这整个过程只执行了一次并不能得到所有的数据其实要得到所有的数据可以在这个循环的外层再添加判断文件是否结束的循环但这很浪费系统资源甚至由于文件过大一直没法读完而导致PHP执行超时另一种方法就是记录并存储上次读取数据后指针所在的位置然后再次执行该循环的时候将指针定位在上次结束的位置这样就不存在一次循环要把文件从头读到尾的情况

其实CSDN这个数据库我到现在都还没有导入数据库因为当时洩漏后没几天CNBETA上就有一个分析了呵呵动作太快了当看到别人已经做了这个事之后自动就没有多少动力来做了不过为了学习还是要抽时间把这个事完成了

上一篇:让PHP更快的为用户提供文件下载

下一篇:浅析Dos下运行php.exe,出现没有找到php