PHP数组交集的优化
假设我们正在运营一个手机相关的网站用户可以通过指定若干参数(如操作系统屏幕分辨率摄像头像素等等)来筛选自己想要的手机不过由于手机的参数多且不同的手机其参数差异大所以参数表结构通常是纵表(一个参数是一行)而不是横表(一个参数是一列)此时使用若干参数来取结果通常就是把每个单独参数来取结果再一起取交集
假定每个参数会包含一千个左右的唯一结果(id int)以此为前提来模拟生成一些数据
<?php
$rand = function() {
$result = array();
for ($i = ; $i < ; null) {
$value = mt_rand( );
if (!isset($result[$value])) {
$result[$value] = null;
$i++;
}
}
return array_keys($result);
};
$param_a = $rand();
$param_b = $rand();
?>
注意如果测试数据集过小的话结论可能会出现不一致先来看看通过PHP内置方法array_intersect实现的性能
<?php
$time = microtime(true);
$result = array_intersect($param_a $param_b);
$time = microtime(true) $time;
echo "array_intersect: {$time}n";
?>
再来看看通过自定义方法intersect实现的性能
<?php
function intersect() {
if (func_num_args() < ) {
trigger_error(param error E_USER_ERROR);
}
$args = func_get_args();
foreach ($args AS $arg) {
if (!is_array($arg)) {
trigger_error(param error E_USER_ERROR);
}
}
$intersect = function($a $b) {
$result = array();
$length_a = count($a);
$length_b = count($b);
for ($i = $j = ; $i < $length_a && $j < $length_b; null) {
if($a[$i] < $b[$j]) {
$i++;
} else if($a[$i] > $b[$j]) {
$j++;
} else {
$result[] = $a[$i];
$i++;
$j++;
}
}
return $result;
};
$result = array_shift($args);
sort($result);
foreach ($args as $arg) {
sort($arg);
$result = $intersect($result $arg);
}
return $result;
}
$time = microtime(true);
$result = intersect($param_a $param_b);
$time = microtime(true) $time;
echo "intersect: {$time}n";
?>
直觉上我们肯定会认为内置函数快于自定义函数但本例中结果恰恰相反
array_intersect
intersect
需要提醒大家的是array_intersect和intersect在功能上并不完全等价例子如下
$param_a = array( );
$param_b = array( );
var_dump(
array_intersect($param_a $param_b)
intersect($param_a $param_b)
);
array_intersect
intersect
也就是说如果在第一个数组参数中有重复元素的话则array_intersect会返回所有满足条件的重复元素而不是仅仅返回一个有兴趣的读者可以变换一下参数顺序再看结果
再唠叨一下最初我写intersect方法时大概写成下面这个样子
<?php
function intersect() {
if (func_num_args() < ) {
trigger_error(param error E_USER_ERROR);
}
$args = func_get_args();
foreach ($args AS $arg) {
if (!is_array($arg)) {
trigger_error(param error E_USER_ERROR);
}
}
$result = array();
$data = array_count_values(
call_user_func_array(array_merge $args)
);
foreach ($data AS $value => $count) {
if ($count > ) {
$result[] = $value;
}
}
return $result;
}
?>
代码更简洁不过有一个弊端因为使用了array_merge所以当数组中元素非常多的时候占用的内存会比较大反之如果数组中元素不是非常多那么此方法也是可行的
参考Faster array_intersect