php

位置:IT落伍者 >> php >> 浏览文章

PHP数组交集的优化


发布日期:2024年04月01日
 
PHP数组交集的优化

PHP数组交集的优化

假设我们正在运营一个手机相关的网站用户可以通过指定若干参数(如操作系统屏幕分辨率摄像头像素等等)来筛选自己想要的手机不过由于手机的参数多且不同的手机其参数差异大所以参数表结构通常是纵表(一个参数是一行)而不是横表(一个参数是一列)此时使用若干参数来取结果通常就是把每个单独参数来取结果再一起取交集

假定每个参数会包含一千个左右的唯一结果(id int)以此为前提来模拟生成一些数据

                                    

<?php
            
            $rand = function() {
             $result = array();
            
             for ($i = ; $i < ; null) {
             $value = mt_rand( );
            
             if (!isset($result[$value])) {
             $result[$value] = null;
             $i++;
             }
             }
            
             return array_keys($result);
            };
            
            $param_a = $rand();
            $param_b = $rand();
            
            ?>

                        

注意如果测试数据集过小的话结论可能会出现不一致先来看看通过PHP内置方法array_intersect实现的性能

                                    

<?php
            
            $time = microtime(true);
            
            $result = array_intersect($param_a $param_b);
            
            $time = microtime(true) $time;
            
            echo "array_intersect: {$time}n";
            
            ?>

                        

再来看看通过自定义方法intersect实现的性能

                                    

<?php
            
            function intersect() {
             if (func_num_args() < ) {
             trigger_error(param error E_USER_ERROR);
             }
            
             $args = func_get_args();
            
             foreach ($args AS $arg) {
             if (!is_array($arg)) {
             trigger_error(param error E_USER_ERROR);
             }
             }
            
             $intersect = function($a $b) {
             $result = array();
            
             $length_a = count($a);
             $length_b = count($b);
            
             for ($i = $j = ; $i < $length_a && $j < $length_b; null) {
             if($a[$i] < $b[$j]) {
             $i++;
             } else if($a[$i] > $b[$j]) {
             $j++;
             } else {
             $result[] = $a[$i];
             $i++;
             $j++;
             }
             }
            
             return $result;
             };
            
             $result = array_shift($args);
            
             sort($result);
            
             foreach ($args as $arg) {
             sort($arg);
            
             $result = $intersect($result $arg);
             }
            
             return $result;
            }
            
            $time = microtime(true);
            
            $result = intersect($param_a $param_b);
            
            $time = microtime(true) $time;
            
            echo "intersect: {$time}n";
            
            ?>

                        

直觉上我们肯定会认为内置函数快于自定义函数但本例中结果恰恰相反

array_intersect

intersect

需要提醒大家的是array_intersect和intersect在功能上并不完全等价例子如下

                                    

$param_a = array( );
            $param_b = array( );
            
            var_dump(
             array_intersect($param_a $param_b)
             intersect($param_a $param_b)
            );

                        

array_intersect

intersect

也就是说如果在第一个数组参数中有重复元素的话则array_intersect会返回所有满足条件的重复元素而不是仅仅返回一个有兴趣的读者可以变换一下参数顺序再看结果

再唠叨一下最初我写intersect方法时大概写成下面这个样子

                                    

<?php
            
            function intersect() {
             if (func_num_args() < ) {
             trigger_error(param error E_USER_ERROR);
             }
            
             $args = func_get_args();
            
             foreach ($args AS $arg) {
             if (!is_array($arg)) {
             trigger_error(param error E_USER_ERROR);
             }
             }
            
             $result = array();
            
             $data = array_count_values(
             call_user_func_array(array_merge $args)
             );
            
             foreach ($data AS $value => $count) {
             if ($count > ) {
             $result[] = $value;
             }
             }
            
             return $result;
            }
            
            ?>

                        

代码更简洁不过有一个弊端因为使用了array_merge所以当数组中元素非常多的时候占用的内存会比较大反之如果数组中元素不是非常多那么此方法也是可行的

参考Faster array_intersect

               

上一篇:PHP学习笔记之面向对象设计

下一篇:PHP删除HTMl标签的实现代码