用索引提高效率
索引是表的一个概念部分用来提高检索数据的效率 实际上ORACLE使用了一个复杂的自平衡Btree结构 通常通过索引查询数据比全表扫描要快 当ORACLE找出执行查询和Update语句的最佳路径时 ORACLE优化器将使用索引 同样在联结多个表时使用索引也可以提高效率 另一个使用索引的好处是它提供了主键(primary key)的唯一性验证
除了那些LONG或LONG RAW数据类型 你可以索引几乎所有的列 通常 在大型表中使用索引特别有效 当然你也会发现 在扫描小表时使用索引同样能提高效率
虽然使用索引能得到查询效率的提高但是我们也必须注意到它的代价 索引需要空间来
存储也需要定期维护 每当有记录在表中增减或索引列被修改时 索引本身也会被修改 这意味着每条记录的INSERT DELETE UPDATE将为此多付出 次的磁盘I/O 因为索引需要额外的存储空间和处理那些不必要的索引反而会使查询反应时间变慢
定期的重构索引是有必要的
ALTER INDEX <INDEXNAME> REBUILD <TABLESPACENAME>
索引的操作
ORACLE对索引有两种访问模式
索引唯一扫描 ( INDEX UNIQUE SCAN)
大多数情况下 优化器通过WHERE子句访问INDEX
例如:
表LODGING有两个索引 : 建立在LODGING列上的唯一性索引LODGING_PK和建立在MANAGER列上的非唯一性索引LODGING$MANAGER
SELECT * FROM LODGING
WHERE LODGING = ROSE HILL;
在内部 上述SQL将被分成两步执行 首先 LODGING_PK 索引将通过索引唯一扫描的方式被访问 获得相对应的ROWID 通过ROWID访问表的方式 执行下一步检索
如果被检索返回的列包括在INDEX列中ORACLE将不执行第二步的处理(通过ROWID访问表) 因为检索数据保存在索引中 单单访问索引就可以完全满足查询结果
下面SQL只需要INDEX UNIQUE SCAN 操作
SELECT LODGING FROM LODGING WHERE LODGING = ROSE HILL;
索引范围查询(INDEX RANGE SCAN)
适用于两种情况:
基于一个范围的检索
基于非唯一性索引的检索
例:
SELECT LODGING FROM LODGING WHERE LODGING LIKE M%;
WHERE子句条件包括一系列值 ORACLE将通过索引范围查询的方式查询LODGING_PK 由于索引范围查询将返回一组值 它的效率就要比索引唯一扫描低一些
例:
SELECT LODGING FROM LODGING WHERE MANAGER = BILL GATES;
这个SQL的执行分两步 LODGING$MANAGER的索引范围查询(得到所有符合条件记录的ROWID) 和下一步同过ROWID访问表得到LODGING列的值 由于LODGING$MANAGER是一个非唯一性的索引数据库不能对它执行索引唯一扫描
由于SQL返回LODGING列而它并不存在于LODGING$MANAGER索引中 所以在索引范围查询后会执行一个通过ROWID访问表的操作
WHERE子句中 如果索引列所对应的值的第一个字符由通配符(WILDCARD)开始 索引将不被采用
SELECT LODGING FROM LODGING WHERE MANAGER LIKE %HANMAN;
在这种情况下ORACLE将使用全表扫描
基础表的选择
基础表(Driving Table)是指被最先访问的表(通常以全表扫描的方式被访问) 根据优化器的不同 SQL语句中基础表的选择是不一样的
如果你使用的是CBO (COST BASED OPTIMIZER)优化器会检查SQL语句中的每个表的物理大小索引的状态然后选用花费最低的执行路径
如果你用RBO (RULE BASED OPTIMIZER) 并且所有的连接条件都有索引对应 在这种情况下 基础表就是FROM 子句中列在最后的那个表
举例:
SELECT ANAME BMANAGER FROMWORKER A LODGING B
WHEREALODGING = BLODING;
由于LODGING表的LODING列上有一个索引 而且WORKER表中没有相比较的索引 WORKER表将被作为查询中的基础表
多个平等的索引
当SQL语句的执行路径可以使用分布在多个表上的多个索引时 ORACLE会同时使用多个索引并在运行时对它们的记录进行合并 检索出仅对全部索引有效的记录
在ORACLE选择执行路径时唯一性索引的等级高于非唯一性索引 然而这个规则只有
当WHERE子句中索引列和常量比较才有效如果索引列和其他表的索引类相比较 这种子句在优化器中的等级是非常低的
如果不同表中两个想同等级的索引将被引用 FROM子句中表的顺序将决定哪个会被率先使用 FROM子句中最后的表的索引将有最高的优先级
如果相同表中两个想同等级的索引将被引用 WHERE子句中最先被引用的索引将有最高的优先级
举例:
DEPTNO上有一个非唯一性索引EMP_CAT也有一个非唯一性索引
SELECT ENAME FROM EMP WHERE DEPT_NO = AND EMP_CAT = A;
这里DEPTNO索引将被最先检索然后同EMP_CAT索引检索出的记录进行合并 执行路径如下:
TABLE ACCESS BY ROWID ON EMP ANDEQUAL INDEX RANGE SCAN ON DEPT_IDX
INDEX RANGE SCAN ON CAT_IDX
等式比较和范围比较
当WHERE子句中有索引列 ORACLE不能合并它们ORACLE将用范围比较
举例:
DEPTNO上有一个非唯一性索引EMP_CAT也有一个非唯一性索引
SELECT ENAME FROM EMP WHERE DEPTNO > AND EMP_CAT = A;
这里只有EMP_CAT索引被用到然后所有的记录将逐条与DEPTNO条件进行比较 执行路径如下:
TABLE ACCESS BY ROWID ON EMP
INDEX RANGE SCAN ON CAT_IDX
不明确的索引等级
当ORACLE无法判断索引的等级高低差别优化器将只使用一个索引它就是在WHERE子句中被列在最前面的
举例:
DEPTNO上有一个非唯一性索引EMP_CAT也有一个非唯一性索引
SELECT ENAME FROM EMP WHERE DEPTNO > AND EMP_CAT > A;
这里 ORACLE只用到了DEPT_NO索引 执行路径如下:
TABLE ACCESS BY ROWID ON EMP
INDEX RANGE SCAN ON DEPT_IDX
我们来试一下以下这种情况:
SQL> select index_name uniqueness from user_indexes where table_name = EMP;
INDEX_NAME UNIQUENES
EMPNO UNIQUE
EMPTYPE NONUNIQUE
SQL> select * from emp where empno >= and emp_type = A ;
no rows selected
Execution Plan
SELECT STATEMENT Optimizer=CHOOSE
TABLE ACCESS (BY INDEX ROWID) OF EMP
INDEX (RANGE SCAN) OF EMPTYPE (NONUNIQUE)
虽然EMPNO是唯一性索引但是由于它所做的是范围比较 等级要比非唯一性索引的等式比较低!
强制索引失效
如果两个或以上索引具有相同的等级你可以强制命令ORACLE优化器使用其中的一个(通过它检索出的记录数量少)
举例:
SELECT ENAME FROM EMP WHERE EMPNO =
AND DEPTNO + = /*DEPTNO上的索引将失效*/
AND EMP_TYPE || = A /*EMP_TYPE上的索引将失效*/
这是一种相当直接的提高查询效率的办法 但是你必须谨慎考虑这种策略一般来说只有在你希望单独优化几个SQL时才能采用它
这里有一个例子关于何时采用这种策略
假设在EMP表的EMP_TYPE列上有一个非唯一性的索引而EMP_CLASS上没有索引
SELECT ENAME FROM EMP WHERE EMP_TYPE = A AND EMP_CLASS = X;
优化器会注意到EMP_TYPE上的索引并使用它 这是目前唯一的选择 如果一段时间以后 另一个非唯一性建立在EMP_CLASS上优化器必须对两个索引进行选择在通常情况下优化器将使用两个索引并在他们的结果集合上执行排序及合并 然而如果其中一个索引(EMP_TYPE)接近于唯一性而另一个索引(EMP_CLASS)上有几千个重复的值 排序及合并就会成为一种不必要的负担 在这种情况下你希望使优化器屏蔽掉EMP_CLASS索引
用下面的方案就可以解决问题
SELECT ENAME FROM EMP WHERE EMP_TYPE = A AND EMP_CLASS|| = X;
避免在索引列上使用计算.
WHERE子句中如果索引列是函数的一部分.优化器将不使用索引而使用全表扫描.
举例:
低效
SELECT … FROM DEPT WHERE SAL * > ;
高效:
SELECT … FROM DEPT WHERE SAL > /;
自动选择索引
如果表中有两个以上(包括两个)索引其中有一个唯一性索引而其他是非唯一性.
在这种情况下ORACLE将使用唯一性索引而完全忽略非唯一性索引.
举例:
SELECT ENAME FROM EMP WHERE EMPNO =
AND DEPTNO = ;
这里只有EMPNO上的索引是唯一性的所以EMPNO索引将用来检索记录.
TABLE ACCESS BY ROWID ON EMP
INDEX UNIQUE SCAN ON EMP_NO_IDX
避免在索引列上使用NOT
通常我们要避免在索引列上使用NOT NOT会产生在和在索引列上使用函数相同的
影响 当ORACLE遇到NOT他就会停止使用索引转而执行全表扫描
举例:
低效: (这里不使用索引)
SELECT … FROM DEPT WHERE DEPT_CODE NOT = ;
高效: (这里使用了索引)
SELECT … FROM DEPT WHERE DEPT_CODE > ;
需要注意的是在某些时候 ORACLE优化器会自动将NOT转化成相对应的关系操作符
NOT > to <=
NOT >= to <
NOT < to >=
NOT <= to >
SQL> select * from emp where NOT empno > ;
no rows selected
Execution Plan
SELECT STATEMENT Optimizer=CHOOSE
TABLE ACCESS (BY INDEX ROWID) OF EMP
INDEX (RANGE SCAN) OF EMPNO (UNIQUE)
SQL> select * from emp where empno <= ;
no rows selected
Execution Plan
SELECT STATEMENT Optimizer=CHOOSE
TABLE ACCESS (BY INDEX ROWID) OF EMP
INDEX (RANGE SCAN) OF EMPNO (UNIQUE)
两者的效率完全一样也许这符合作者关于 在某些时候 ORACLE优化器会自动将NOT转化成相对应的关系操作符 的观点.
用>=替代>
如果DEPTNO上有一个索引
高效:
SELECT * FROM EMP WHERE DEPTNO >=
低效:
SELECT * FROM EMP WHERE DEPTNO >
两者的区别在于 前者DBMS将直接跳到第一个DEPT等于的记录而后者将首先定位到DEPTNO=的记录并且向前扫描到第一个DEPT大于的记录