oracle系统紧急故障处理-数据库-IT落伍者

Oracle物理结构故障的处理方法

Oracle物理结构故障是指构成数据库的各个物理文件损坏而导致的各种数据库故障这些故障可能是由于硬件故障造成的也可能是人为误操作而引起所以我们首先要判断问题的起因如果是硬件故障则首先要解决硬件问题在无硬件问题的前提下我们才能按照下面的处理方发来进一步处理

控制文件损坏

控制文件记录了关于oracle的重要配置信息如数据库名字符集名字各个数据文件日志文件的位置等等信息控制文件的损坏会导致数据库异常关闭一旦缺少控制文件数据库也无法启动这是一种比较严重的错误

可以通过查询数据库的日志文件来定位损坏了的控制文件日志文件位于$ORACLE_BASE/admin/bdump/alert_ORCLora

损坏单个控制文件

确保数据库已经关闭如果没有用下面的命令来关闭数据库

svrmgrl>shutdown immediate;

查看初始化文件$ORACLE_BASE/admin/pfile/initORCLora确定所有控制文件的路径

用操作系统命令将其它正确的控制文件覆盖错误的控制文件

用下面的命令重新启动数据库

svrmgrl>startup;

用适当的方法进行数据库全备份

损坏所有的控制文件

确保数据库已经关闭如果没有用下面的命令来关闭数据库

svrmgrl>shutdown immediate;

从相应的备份结果集中恢复最近的控制文件对于没有采用带库备份的点可以直接从磁带上将最近的控制文件备份恢复到相应目录对于采用带库备份的点用相应的rman脚本来恢复最近的控制文件

用下面的命令来创建产生数据库控制文件的脚本

svrmgrl>startup mount;

svrmgrl>alter database backup controlfile to trace noresetlogs;

修改第三步产生的trace文件将其中关于创建控制文件的一部分语句拷贝出来并做些修改使得它能够体现最新的数据库结构假设产生的sql文件名字为createcontrolsql

注意

Trace文件的具体路径可以在执行完第）步操作后查看$ORACLE_BASE/admin/bdump/alert_ORCLora文件来确定

用下面命令重新创建控制文件

svrmgrl>shutdown abort;

svrmgrl>startup nomount;

svrmgrl>@createcontrolsql;

用适当的方法进行数据库全备份

重做日志文件损坏

数据库的所有增删改都会记录入重做日志如果当前激活的重做日志文件损坏会导致数据库异常关闭非激活的重做日志最终也会因为日志切换变为激活的重做日志所以损坏的非激活的重做日志最终也会导致数据库的异常终止在ipas/mSwitch中每组重做日志只有一个成员所以在下面的分析中只考虑重做日志组损坏的情况而不考虑单个重做日志成员损坏的情况

确定损坏的重做日志的位置及其状态

如果数据库处于可用状态

select * from v$logfile;

svrmgrl>select * from v$log;

如果数据库处于已经异常终止

svrmlgr>startup mount;

svrmgrl>select * from v$logfile;

svrmgrl>select * from v$log;

其中logfile的状态为INVALID表示这组日志文件出现已经损坏log状态为Inactive表示重做日志文件处于非激活状态Active 表示重做日志文件处于激活状态Current表示是重做日志为当前正在使用的日志文件

损坏的日志文件处于非激活状态

删除相应的日志组

svrmgrl>alter database drop logfile group group_number;

重新创建相应的日志组

svrmgrl>alter database add log file group group_number （log_file_descritpion…） size log_file_size;

损坏的日志文件处于激活状态且为非当前日志

清除相应的日志组

svrmgrl>alter database clear unarchived logfile group group_number;

损坏的日志文件为当前活动日志文件

用命令清除相应的日志组

svrmgrl>alter database clear unarchived logfile group group_number;

如果清除失败则只能做基于时间点的不完全恢复

打开数据库并且用适当的方法进行数据库全备份

svrmgrl>alter database open;

部分数据文件损坏

若损坏的数据文件属于非system表空间则数据库仍然可以处于打开状态可以进行操作只是损坏的数据文件不能访问这时在数据库打开状态下可以单独对损坏的数据文件进行恢复若是system表空间的数据文件损坏则数据库系统会异常终止这时数据库只能以Mount方式打开然后再对数据文件进行恢复可以通过查看数据库日志文件来判断当前损坏的数据文件到底是否属于system表空间

非system表空间的数据文件损坏

确定损坏的文件名字

svrmgrl>select name from v$datafile where status=INVALID;

将损坏的数据文件处于offline状态

svrmgrl>alter database datafile datafile_name offline;

从相应的备份结果集中恢复关于这个数据文件的最近的备份对于没有采用带库备份的点可以直接从磁带上恢复对于用带库备份的点用相应的rman脚本来恢复

恢复数据文件

svrmgrl>alter database recover datafile file_name;

使数据库文件online

svrmgrl>alter database datafile datafile_name online;

用适当的方法进行数据库全备份

system表空间的数据文件损坏

以mount方式启动数据库

svrmgrl>startup mount;

恢复system表空间

svrmgrl>alter database recover datafile datafile_name;

打开数据库

svrmgrl>alter database open;

用适当的方法进行数据库全备份

表空间损坏

若非system表空间已经损坏则数据库仍然可以处于打开状态可以进行操作只是损坏的表空间不能访问这样在数据库打开状态下可以单独对损坏的表空间进行恢复若是system表空间损坏则数据库系统会异常终止这时数据库只能以Mount方式打开然后再对表空间进行恢复可以通过查看数据库日志文件来判断当前损坏的表空间是否是system表空间

非system表空间损坏

将损坏的表空间处于offline状态

svrmgrl>alter tablespace tablespace_name offline;

从相应的备份结果集中恢复关于这个表空间最近的备份对于没有采用带库备份的点可以直接从磁带上恢复对于用带库备份的点用相应的rman脚本来恢复

恢复表空间

svrmgrl>alter database recover tablespace tablespace_name;

使表空间online

svrmgrl>alter tablespace tablespace_name online;

用适当的方法进行数据库全备份

system表空间损坏

以mount方式启动数据库

svrmgrl>startup mount;

从相应的备份结果集中恢复system表空间最近的备份对于没有采用带库备份的点可以直接从磁带上恢复对于用带库备份的点用相应的rman脚本来恢复

恢复system表空间

svrmgrl>alter database recover tablespace system;

打开数据库

svrmgrl>alter database open;

用适当的方法进行数据库全备份

整个数据库的所有文件损坏

整个数据库所有文件的损坏一般是在共享磁盘阵列发生无法恢复的灾难时才发生这种情况下只能对数据库进行恢复若数据库的归档目录也已经丢失则数据库不可能做完全恢复会有用户数据的丢失

没采用带库备份的现场

将最近的备份从磁带上把各个文件解包到相应的目录下

以mount方式打开数据库

svrmgrl>startup mount;

恢复数据库

svrmgrl>recover database until cancel;

打开数据库

svrmgrl>alter database open resetlogs;

用适当的方法进行数据库全备份

采用带库备份的现场

以nomount方式打开数据库

svrmgrl>startup nomount;

通过相应的rman脚本进行数据库软恢复

$rman cmdfile=hot_database_restorercv

打开数据库

svrmgrl>alter database open resetlogs;

用适当的方法进行数据库全备份

存在最近的数据库完整冷备份前提下的一些经典紧急情况的处理

数据文件归档重作日志和控制文件同时丢失或损坏

无新增archives 时的状况

条件和假设自上次镜像备份以来尚未生成新的archive log(s); Archivelog Mode; 有同步的datafile(s) 和control file(s) 的镜像（冷）拷贝

恢复步骤

将镜像拷贝的datafile(s) 和control file(s) 抄送回原始地点:

$ cp /backup/good_onedbf /orig_loc/bad_onedbf

$ cp /backup/controlctl /disk/controlctl

以mount 选项启动数据库

$ svrmgrl

svrmgrl> connect internal

svrmgrl> startup mount

以旧的control file 来恢复数据库

svrmgrl> recover database using backup controlfile until cancel;

*** 介质恢复完成

（必须马上cancel ）

Reset the logfiles （对启动而言不可省略）

svrmgrl> alter database open resetlogs;

关闭数据库并做一次全库冷备份

新增archives 时的状况

条件和假设自上次镜像备份以来已经生成新的archive log(s); Archivelog Mode; 有同步的datafile(s) 和control file(s) 的镜像（冷）拷贝archive log(s) 可用

恢复步骤

如果数据库尚未关闭则首先把它关闭

$ svrmgrl

svrmgrl> connect internal

svrmgrl> shutdown abort

将备份文件抄送回原始地点

所有Database Files

所有Control Files（没有archive(s) 或redo(s) 的情况下control files 的更新无任何意义）

所有OnLine Redo Logs (Not archives)

initora file（选项）

启动数据库

$ svrmgrl

svrmgrl> connect internal

svrmgrl> startup

数据文件重作日志和控制文件同时丢失或损坏

条件和假设Archivelog Mode; 有同步的所有所失文件的镜像（冷）拷贝archive log(s) 可用

恢复步骤（必须采用不完全恢复的手法）

如果数据库尚未关闭则首先把它关闭

$ svrmgrl

svrmgrl> connect internal

svrmgrl> shutdown abort

将备份文件抄送回原始地点

所有Database Files

所有Control Files

所有OnLine Redo Logs(Not archives)

initora file（选项）

启动数据库然而并不打开

svrmgrl>startup mount

做不完全数据库恢复应用所有从上次镜像（冷）备份始积累起来的archives

svrmgrl> recover database until cancel using backup controlfile;

cancel

Reset the logfiles （对启动而言不可省略）

svrmgrl> alter database open resetlogs;

关闭数据库并做一次全库冷备份

数据文件和控制文件同时丢失或损坏

条件和假设Archivelog Mode; 有同步的datafile(s) 和control file(s) 的冷拷贝archive log(s) 可用

恢复步骤

将冷拷贝的datafiles(s) 和control file(s) 抄送回原始地点:

$ cp /backup/good_onedbf /orig_loc/bad_onedbf

$ cp /backup/controlctl /disk/controlctl

以mount 选项启动数据库

$ svrmgrl

svrmgrl> connect internal

svrmgrl> startup mount

以旧的control file 来恢复数据库

svrmgrl> recover database until cancel using backup controlfile;

*** 介质恢复完成

（须在应用完最后一个archive log 后cancel ）

Reset the logfiles （对启动而言不可省略）

svrmgrl> alter database open resetlogs;

重作日志和控制文件同时丢失或损坏时

条件和假设Control Files 全部丢失或损坏Archivelog Mode; 有Control Files 的镜像（冷）拷贝

恢复步骤

如果数据库尚未关闭则首先把它关闭

$ svrmgrl

svrmgrl> connect internal

svrmgrl> shutdown abort

svrmgrl>exit

以Control File 的镜像（冷）拷贝覆盖损坏了的Control File:

$ cp /backup/controlctl /disk/controlctl

启动数据库然而并不打开

$ svrmgrl

svrmgrl> connect internal

svrmgrl> startup mount

Drop 坏掉的redo log （排除硬件故障）

svrmgrl> alter database drop logfile group ;

重新创建redo log:

svrmgrl> alter database add logfile group /orig_loc/logdbf size M;

以旧的control file 来恢复数据库

svrmgrl> recover database until cancel using backup controlfile;

（必须马上cancel ）

Reset the logfiles （对启动而言不可省略）

svrmgrl> alter database open resetlogs;

关闭数据库并做一次全库冷备份

只发生归档重作日志丢失或损坏时

根据不同环境和情况选择下述手段之一

a 马上backup 全部datafiles （如果系统采用一般热备份或RMAN 热备份）

b 马上正常关闭数据库并进行冷备份（如果系统采用冷备份）

c 冒险前进！不做备份而让数据库接着跑直等到下一个备份周期再做备份这是在赌数据库在下一个备份周期到来之前不会有需要恢复的错误发生

注意:冒险前进的选择如果发生错误而需要数据库恢复则最多只能恢复到出问题archive log 之前的操作现场从另一个角度讲archive log(s) 出现问题时数据库若不需要恢复则其本身并没有任何问题

Oracle逻辑结构故障的处理方法

逻辑结构的故障一般指由于人为的误操作而导致重要数据丢失的情况在这种情况下数据库物理结构是完整的也是一致的对于这种情况采取对原来数据库的全恢复是不合适的我们一般采用三种方法来恢复用户数据

采用exp/imp工具来恢复用户数据

如果丢失的数据存在一个以前用exp命令的备份则可以才用这种方式

在数据库内创建一个临时用户

svrmgrl>create user test_user identified by test;

svrmgrl>grant connectresource to test_user;

从以前exp命令备份的文件中把丢失数据的表按照用户方式倒入测试用户

$imp system/manager file=export_file_name tables=(lost_data_table_name…) fromuser=lost_data_table_owner touser=test_user constraint=n;

用相应的DML语句将丢失的数据从测试用户恢复到原用户

将测试用户删除

svrmgrl>drop user test_user cascede;

采用logminer来恢复用户数据

Logminer是oracle提供的一个日志分析工具它可以根据数据字典对在线联机日志归档日志进行分析从而可以获得数据库的各种DML操作的历史记录以及各种DML操作的回退信息根据这些用户就可以将由于误操作而丢失的数据重新加入数据库内

确认数据库的utl_file_dir参数已经设置如果没有则需要把这个参数加入oracle的初始化参数文件然后重新启动数据库下面例子中假设utl_file_dir=/opt/oracle/db

创建logminer所需要的数据字典信息假设生成的数据字典文本文件为dictora

svrmgrl>execute dbms_logmnr_dbuild(dictionary_filename=>dictora dictionary_location=>/opt/oracle/db);

确定所需要分析的日志或者归档日志的范围这可以根据用户误操作的时间来确定大概的日志范围假设用户误操作时可能的日志文件为/opt/oracle/db/oradata/ORCL/redolog和归档日志/opt/oracle/arch/orcl/orclarc__ora

创建要分析的日志文件列表按日志文件的先后顺序依次加入

svrmgrl>execute dbms_logmnradd_logfile(logfilename=>/opt/oracle/arch/orcl/orclarc__oraoptions=>dbms_logmnrNEW);

svrmgrl> execute dbms_logmnradd_logfile(logfilename=> /opt/oracle/db/oradata/ORCL/redologoptions=>dbms_logmnrADDFILE);

开始日志分析假设需要分析的时间在 ::和 ::之间

svrmgrl>execute dbms_logmnrstart_logmnr(dictfilename=> /opt/oracle/db/dictorastarttime=>to_date( ::YYYYMMDD HH:MI:SS)endtime=>to_date(to_date( ::YYYYMMDD HH:MI:SS));

获取分析结果

svrmgrl>select operationsql_redosql_undo from v$logmnr_contents;

根据分析结果修复数据

结束logmnr:

svrmgrl>dbms_logmnrend_logmnr;

用适当的方法对原数据库进行数据库全备份

利用备份恢复用户数据

采用这种方法时并不是在原数据库进行恢复而是利用数据库备份在新的机器上重新建立一个新的数据库通过备份恢复在新机器上将数据库恢复到用户误操作前这样就可以获得丢失的数据将其恢复到原数据库

在新的机器上安装数据库软件

对于采用带库备份的现场需要在新的数据库服务器上安装调试相应的备份管软件

根据用户误操作的时间点进行基于时间点的数据库恢复操作对于没有采用带库备份的现场可以选取用户误操作前最近的备份磁带进行恢复对于才用带库备份的点可以通过基于时间恢复点恢复的rman脚本来进行恢复

重新打开数据库

svrmgrl>alter database open resetlogs;

从新的数据库中获取丢失的用户数据通过DML操作将其恢复到原数据库中