某公司数据康复报告书51CTO博客 - 威尼斯人

某公司数据康复报告书51CTO博客

2019年03月04日11时38分40秒 | 作者: 德泽 | 标签: 数据,康复,文件 | 浏览: 271

  一、毛病描绘

  1、设备清单

设备称号

设备类型

数量

HP FC存储

HP MSA2000

1

450G SAS.硬盘

8

 

  2、毛病描绘

  整个存储空间由8块450GB SAS的硬盘组成,其间7块硬盘组成一个RAID5的阵列,剩下1块做成热备盘运用。因为RAID5阵列中呈现2块硬盘损坏,而此刻只要一块热备盘成功激活,因而导致RAID5阵列瘫痪,上层LUN无法正常运用。

  二、检测磁盘

  因为存储是因为RAID阵列中某些磁盘掉线,然后导致整个存储不可用。因而接收到磁盘后先对一切磁盘做物理检测,检测完后发现没有物理毛病。接着运用坏道检测东西检测磁盘坏道,发现也没有坏道。磁盘坏道检测日志如下图:

 

  三、备份数据

  考虑到数据的安全性以及可还原性,在做数据康复之前需求对一切源数据做备份,以防其他原因导致数据无法再次康复。运用dd指令或winhex东西将一切磁盘都镜像成文件。备份完部分数据如下图:

 

  四、毛病剖析

  1、剖析毛病原因

  因为前两个过程并没有检测到磁盘有物理毛病或者是坏道,由此揣度或许是因为某些磁盘读写不稳定导致毛病发作。因为HP MSA2000控制器查看磁盘的战略很严厉,一旦某些磁盘功能不稳定,HP MSA2000控制器就以为是坏盘,就将以为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到到达RAID等级答应掉盘的极限,那么这个RAID组将变的不可用,上层依据RAID组的LUN也将变的不可用。现在开始了解的状况为RAID组的LUN有6个,均分配给HP-Unix小机运用,上层做的LVM逻辑卷,重要数据为Oracle数据库及OA效劳端。

  2、剖析RAID组结构

  HP MSA2000存储的LUN都是依据RAID组的,因而需求先剖析底层RAID组的信息,然后依据剖析的信息重构原始的RAID组。剖析每一块数据盘,发现4号盘的数据同其它数据盘不太相同,开始以为或许是hot Spare盘。接着剖析其他数据盘,剖析Oracle数据库页在每个磁盘中散布的状况,并依据数据散布的状况得出RAID组的条带巨细,磁盘次序及数据走向等RAID组的重要信息。

  3、剖析RAID组掉线盘

  依据上述剖析的RAID信息,测验经过北亚自主开发的RAID虚拟程序将原始的RAID组虚拟出来。但因为整个RAID组中总共掉线两块盘,因而需求剖析这两块硬盘掉线的次序。细心剖析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘显着不相同,因而开始判断此硬盘或许是最早掉线的,经过北亚自主开发的RAID校验程序对这个条带做校验,发现除去方才剖析的那块硬盘得出的数据是最好的,因而可以清晰最早掉线的硬盘了。

  4、剖析RAID组中的LUN信息

  因为LUN是依据RAID组的,因而需求依据上述剖析的信息将RAID组最新的状况虚拟出来。然后剖析LUN在RAID组中的分配状况,以及LUN分配的数据块MAP。底层有6个LUN,因而只需求将每一个LUN的数据块散布MAP提取出来。然后针对这些信息编写相应的程序,对一切LUN的数据MAP做解析,然后依据数据MAP并导出一切LUN的数据。

 

  五、LVM逻辑卷及VXFS文件体系修正

  1、解析LVM逻辑卷

  剖析生成出来的一切LUN,发现一切LUN中均包含HP-Unix的LVM逻辑卷信息。测验解析每个LUN中的LVM信息,发现其间总共有三套LVM,其间45G的LVM中划分了一个LV,里边寄存OA效劳器端的数据,190G的LVM中划分了一个LV,里边寄存暂时备份数据。剩下4个LUN组成一个2.1T左右的LVM,也只划分了一个LV,里边寄存Oracle数据库文件。编写解说LVM的程序,测验将每套LVM中的LV卷都解说出来,但发现解说程序犯错。

  2、修正LVM逻辑卷

  细心剖析程序报错的原因,组织开发工程师debug程序犯错的方位,并一起组织高档文件体系工程师对康复的LUN做检测,检测LVM信息是否会因存储瘫痪导致LVM逻辑卷的信息损坏。经过细心检测,发现的确因为存储瘫痪导致LVM信息损坏。测验人工对损坏的区域进行修正,并同步修正程序,从头解析LVM逻辑卷。

  3、解析VXFS文件体系

  建立HP-Unix环境,将解说出来的LV卷映射到HP-Unix,并测验Mount文件体系。成果Mount文件体系犯错,测验运用“fsck –F vxfs” 指令修正vxfs文件体系,但修正成果仍是不能挂载,置疑底层vxfs文件体系的部分源数据或许被损坏,需求进行手艺修正。

  4、修正VXFS文件体系

  细心剖析解析出来的LV,并依据VXFS文件体系的底层结构校验此文件体系是否完好。剖析发现底层VXFS文件体系果然有问题,本来其时存储瘫痪的一起此文件在体系正在履行IO操作,因而导致部分文件体系源文件没有更新以及损坏。人工对这些损坏的源文件进行手艺修正,确保VXFS文件体系可以正常解析。再次将修正好的LV卷挂载到HP-Unix小机上,测验Mount文件体系,文件体系没有报错,成功挂载。

  六、检测Oracle数据库文件并发动数据库

  1、康复一切用户文件

  在HP-Unix机器上mount文件体系后,将一切用户数据均备份至指定磁盘空间。一切用户数据巨细在1.2TB左右。部分文件目录截图如下:

 

  2、检测数据库文件是否完好

  运用Oracle数据库文件检测东西“dbv”检测每个数据库文件是否完好,发现并没有过错。再运用北亚自主研制的Oracle数据库检测东西(查验更严厉),发现有部分数据库文件和日志文件校验不一致,组织高档数据库工程师对此类文件进行修正,并再次校验,直到一切文件校验均彻底经过。

  3、发动Oracle数据库

  因为咱们供给的HP-Unix环境没有此版别的Oracle数据,因而和用户和谐将原始生成环境带至北亚数据康复中心,然后将康复的Oracle数据库附加到原始出产环境的HP-Unix效劳器中,测验发动Oracle数据库,Oracle数据库发动成功。部分截图如下:

 

 

  七、数据验证

  由用户方合作,发动Oracle数据库,发动OA效劳端,在本地笔记本装置OA客户端。经过OA客户端对最新的数据记载以及历史数据记载进行验证,并且有用户组织长途不同部分人员进行长途验证。终究数据验证无误,数据完好,数据康复成功。

  八、移送数据

  用户方从头购买了8块HP-MSA2000原厂硬盘,由北亚工程师合作从头对HP-MSA2000存储进行装备。创建和原始相同的Volume,并将康复的数据悉数复制到从头装备好的存储中,并验证一切效劳可以正常发动,包含Oracle数据库效劳,OA效劳端等。

  九、数据康复定论

  因为毛病发作后保存现场环境杰出,没做相关风险的操作,对后期的数据康复有很大的协助。整个数据康复过程中尽管遇到很多技能瓶颈,但也都逐个处理。终究在预期的时间内完结整个数据康复,康复的数据用户方也适当满足。

  十、项目成员列表

工程师

名字

电话

邮箱

商务

张晓娜

185,1528,3863

zxn#frombyte.com

项目主管

邓奇

185,1528,3878

dq#frombyte.com

存储工程师

邓奇

185,1528,3878

dq#frombyte.com

RAID工程

宋国建

185,1528,3861

songguojian#frombyte.com

开发工程师

秦颖吉

185,1528,3871

qyj#frombyte.com

文件体系工程师

宋国建

185,1528,3861

songguojian#frombyte.com

审阅工程师

张宇

  工程师功能:

  商务工程师:担任反应音讯给用户

  初检工程师:担任设备初检事宜

  施行工程师:担任设备数据安全救援事宜

  审阅工程师:担任每一步流程审阅

 

版权声明
本文来源于网络,版权归原作者所有,其内容与观点不代表威尼斯人立场。转载文章仅为传播更有价值的信息,如采编人员采编有误或者版权原因,请与我们联系,我们核实后立即修改或删除。

猜您喜欢的文章