sujunhao 2007-3-13 16:29
系统数据救援过程祥述(分享)
[color=#000000][b][font=宋体][size=14pt]系统数据救援过程祥述[/size][/font][/b][b][size=14pt][/size][/b][/color]
[size=14pt][color=#000000][font=Times New Roman]-------------------JOSSON SU[/font][/color][/size]
[color=#000000][font=宋体][size=14pt]一、发现故障、定位故障过程[/size][/font][size=14pt][font=Times New Roman] [/font][/size][/color]
[color=#000000][size=14pt][font=Times New Roman] [/font][/size][font=宋体][size=14pt]下午上班后,接到用户报障,说是我公司网络售卖游戏卡业务停止,不能购买。做为网络主管和系统管理员,我首先查看游戏卡服务器的网络,检查后网络正常;然后检查应用服务,发现服务意外停止,然后进行重新启动应用服务操作,结果不能启动,并报错,我想服务器系统问题吧,就重启服务器,这一启动不当紧,提示所有网络端口占用,不能远程登陆(我公司服务器在电信机房托管,离公司有[/size][/font][size=14pt][font=Times New Roman]5[/font][/size][font=宋体][size=14pt]里路程),急忙赶过去,发现系统在启动中报错,错误如下:[/size][/font][size=14pt][/size][/color]
[size=14pt][color=#000000][font=Times New Roman] Unable to open an initial console [/font][/color][/size]
[color=#000000][font=宋体][size=14pt]上网查了下,说是[/size][/font][size=14pt][font=Times New Roman]dev[/font][/size][font=宋体][size=14pt]目录文件丢失原因,可好,系统文件丢失,危险了!我又看了下服务器,服务器报警灯亮,一个硬盘报警灯亮(我是[/size][/font][size=14pt][font=Times New Roman]5[/font][/size][font=宋体][size=14pt]个[/size][/font][size=14pt][font=Times New Roman]scsi[/font][/size][font=宋体][size=14pt]硬盘做的[/size][/font][size=14pt][font=Times New Roman]raid5[/font][/size][font=宋体][size=14pt])[/size][/font][size=14pt][font=Times New Roman],[/font][/size][font=宋体][size=14pt]硬盘也故障,赶快打电话给[/size][/font][size=14pt][font=Times New Roman]IBM, [/font][/size][font=宋体][size=14pt]支持工程师说是硬盘已经损坏,硬盘保修卡也没有了,只有掉电,拔出硬盘,把背面所有信息传真过去,并要求[/size][/font][size=14pt][font=Times New Roman]IBM[/font][/size][font=宋体][size=14pt]第二天派人现场支持。通过以上过程,初步认定是硬盘顺坏造成数据文件丢失,同时应用服务停止,系统不能重新启动。由于故障严重,所以急忙通知了软件供应商和公司领导。[/size][/font][size=14pt][/size][/color]
[color=#000000][font=宋体][size=14pt]二、第二天故障处理过程[/size][/font][size=14pt][/size][/color]
[color=#000000][size=14pt][font=Times New Roman] [/font][/size][font=宋体][size=14pt]第二天中午[/size][/font][size=14pt][font=Times New Roman]IBM[/font][/size][font=宋体][size=14pt]工程师到了我机房,昨天我也准备了一些[/size][/font][size=14pt][font=Times New Roman]linux[/font][/size][font=宋体][size=14pt]系统处理方法。下午[/size][/font][size=14pt][font=Times New Roman]1[/font][/size][font=宋体][size=14pt]点,开始硬盘阵列检查,阵列正常,查看日志,确实一个硬盘坏,然后更换硬盘,做新硬盘[/size][/font][size=14pt][font=Times New Roman]raid[/font][/size][font=宋体][size=14pt]阵列同步工作,一个小时候,同步完成,硬盘故障问题解决。开始着手[/size][/font][size=14pt][font=Times New Roman]LINUX[/font][/size][font=宋体][size=14pt]系统。心理不是很有底气,先咨询了两家数据恢复公司,防止系统启不来后的救援办法,数据恢复公司能恢复,但价钱很贵,要[/size][/font][size=14pt][font=Times New Roman]5000[/font][/size][font=宋体][size=14pt]元,另一个公司便宜些也要[/size][/font][size=14pt][font=Times New Roman]3000[/font][/size][font=宋体][size=14pt]元,还是先自己搞吧。[/size][/font][size=14pt][/size][/color]
[color=#000000][font=宋体][size=14pt]首先服务器引导后对服务器又做了一次诊断([/size][/font][size=14pt][font=Times New Roman]IBM[/font][/size][font=宋体][size=14pt]服务器自带功能),一切正常。然后放入[/size][/font][size=14pt][font=Times New Roman]Linux as3 disk1[/font][/size][font=宋体][size=14pt],引导到[/size][/font][size=14pt][font=Times New Roman]boot[/font][/size][font=宋体][size=14pt]:提示符下,输入[/size][/font][size=14pt][font=Times New Roman]linux rescue[/font][/size][font=宋体][size=14pt],回车,然后一步步操作下,启用网卡,培植地址,提示系统救援模式下,系统挂载到[/size][/font][size=14pt][font=Times New Roman]/home/sysimage[/font][/size][font=宋体][size=14pt]下,之后进入[/size][/font][size=14pt][font=Times New Roman]#[/font][/size][font=宋体][size=14pt]提示符,还好进入系统了,能看到所有的分区和文件。从笔记本电脑上尝试[/size][/font][size=14pt][font=Times New Roman]telnet[/font][/size][font=宋体][size=14pt]服务器[/size][/font][size=14pt][font=Times New Roman],[/font][/size][font=宋体][size=14pt]不能用,重启后还是不能用,报无空余网络端口(奇怪死了,水平不高);然后又尝试[/size][/font][size=14pt][font=Times New Roman]ftp[/font][/size][font=宋体][size=14pt]服务器[/size][/font][size=14pt][font=Times New Roman],[/font][/size][font=宋体][size=14pt]也不行,重启下,可以用了,终于吐了口气,这下数据可以导出来了,也不用找数据恢复公司了。虽然系统也要重新装,应用重新部署,但是也算故障处理成功吧。[/size][/font][size=14pt][/size][/color]
[color=#000000][font=宋体][size=14pt]三、经验教训[/size][/font][size=14pt][/size][/color]
[color=#000000][size=14pt][font=Times New Roman] [/font][/size][font=宋体][size=14pt]通过这次故障处理过程,得出如下经验教训:[/size][/font][size=14pt][/size][/color]
[size=14pt][font=Times New Roman][color=#000000]1. [/color][/font][/size][color=#000000][font=宋体][size=14pt]服务器应用程序和数据一定要备份,并且要有其它介质备份,否则一旦出现严重问题,后果不堪设想(我这台服务器就是没有备份,其它所有服务器都有备,单独认为这台业务不太重要,就进行了忽视,幸好没有形成重大损失,但也是教训)。[/size][/font][size=14pt][/size][/color]
[size=14pt][font=Times New Roman][color=#000000]2. [/color][/font][/size][color=#000000][font=宋体][size=14pt]处理过程首先要尝试得到各方面支持,如服务器供应商,软件供应商,同时也要通知公司领导和用户,这样更有利于解决问题。[/size][/font][size=14pt][/size][/color]
[size=14pt][font=Times New Roman][color=#000000]3. [/color][/font][/size][color=#000000][font=宋体][size=14pt]另外本身也要根据故障寻找各种技术解决办法,平时也要多研究系统知识和服务器知识,对维护人员来说同样需要。[/size][/font][size=14pt][/size][/color]
[size=14pt][font=Times New Roman][color=#000000]4. [/color][/font][/size][color=#000000][font=宋体][size=14pt]写出来和大家一起分享。[/size][/font][size=14pt][/size][/color]
[size=14pt][font=Times New Roman][color=#000000] [/color][/font][/size]
[size=14pt][color=#000000][font=Times New Roman] 2007-03-12[/font][/color][/size]
wzc11 2007-3-15 20:46
RAID5坏一块硬盘一般不应该出现软件故障,也算是运气不好了。
一般情况的确应该做磁带备份,以免丢失数据、造成损失。
奖励发经验文章,加3菊花元。
[[i] 本帖最后由 wzc11 于 2007-5-27 08:50 编辑 [/i]]
jingzhao 2007-4-6 22:52
raid5是允许坏掉一块盘的不会造成系统瘫痪的,奇怪了?
maomaoisflag 2007-4-8 17:40
吸取经验!~谢谢楼主分享!~
huchenyi1986 2007-4-14 22:34
学习了~
价钱还真贵呀...汗
routersn 2007-5-17 13:09
RAID5出现硬盘损可以通过Rebuild来恢复呀?这样也不至于出现这种情况.要重新修复系统.Raid5带来校验数据,而且是分散在各个盘的不同位置.Rebuild应该是可以搞定了
赵高 2007-5-27 08:25
处理过程首先要尝试得到各方面支持,如服务器供应商,软件供应商,同时也要通知公司领导和用户,这样更有利于解决问题。
这一点很重要。
1f4 2007-7-9 09:57
RAID5坏了一块的话,重做应该就可以修复呀,不用这么麻烦吧。
yangrongmao 2007-7-18 11:39
好文章,值得学习
ck21 2007-7-18 12:59
确实,我也有同感,在出现自己无把握解决的问题时,向各方获取必要的支持是很明智的办法,3个臭皮匠,顶个诸葛亮。我公司前段时间是关键的业务系统服务器出了问题,经过各方面的努力,现在已经慢慢恢复到最佳状态了,其间也是寻求了多人的帮助,当然,这和我本身的技能水平不高也有很大关系,呵呵,很多都是没接触过的知识,时间又不允许我慢慢摸索。
shizhe1030 2007-11-3 22:21
我以前也遇到过这样的问题
是ibm的公司直接帮助我做好的
但raid5不应该出现这样的情况啊
一般出现这样的情况是数据冗余的太深,垃圾二进制数据造成磁盘盘控制芯片出错,
即使服务器做了阵列还是请第三块介质来备份数据,这样比较好
tongminglian 2008-1-16 18:21
谢谢分享
sunxugod 2008-7-17 15:41
不能让提供商白赚钱 有事就找他们 自己还能从中学到很多东西