重庆教师公招考试时间:IBM宕机处理全过程(转自CU,很有借鉴意义)
来源:百度文库 编辑:九乡新闻网 时间:2024/05/08 05:13:00
背景描述:P650双机,磁盘阵列7133,4CPU 4G内存,下午一台机器突然宕机了,重启后进入OK状态,然后再按开关,LED显示了错误码,4B2A25F4U0.1-P1-C1,反复试了几次结果都一样。
初步分析:经过咨询IBM人员,错误代码的意思就是,两路CPU故障,有可能是CPU的问题,有可能是CPU卡的问题。初步思路:就是将故障的CPU隔离。
用串口登录到维护状态:
Service Processor Firmware
Version: 3K030814
Copyright 2001, IBM Corporation
1033F4A
________________________________
MAIN MENU
1. Service Processor Setup Menu
2. System Power Control Menu
3. System Information Menu
4. Language Selection Menu
5. Call-In/Call-Out Setup Menu
6. Set System Name
99. Exit from Menus
选择3进入系统信息,再选择7,就是对processor的控制,将1和2设置为 manaual deconfig 状态,就是将这两个CPU隔离了。然后重启系统,但是故障依旧。以为是CPU隔离错了,就将3和4号配置成 manaual deconfig,1和2号回复为 manaul config,从启后故障依旧。
第二天早上来看,第二台机器也宕掉了,错误和第一台一摸一样。
这时在IBM工程师的远程支持下,在维护模式下,将错误日志发给了他,
2. 05/04/2004 14:01:47 System Processor Failure
Error code: 4B2A25F4
Priority FRU Location Code
-------- ------- ---------------
High 00P4050 U0.1-P1-C1
SRC
--------------------------------------------------------------
word11: 4B2A25F4 word12: 02100011 word13: A2101103
word14: 00000000 word15: 00000000 word16: 00000020
word17: F3820004 word18: 0020FFFF word19: FFFFFFFF
B438 800325F40000000000000000
IBM首先怀疑是电源问题,至于为什么不知。
查看后发现确实是有点问题,一个机柜中有两个插排,所有的电源都插在了一个插排上,另一个没有用?(为什么是这样也不得而知了,谁知道这个工程是怎么做得)。关机调整后,重新开机,但是错误依然。
最后INM工程师提示,将启动方式改为fast boot,以前为slow boot,再次启动,居然正常了。
之后用snap收集了相关信息发给IBM,具体结果还不得而知。IBM初步给的建议就是微码升级!
http://techsupport.services.ibm.com/server/mdownload/download.html 用串口连接机器(超级终端速率设成9600)就可以脸上。
主菜单如下:
Service Processor Firmware
Version: 3K040323
Copyright 2001, IBM Corporation
1033F4A
________________________________
MAIN MENU
1. Service Processor Setup Menu
2. System Power Control Menu
3. System Information Menu
4. Language Selection Menu
5. Call-In/Call-Out Setup Menu
6. Set System Name
99. Exit from Menus
选择2
SYSTEM POWER CONTROL MENU
1. Enable/Disable Unattended Start Mode:
Currently Disabled
2. Ring Indicate Power-On Menu
3. Reboot/Restart Policy Setup Menu
4. Power-On System
5. Power-Off System
6. Enable/Disable Fast System Boot:
Currently Fast Boot
7. Boot Mode Menu
98. Return to Previous Menu
99. Exit from Menus
然后再选择6,就可以更改为快起还是慢起了。
微码升级简单步骤:
### Procedimento para Update do Firmware ###
1. cd /tmp/fwupdate
2. chmod +x 70286C4F.BIN
3. ./70286C4F.BIN
4. sum 3R031021.img ---目的:通过检查文件大小,确认升级软件正确的上传到server
The output will look like this ----->; 30735 4907 3R031021.img
The checksum is ----->; 30735
5. cd /usr/lpp/diagnostics/bin
./update_flash -f /tmp/fwupdate/3R031021.img
6. lscfg -vp | grep -p Platform
### Procedimento para Update do Firmware ###
初步分析:经过咨询IBM人员,错误代码的意思就是,两路CPU故障,有可能是CPU的问题,有可能是CPU卡的问题。初步思路:就是将故障的CPU隔离。
用串口登录到维护状态:
Service Processor Firmware
Version: 3K030814
Copyright 2001, IBM Corporation
1033F4A
________________________________
MAIN MENU
1. Service Processor Setup Menu
2. System Power Control Menu
3. System Information Menu
4. Language Selection Menu
5. Call-In/Call-Out Setup Menu
6. Set System Name
99. Exit from Menus
选择3进入系统信息,再选择7,就是对processor的控制,将1和2设置为 manaual deconfig 状态,就是将这两个CPU隔离了。然后重启系统,但是故障依旧。以为是CPU隔离错了,就将3和4号配置成 manaual deconfig,1和2号回复为 manaul config,从启后故障依旧。
第二天早上来看,第二台机器也宕掉了,错误和第一台一摸一样。
这时在IBM工程师的远程支持下,在维护模式下,将错误日志发给了他,
2. 05/04/2004 14:01:47 System Processor Failure
Error co
Priority FRU Location Co
-------- ------- ---------------
High 00P4050 U0.1-P1-C1
SRC
--------------------------------------------------------------
word11: 4B2A25F4 word12: 02100011 word13: A2101103
word14: 00000000 word15: 00000000 word16: 00000020
word17: F3820004 word18: 0020FFFF word19: FFFFFFFF
B438 800325F40000000000000000
IBM首先怀疑是电源问题,至于为什么不知。
查看后发现确实是有点问题,一个机柜中有两个插排,所有的电源都插在了一个插排上,另一个没有用?(为什么是这样也不得而知了,谁知道这个工程是怎么做得)。关机调整后,重新开机,但是错误依然。
最后INM工程师提示,将启动方式改为fast boot,以前为slow boot,再次启动,居然正常了。
之后用snap收集了相关信息发给IBM,具体结果还不得而知。IBM初步给的建议就是微码升级!
主菜单如下:
Service Processor Firmware
Version: 3K040323
Copyright 2001, IBM Corporation
1033F4A
________________________________
MAIN MENU
1. Service Processor Setup Menu
2. System Power Control Menu
3. System Information Menu
4. Language Selection Menu
5. Call-In/Call-Out Setup Menu
6. Set System Name
99. Exit from Menus
选择2
SYSTEM POWER CONTROL MENU
1. Enable/Disable Unattended Start Mode:
Currently Disabled
2. Ring Indicate Power-On Menu
3. Reboot/Restart Policy Setup Menu
4. Power-On System
5. Power-Off System
6. Enable/Disable Fast System Boot:
Currently Fast Boot
7. Boot Mode Menu
98. Return to Previous Menu
99. Exit from Menus
然后再选择6,就可以更改为快起还是慢起了。
微码升级简单步骤:
### Procedimento para Update do Firmware ###
1. cd /tmp/fwupdate
2. chmod +x 70286C4F.BIN
3. ./70286C4F.BIN
4. sum 3R031021.img ---目的:通过检查文件大小,确认升级软件正确的上传到server
The output will look like this ----->; 30735 4907 3R031021.img
The checksum is ----->; 30735
5. cd /usr/lpp/diagnostics/bin
./update_flash -f /tmp/fwupdate/3R031021.img
6. lscfg -vp | grep -p Platform
### Procedimento para Update do Firmware ###
IBM宕机处理全过程(转自CU,很有借鉴意义)
考研成绩:政治 76 英语 69 数学 140 专业课 146 总分 431 清华431考研经验 献给追梦的你( 数学经验很有借鉴意义)
朱熹论读诗【对当今中小学教育极有借鉴意义】
薄熙来“蛋糕论”对破解“三农问题”有借鉴意义
遇事最有水平的处理方法(转自开心)
中国共产党新闻网:薄熙来“蛋糕论”对破解“三农问题”有借鉴意义
转:用MBA战略嫁一个出色男人 很强大,不过实施起来貌似有难度,借鉴借鉴,低调低调.
解密翡翠处理全过程
[理论研讨]经济周期研究,国际8.6年?中国10年周期?对投资理财是否有借鉴意义?
成功前的李嘉诚更具借鉴意义
自做葡萄酒全过程
宋氏三姐妹的家庭教育 (对教育子女很有借鉴作用)
IBM
一位灾区救援志愿者写的,很有借鉴价值
绝美壁纸 色彩处理值得借鉴
借鉴美国维权思路处理湄公河血案
在家自做葡萄酒全过程
余秋雨散文,很有深刻意义
赌局(非常有教育意义)
[理论研讨]经济周期研究,国际8.6年?中国10年周期?对投资理财是否有借鉴意义?_经济论...3
诸葛亮“七字识人”有借鉴价值
超强-RAW格式图像处理教程(转自:蜂鸟网)--心弦无波 暗尘积索-怨怀无托
欧美智库运行机制对我国的借鉴意义3
香港商报:成功前的李嘉诚更具借鉴意义