魔枪士传说装备推荐:IBM小型机日常维护

来源:百度文库 编辑:九乡新闻网 时间:2024/04/26 14:11:43

第一篇 日常维护部分

  录

第1章       AIX系统管理日常工作(检查篇).............................................................................. 1

1.1      常用的命令............................................................................................................... 1

1.2      语法介绍.................................................................................................................. 1

1.2.1      vmstat:检查内存、CPU、进程状态.................................................................. 1

1.2.2   sar:检查CPU、IO.............................................................................................. 2

1.2.3      PS:检查进程状态命令..................................................................................... 3

1.2.4   svmon:显示进程占用内存................................................................................... 3

1.2.5   iostat:显示磁盘IO............................................................................................... 4

1.2.6   netstat, entstat:显示网卡信息............................................................................. 4

1.2.7   no:显示tcpip参数设置....................................................................................... 5

1.2.8      其它命令........................................................................................................... 5

第2章       AIX系统管理日常工作(LV篇)................................................................................ 6

2.1      IBM AIX系统管理的日常工作.................................................................................... 6

2.1.1      开关机步骤........................................................................................................ 6

2.1.2      用户组及用户管理............................................................................................. 6

2.1.3      文件系统维护.................................................................................................... 6

2.1.4      系统日常管理.................................................................................................... 6

2.1.5      系统备份........................................................................................................... 6

2.1.6      定时清洗磁带机................................................................................................. 7

2.1.7      定时检查设备指示灯状态................................................................................... 7

2.1.8      简单故障的判断................................................................................................. 7

2.1.9      熟悉ibm aix操作系统........................................................................................ 7

2.2      关于IBM AIX的逻辑卷管理...................................................................................... 7

2.3      LVM命令................................................................................................................. 8

第3章       AIX系统管理日常工作(关键参数检查篇).............................................................. 10

3.1      AIO参数检查.......................................................................................................... 10

3.2      磁盘阵列queue_depth参数检查............................................................................ 10

3.3      用户参数检查......................................................................................................... 11

3.4      激活SSA Fast-Write Cache.................................................................................. 11

3.5      IO参数设置............................................................................................................ 11

3.6      syncd daemon的数据刷新频率............................................................................... 12

3.7      检查系统硬盘的镜像............................................................................................... 12

第4章       AIX系统管理日常工作(性能分析篇)................................................................ 13

4.1      性能瓶颈定义......................................................................................................... 13

4.2      性能范围................................................................................................................ 13

第5章       AIX系统管理日常工作(SHUTDOWN篇)............................................................. 14

5.1      概念....................................................................................................................... 14

5.2      关机命令................................................................................................................ 14

第6章       AIX系统管理日常工作(备份与恢复篇)............................................................. 14

6.1      用SMIT备份.......................................................................................................... 14

6.2      手工备份................................................................................................................ 14

6.3      恢复系统................................................................................................................ 14

第7章       HACMP的 双机系统的管理和维护..................................................................... 15

7.1      HACMP 双机系统的启动........................................................................................ 15

7.2      HACMP 双机系统的关闭........................................................................................ 15

7.3      察看双机系统的当前状态........................................................................................ 16

7.4      HACMP环境下的排错............................................................................................ 17

7.4.1      了解问题的存在............................................................................................... 17

7.4.2      判断问题的出处............................................................................................... 18


第1章    AIX系统管理日常工作(检查篇)

1.1      常用的命令

 

CPU

Memory

Disk

Network

标准UNIX命令(包括HP、SUN等)

vmstat, sar, ps

vmstat, ps

iostat, sar, vmstat,

netstat, nfsstat

AIX 详细输出

Tprof

svmon, rmss

filemon, fileplace

entstat

AIX 非常详细输出

syscalls, trace, emstat

 trace

trace

trace, iptrace

分析工具

topas

topas

topas

topas

 

1.2      语法介绍

1.2.1  vmstat:检查内存、CPU、进程状态

# vmstat 1 15

kthr     memory                   page               faults     cpu    

-----   -----------      ------------------------  ------------  -----------

 r  b   avm   fre    re  pi  po  fr   sr  cy  in   sy    cs  us sy id wa

 1  0 28132 81277   0   0   0   0    0   0 132  375  67 65  1 34  0

 2  0 28132 81277   0   0   0   0    0   0 127  338 131 99  0  0  0

 2  0 28132 81277   0   0   0   0    0   0 132  316 131 99  0  0  0

 2  0 28132 81277   0   0   0   0    0   0 120  317 126 99  0  0  0

 2  0 28132 81277   0   0   0   0    0   0 146  316 127 99  0  0  0

 2  0 28132 81277   0   0   0   0    0   0 130  317 125 99  0  0  0

 2  0 28132 81277   0   0   0   0    0   0 135  316 127 99  0  0  0

 2  0 28132 81277   0   0   0   0    0   0 129  317 124 99  0  0  0

 2  0 28132 81277   0   0   0   0    0   0 133  304 127 99  0  0  0

 

r:正在运行的进程

b:被阻挡的进程

avm:活动的虚内存,单位4kb

fre:自由列表,位4kb

po:页换出

pi:页换入

sy:系统占用CPU

id:空闲CPU

wa:等待的CPU

1.2.2     sar:检查CPU、IO

例如:

sar -u 1 30

sar -P ALL 1 10

 

语法:

sar -[abckmqruvwyA] inteval repetition

-b buffer 活动

-c 系统调用

-k 内核进程统计.

-m 消息及信号量活动

-q 正在运行的队列数及等待队列数

-r 页交换统计

-u CPU利用

-P CPU负载.

 

1.2.3    PS:检查进程状态命令

ps:

显示当前SHELL重所有进程

ps -ef :

显示系统中所有进程,-f显示更详细信息

ps -u oracle:

   显示oracle用户进程

ps –emo THREAD:

显示线程信息

ps au;ps vg:

按使用时间显示进程(最近一次调用)

ps aux:

按使用时间显示进程(进程启动)

 

1.2.4      svmon:显示进程占用内存

svmon –G:

显示系统占用内存

svmon -C command_name:

显示某个用户进程占用内存

svmon -P pid

显示某个进程占用内存

svmon –S:

显示段占用内存

 

1.2.5     iostat:显示磁盘IO

 

tty:  tin    tout   avg-cpu:  % user    % sys     % idle    % iowait

0.0    4.0       0.9  1.3   95.4       2.5   

 

Disks:        % tm_act     Kbps      tps    Kb_read   Kb_wrtn

hdisk0          58.4     218.3      41.2        172       920

hdisk1          16.8      85.6      21.4        428         0

hdisk2          50.6     223.9      55.6       1100        20

hdisk3          16.8      85.6      21.4        428         0

hdisk4           0.0       0.0       0.0          0         0

hdisk5          43.4     279.1      69.8       1396         0

hdisk6           0.0       0.0       0.0          0         0

hdisk7          16.4      27.2      20.2          0       136

hdisk8           0.0       0.0       0.0          0         0

hdisk9           9.4     156.0      11.4          0       780

hdisk10         16.4      27.2      20.2          0       136

cd0              0.0       0.0       0.0          0         0

 

1.2.6    netstat, entstat:显示网卡信息

netstat en0:

显示en0信息

netstat –s:

显示网络信息

netstat -m

显示网络buffers.

netstat -i

显示网卡状态

netstat -I en0 1

显示eno网卡塞(1秒间隔)

 

1.2.7    no:显示tcpip参数设置

no –a:

显示tcpip所有参数当前设置

no -o tcp_keepalivetime=7200000

设置tcp_keepalivetime等于3600000秒

no -d 恢复默认值

 

注:该方法在重启后失效

 

1.2.8     其它命令

检查文件系统

df -k

检查设备

lsdev -C

检查物理卷

lspv

检查交换区

lsps -a

检查配置

lscfg -vp

检查软件

lslpp -l

检查用户

who

 

第2章    AIX系统管理日常工作(LV篇)

2.1  IBM AIX系统管理的日常工作

系统管理员对小型机系统的正确管理是系统稳定运行的保障,作为系统管理员应注意以下几个方面:

2.1.1    开关机步骤

在系统管理员控制下进行正确的操作。(第5章有专门介绍)

2.1.2    用户组及用户管理

2.1.3    文件系统维护

发现文件系统已满,应及时删除无用文件或扩大文件系统。

查看文件系统使用率命令:df –k ,查看%Used和%Iused

Filesystem    1024-blocks      Free %Used    Iused %Iused Mounted on

/dev/hd4            32768     20180   39%     2070    13% /

/dev/hd2          2293760   1230984   47%    33045     6% /usr

/dev/hd9var         32768     15832   52%      367     5% /var

/dev/hd3            32768     23300   29%      110     2% /tmp

/dev/hd1            32768     31384    5%       72     1% /home

/dev/informixlv      524288    199060   63%     3521     3% /home/informix

注意系统文件系统中的/  /var   /tmp使用率不要超过90%

2.1.4    系统日常管理

系统管理员最好用smit来进行系 统管理。Smit是以菜单方式工作的工具包,它包括了日常管理工作的所有命令,操作简便。

2.1.5    系统备份

备份是保护用户数据不丢失的重要手段。一般系统备份的要求如下:

A. 每一台机器的操作系统至少有一个全备份。

B. 每天备份用户数据。

C. 操作系统配置修改后重新备份操作系统。

(系统备份方法在第六章专门介绍)

2.1.6    定时清洗磁带机

可以每月定时清洗一次,将清洗带插入磁带机,清洗完毕后会自动退出磁带。

当磁带机需要清洗时,磁带机左边第一个起绿色指示灯会亮。

2.1.7    定时检查设备指示灯状态

RS6000小型机出现硬件故障时,系统前面板上会亮一个橙色的告警灯。

液晶面板上面会有显示错误代码

2.1.8    简单故障的判断

详细信息见“第二部分:故障处理指导书”

2.1.9    熟悉ibm aix操作系统

2.2  关于IBM AIX的逻辑卷管理

IBM AIX 存储管理的五个基本概念:

物理卷Physical Volume,称为PV:指物理上硬盘,一个硬盘就是一个PV,名字为HDISK0、HDISK1。

物理分区(Physical Partitions):物理卷被划分成大小一样的物理分区PPs

逻辑卷组Logical Volume Group,称为VG:一个VG包含整数个PV,可理解为一个大硬盘。

逻辑卷Logical Volume,称为LV:相当于对大硬盘进行逻辑分区, 一个VG里可有若干个LV,对用户讲,LV上的数据是连续的,但PV上的数据可能是分散的。

逻辑分区(Logical Partitions):每个LV有若干逻辑分区(LPs)组成,每个逻辑分区至少有一个PV组成。

文件系统File System:在逻辑卷的基础上,可建立文件系统JFS,然后MOUNT到一个目录下,这样就可以文件存取的方式来使用这块硬盘了。

当然,您也可以不建文件系统,而直接把LV当作裸设备,以TRUNK方式来存取数据,许多数据库都是用这种方式存取数据。

LVM的关系如下图:

 

2.3  LVM命令

一般采用smit命令可对PV、VG、LV、JFS等进行图形化管理,命令如下:

smit  lvm

屏幕显示如下:

Add a Logical Volume

  Logical volume NAME                      [scratch]

* VOLUME GROUP name                         testvg

* Number of LOGICAL PARTITIONS         [64]       #

  PHYSICAL VOLUME names                    [hdisk1 hdisk2 hdisk3]   +

Logical volume TYPE                      [jfs]

POSITION on physical volume               middle  +

RANGE of physical volumes                 minimum   +

MAXIMUM NUMBER of PHYSICAL VOLUMES       []        #

to use for allocation

Number of COPIES of each logical         2      +

partition

Mirror Write Consistency?          yes                     +

Allocate each logical partition copy     yes     +

on a SEPARATE physical volume?

RELOCATE the logical volume during   yes             +

reorganization?

Logical volume LABEL                     []

MAXIMUM NUMBER of LOGICAL PARTITIONS     [512]     #

Enable BAD BLOCK relocation?        yes                     +

SCHEDULING POLICY for reading/writing    parallel    +

logical partition copies

Enable WRITE VERIFY?            no                      +

File containing ALLOCATION MAP           []

Stripe Size?                             [64K]  

 

行命令:

       .lsvg:查看vg名字

查看vg详细信息:       lsvg

查看vg内的LVs:       lsvg -l

查看vg内的PV: lsvg -p

查看激活的VG:    lsvg –o

 

. lspv:查看物理卷组pg名字

查看PV 详细信息:                                 lspv hdiskN

查看PV内的LVs                                lspv -l hdiskN

查看PV内的PP :                                lspv -p hdiskN

 

. lslv:查看LV的信息

查看LV 名字:                      lsvg -l

查看LV 详细信息:                   lslv

查看PV 内的LVs :                lslv -l

查看PV 内的PP :                lslv -p

查看镜像的LV:           lslv -m

第3章    AIX系统管理日常工作(关键参数检查篇)

3.1  AIO参数检查

# lsattr -El aio0

minservers X         MINIMUM number of servers                True

maxservers 80        MAXIMUM number of servers                True

maxreqs    4096      Maximum number of REQUESTS               True

kprocprio  39        Server PRIORITY                          True

autoconfig available STATE to be configured at system restart True

fastpath   enable    State of fast path                       True

l  MaxServers = 10 * number of disks

l  MinServers = MaxServers /2

其中MaxServers最大为80

可用命令#smitty aioàChange / Show Characteristics of Asynchronous I/O

修改相应的值。

3.2  磁盘阵列queue_depth参数检查

假设DATAVG的RAID盘为hdisk2

# lsattr -El hdisk2

pvid 00019081a0dc91ea0000000000000000 Physical volume identifier  Fal

queue_depth     8            Queue depth                 True

queue_depth值设置为7133硬盘个数

可用命令#chdev –l hdisk2 –a queue_depth=x修改,但VG必须为VARYOFF状态。

3.3  用户参数检查

#smitty chlicense

修改Maximum number of FIXED licenses为10

#lsattr -El sys0|grep maxuproc

maxuproc  200  Maximum number of PROCESSES allowed per user      True

用#smitty chgsys修改

 

利用lsattr -Elsys0 检查maxuproc, minpout, maxpout等参数的大小。maxuproc为每个用户的最大进程数,当应用涉及大量的顺序读写而影响前台程序响应时间时,可考虑将maxpout设为33, minpout设为16,利用smitty chgsys来设置。

 

3.4  激活SSA Fast-Write Cache

利用smitty ssafastw来激活每一个逻辑盘hdiskn的Fast-Write Cache:选择硬盘后,把Enable Fast-Write一项改为Yes后回车即可。对于OPS必须关闭,对于GAILOVER或单机必须打开。

3.5  IO参数设置  

High water mark for pending write I/Os per file(maxpout) 和Low water mark for pending write I/Os per file

它们缺省值为0,在双机环境中一般应设High water mark为33,Low water mark为24,这两个参数可用smitty chgsys来设置。

3.6  syncd daemon的数据刷新频率

该值表示刷新内存数据到硬盘的频率,缺省为60,一般可改为20,也可根据实际情况更改。该参数通过vi /sbin/rc.boot更改,其中一行如下:

nohup  /usr/sbin/syncd 60 >/dev/null 2>&1 &

改为:

nohup  /usr/sbin/syncd 20 >/dev/null 2>&1 &

 

3.7  检查系统硬盘的镜像

#lsvg –l rootvg

rootvg:

LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT

hd5                 boot       1     2     2    closed/syncd  N/A

hd6                 paging     48    96    2    open/syncd    N/A

paging00            paging     32    64    2    open/syncd    N/A

hd8                 jfslog     1     2     2    open/syncd    N/A

hd4                 jfs        1     2     2    open/syncd    /

hd2                 jfs        32    64    2    open/syncd    /usr

hd9var              jfs        5     10    2    open/syncd    /var

hd3                 jfs        4     8     2    open/syncd    /tmp

hd1                 jfs        1     2     2    open/syncd    /home

注意:PPs 为LPs的两倍,PVs为2

如果系统盘未镜像,而系统盘为18G盘,用命令镜像

# mirrorvg rootvg hdisk0 hdisk1

(对rootvg进行镜像)

# bosboot –a

(在两块盘上重建bootimage)

# bootlist –m normal hdisk0 hdisk1

(设置机器的启动顺序)

 

第4章    AIX系统管理日常工作(性能分析篇)

 

4.1   性能瓶颈定义

项目         检查命令                           判断标准

CPU           vmstat                    %user + %sys greater 大于 75%

Disk I/O           vmstat                 %iowait 大于 30% (AIX 4.3.3 or later)

应用程序磁盘    iostat                         %tm_act 大于 60%

交换区          lsps -a                    大于60%

页交换数量     iostat vmstat            大于10×CPU数量    

 

4.2  性能范围

            好           坏          极差

CPU            60%          75%          90%+

Disk           <30%         <40%         <50%+

Memory         0       10 pages/秒CPU    >50

 

第5章    AIX系统管理日常工作(SHUTDOWN篇)

5.1   概念

IBM AIX的启动分为多用户(normal)和单用户(service)模式,在正常情况下,一般选择多用户模式。

5.2  关机命令

快速关机,不警告用户

shutdown -F ;halt

快速关机并重启

shutdown –Fr;reboot

警告一分钟后关机并重启

shutdown -r

发送关机命令,但不关机

shutdown -k

关机并警告用户推出

Shutdown now

关机到单用户模式

Shutdown -m;init s;telinit s

 

 

第6章    AIX系统管理日常工作(备份与恢复篇)

6.1  用SMIT备份

#smitty mksysb进行系统备份

当COMMAND STATUS页面中Command: OK出现后,表示备份成功。

取出制作完毕的磁带,在磁带上的标签上注明备份机器的名称和序列号

6.2  手工备份

# mksysb –i /dev/rmt0

6.3  恢复系统

#bootinfo –e

检查系统所带的磁带机是否能启动系统,如果返回值是1,表示该磁带机支持启动系统,如果返回值是0,就是不支持。

插入备份带,检查设备启动顺序:

#bootlist -m service -o

如果需要,将启动顺序改为从磁带启动:

#bootlist -m service rmt0

重启机器,系统从磁带读数据,根据提示恢复系统。

第7章    HACMP的 双机系统的管理和维护

 

7.1  HACMP 双机系统的启动

要启动HACMP 双机系统必须要有root 用户的特权分别进入到系统各节点主机在命令 行上执行下述命令即可。

        # smit clstart         或

        # /usr/sbin/cluster/etc/rc.cluster -boot -N -i

注:在双机系统中HACMP 双机软件先启动的节点将成为主节点拥有资源,后启动的节点将成为备用节点。

7.2  HACMP 双机系统的关闭

 

要关闭某节点上的HACMP 双机软件必须要有该节点root 用户的特权,以root 用户进入到该节点主机在命令行上执行下述命令即可。

         # smit clstop

         或

         # clstop -gr

        说明:若该节点是主节点并且备节点上的HACMP 软件亦正常运行,则clstop 关闭模式的三种选项行为不同。

         。 forced: 是指立即关闭双机软件不调用任何客户应用的善后处理例程。

         。graceful 是指在关闭双机软件时将调用客户应用预定义的善后处理例程。

         。takeover 是指该节点将关闭双机软件并释放资源请求备节点进行接管。

         检查HACMP 双机软件在该节点是否已启,动命令如下:

          # lssrc -g cluster

         若是系统显示出下面类似的信息则说明HACMP 双机软件已正常启动.

         Subsystem Group   PID   Status

         Clstrmgr    cluster  22500 active

         Clsmuxpd cluster  23674 active

         Clinfo         cluster 28674 active

7.3  察看双机系统的当前状态

        # /usr/sbin/cluster/clstat -a

       如果双机系统一切工作正常则系统将显示下述类似信息:

clstat - HACMP for AIX Cluster Status Monitor

-------------------------------------------------------------------------------------

Cluster: cluster(80) Thu Jan 20 08:45:17 TAIST 2000

State: UP Nodes: 2

SubState: STABLE

Node: oracle1 State: UP

Interface: oracle1_svc (0) Address: 10.75.9.41

State: UP

Interface: oracle1_tty (1) Address: 0.0.0.0

State: UP

Node: oracle2 State: UP

Interface: oracle2_svc (0) Address: 10.75.9.41

State: UP

Interface: oracle2_tty (1) Address: 0.0.0.0

State: UP

7.4   HACMP环境下的排错

在一般情况下,HACMP 软件很少需要手工干预,但一旦有问题发生,诊断和恢复的

技巧是很重要的.需要能很快地断定问题然后运用你对HACMP 的理解来恢复HACMP

的正常运作.

一般地,HACMP 环境下的排错包括:

.了解问题的存在.

.判断问题的出处.

.解决问题.

7.4.1    了解问题的存在

您可以通过以下途径了解到一个CLUSTER 环境下出现了问题.

.最终用户的投诉,他们无法访问应用程序.

.控制台上出现一些HACMP 的信息.

1.应用服务无法访问

最终用户的抱怨通常预示CLUSTER 出现了问题.他们无法正常执行应用或是无

法登录到系统.我们必须采集到详细的信息以判断到底那里出现了问题.是否有错误

的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始.您也可以在

自己的系统上重复.要知道用户应用不可用并不代表HACMP 有问题.问题可能出现在

应用程序本身或是它的启动或终止脚本出现了问题.因此应用程序本身的排错也应

是HA 排错的一部分.

2.控制台上出现一些HACMP 的信息

在HACMP 启动,终止或出错时,控制台上会出现一些HACMP 的信息,同时也会写入相应的文件中.

7.4.2    判断问题的出处

当错误出现时,我们应尝试发现错误的所在.但我们常常被错误的表面所误导.以

下的步骤可以使我们得到更详细的信息.

1.保存好一些LOG 文件.(/tmp/hacmp.out & /tmp/cm.log).因为它们可能被覆盖.

2.仔细检查HACMP 所产生的LOG 文件.它们能提供最初的判断线索.

3.用HACMP 的工具和AIX 的命令来检查HACMP 的部件是否正常.

4.打开HACMP 的跟踪工具来产生更详细的信息.

.HACMP 的LOG 文件:以下文件都是文本文件,可以用VI 来看.每个日志文件都含有每个信息的产生时间.

/usr/adm/cluster.log :记录了HACMP 的状态,由HA 的守护进程所产生.

/tmp/hacmp.out :记录了HA 的详细脚本.

/usr/sbin/cluster/history/cluster.mmdd :记录了HA 的各个事件的发生.

/tmp/cm.log :由clstrmgr 进程产生,每次HA 重起时会被覆盖.

.HACMP FOR AIX 的结构

应用层

HACMP 软件层

LVM & TCPIP 层

AIX 层

物理网络层

物理硬盘层

硬件层

在物理网络层,物理硬盘层,硬件层,LVM & TCPIP 层,AIX 层我们可以用AIX

系统命令来看是否硬件和系统出现了问题.一般地,在用errpt 命令来看没有类型为

PH 的错误,lsvg -o 来看我们所须的VG 已varyon,mount 来看我们所须的文件系统

已安装, netstat -i 来看我们所须的service IP 是UP 的状态(或用ifconfig

en*),cluster node 之间的service 与service IP ,standby 与standby IP 互

相可以ping 通.在各个节点上执行stty<

层,LVM & TCPIP 层,AIX 层没有问题,问题可能出现在应用层与HACMP 软件层上.否

则问题就出现在相应的层次上.

在HACMP 软件层上,我们可以用vi /tmp/hacmp.out 来看,如果出现event

failed 的字段,则有可能问题出现在该层,如果在问题出现的时段,hacmp.out 无信

息出现,则问题可能出现在应用层.

以下是HA 排错的一些守则:

.在第一时间保存好相关的日志文件,特别是那些会被覆盖的文件.

.尝试去重复问题的出现.不要被用户所反映的问题迷惑.

.渐进地去重复问题,如果有多个可能导致问题的出现,一个一个地去重复,而不要一

次重复多个可能.

.不要凭经验来判断问题,而是要在各种测试后,由结果来判断.

.隔离问题的来源,根据我们上面所叙述的层次关系,至顶向下地诊断.

.由简到繁地做测试,我们先从一个简单的环境来做测试,不要尝试在一个复杂的环

境中测试.

.一次做一次改动,否则我们无法知道是那个改动解决了问题.

.不要忽略各种可能,因小可失大,留心系统的每一个细节,包括电源,插头,连线等.

.保持各种测试的记录以及解决的步骤,用做将来排错的参考.

。拨打技术支持工程师电话,到现场解决问题。

 

第二篇:故障处理部分

目  录

第1章    故障的定义............................................................................................................... 1

第2章    故障信息的收集........................................................................................................ 1

2.1      收集故障信息对于判断诊断故障原因修复系统非常重要............................................ 1

2.2      系统故障记录(errorlog)......................................................................................... 1

2.3      控制面板上的LED 代码............................................................................................ 3

2.4      SMS (System Management Service) 故障记录......................................................... 4

2.5      MAIL........................................................................................................................ 4

2.6      运行故障诊断程序(Diagnostic) 对系统硬件进行检查和诊断..................................... 4

2.7      其他用于收集系统信息的命令................................................................................... 4

第3章    硬件故障定位方法.................................................................................................... 7

3.1      IPL 流程................................................................................................................... 7

3.2      系统的启动顺序:....................................................................................................... 7

3.3      系统不能启动........................................................................................................... 8

3.4      系统停在551555或557........................................................................................... 8

3.5      CDE图形界面挂死................................................................................................... 9

3.6      系统dump............................................................................................................... 10

第4章       7133-D40SSA磁盘柜的故障定位........................................................................ 12

第5章    软件故障定位方法.................................................................................................. 12

5.1      文件系统空间不够.................................................................................................. 12

5.2      检查文件系统的完整性........................................................................................... 13

5.3      查看卷组信息(lsvg-lvg_name)............................................................................... 13

5.4      检查内存交换区(pagingspace)使用率(lsps-s)......................................................... 13

5.5      小型机内存泄漏问题............................................................................................... 13

第6章    常用的系统状态查询命令........................................................................................ 15

第7章    网络故障定位方法.................................................................................................. 16

7.1      网络不通的诊断过程............................................................................................... 16

7.2      网络配置的基本方法............................................................................................... 16

第8章       HACMP环境下的排错......................................................................................... 17

8.1      了解问题的存在...................................................................................................... 17

8.2      判断问题的出处...................................................................................................... 17

第9章    附常用命令列表...................................................................................................... 19

 

第1章    故障的定义

根据以下这些方面来考虑故障定位:

弄清楚系统发生了什么问题

系统现在能做什么不能做什么

故障什么时候发生的

有没有做平时不同的操作

故障有没有规律定时还是不定时发生的频率有多高

是一台机器出现故障还是多台机器故障故障现象是否相同

最近有没有做改动如安装了新的硬件软件改变了系统的一些设置

第2章    故障信息的收集

2.1  收集故障信息对于判断诊断故障原因修复系统非常重要

2.2  系统故障记录(errorlog)

errdemon 进程在系统启动时自动运行

记录包括硬件软件及其他操作信息

故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析

errpt 命令的使用(普通用户权限也可使用)

#errpt |more 列出简短出错信息

ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION

192AC071 0723100300 T 0 errdemon Error logging turned off

0E017ED1 0720131000 P H mem2 Memory failure

9DBCFDEE 0701000000 T 0 errdemon Error logging turned on

038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR

AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION

TIMESTAMP: MMDDHHMMYY (月日时分年

T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视

C 分类: H 硬件; S 软件; O 用户; U未知

#errpt -d H 列出所有硬件出错信息

#errpt -d S 列出所有软件出错信息

#errpt -aj ERROR_ID 列出详细出错信息

# errpt -aj 0502f666 <--- ERROR_ID用大小写均可

LABEL: SCSI_ERR1

ID: 0502F666

Date/Time: Jun 19 22:29:51

Sequence Number: 95

Machine ID: 123456789012

Node ID: host1

Class: H

Type: PERM

Resource Name: scsi0

Resource Class: adapter

Resource Type: hscsi

Location: 00-08

VPD: <--- Virtal Product Data

Device Driver Level00

Diagnostic Level00

Displayable MessageSCSI

EC LevelC25928

FRU Number30F8834

ManufacturerIBM97F

Part Number59F4566

Serial Number00002849

ROS Level and ID24

Read/Write Register Ptr0120

Description

ADAPTER ERROR

Probable Causes

ADAPTER HARDWARE CABLE

CABLE TERMINATOR DEVICE

Failure Causes

ADAPTER

CABLE LOOSE OR DEFECTIVE

Recommended Actions

PERFORM PROBLEM DETERMINATION PROCEDURES

CHECK CABLE AND ITS CONNECTIONS

Detail Data

SENSE DATA

0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

2.3  控制面板上的LED 代码

8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代

4 位代码通常是Exxx

3 位代码通常为0yyy 只看后3位

8 位和4位代码可查看系统服务手册(Service Guide)

3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus

System)

闪动的888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容

888-102 一般为软件故障888-102-207 例外

系统会产生一个dump

888-102-xxx-0C9 系统正在做dump, 请等待

888-102-xxx-0C0 系统dump完成可关电重启

888-103 或105

硬件故障一般有SRN 代码及位置代码

2.4  SMS (System Management Service) 故障记录

如何进入SMS 菜单

当主控台出现键盘图标后(LED 显示E1F1时)按1键

选择"Utilities"

选择"Error Log", 抄下8位故障代码

在SMS 中还可以更改系统启动顺序表

2.5  MAIL

#mail

系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查

修复系统会定时提醒root

2.6  运行故障诊断程序(Diagnostic) 对系统硬件进行检查和诊断

当发现有硬件故障时应立即使用diag

#diag

> 选高级诊断Advance Diagnostic)

> 选问题诊断Problem Determination) 或

选系统检查System Verification)

(选PD 会对系统错误记录进行分析)

diag运行后会给出SRN 代码故障设备名称及百分比地址代码等

对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析

2.7  其他用于收集系统信息的命令

lsdev -C 系统设备信息

#lsdev -Cc disk

hdisk0 Available 00-06-00-2,0 45 GB 16 Bit SCSI Disk Drive

hdisk1 Available 00-06-00-1,0 45 GB 16 Bit SCSI Disk Drive

hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive

lspv 查看物理卷信息

#lspv

hdisk0 0007821160af3d76 rootvg

hdisk1 000782117f571294 rootvg

hdisk2 0000000045c45bde datavg

lsvg 查看卷组信息

#lsvg datavg

VOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b

VG STATE: active PP SIZE: 4 megabyte(s)

VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt

MAX LVs: 256 FREE PPs: 1 (4 megabytes)

LVs: 3 USED PPs: 2168 (8672 megabyt

OPEN LVs: 2 QUORUM: 2

TOTAL PVs: 1 VG DESCRIPTORS: 2

STALE PVs: 0 STALE PPs: 0

ACTIVE PVs: 1 AUTO ON: yes

MAX PPs per PV: 2032 MAX PVs: 16

#lsvg -l rootvg

rootvg:

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT

hd5 boot 1 1 1 closed/syncd N/A

 

lv00 jfs 51 102 1 closed/stale /ibmcxx

lv01 jfs 1 1 1 open/syncd /cics_regions

lv02 jfs 4 4 1 open/syncd /var/mqm

lslpp 查看文件组信息

# lslpp -L |grep 23100020

 

devicespci23100020rte 4327 C IBM PCI 10/100 Ethernet Adapt

看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本

lsattr 查看设备参数设置

# lsattr -El ent2

busio 0x7fffc00 Bus I/O address False

busintr 9 Bus interrupt level False

intr_priority 3 Interrupt priority False

tx_que_size 512 TRANSMIT queue size True

rx_que_size 256 RECEIVE queue size True

rxbuf_pool_size 384 RECEIVE buffer pool size True

media_speed 10_Half_Duplex Media Speed True

use_alt_addr no Enable ALTERNATE ETHERNET address True

alt_addr 0x000000000000 ALTERNATE ETHERNET address True

ip_gap 96 Inter-Packet Gap True

lscfg 查看VPD信息Virtual Product Data)

# lscfg -vl ssa1

DEVICE LOCATION DESCRIPTION

ssa1 30-68 IBM SSA Enhanced RAID Adapter

(14104500)

Part Number097H0645

FRU Number097H0645 <-- 备件号

Serial NumberC8217227

EC Level0000F20825

ManufacturerIBM053

ROS Level and ID7201 <-- 微码版本

Loadable Microcode Level04

Device Driver Level00

Displayable MessageSSA-ADAPTER

Device Specific(Z0)DRAM=032

Device Specific(Z1)CACHE=0

Device Specific(Z2)000000062955dab2

Device Specific(YL)P2-I7 <-- 槽号

不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码

版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号

第3章    硬件故障定位方法

IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息Error Code 和SRNs

Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在I/O柜的显示面板上一系列信息

3.1  IPL 流程

当交流电源接到系统后IPL流程就开始了IPL流程包括四个步骤

Phase 1: Service Processor 的初始化

Phase 1 开始于交流电源接到系统后直到OK显示在I/O柜上的显示面板上为止

在这个步骤会显示8xxx 或9xxx checkpoints代码

Phase2:由ServiceProcessor引导的硬件初始化

Phase2开始于按下I/O柜上的白色电源开关在这个步骤会显示9xxx

checkpoints91FF是最后的代码标志着第三步骤的开始

Phase3:系统固件的初始化

在Phase3,一个系统处理器接管控制并继续初始化系统资源在这个步骤会显

示ExxxE105是最后的代码标志着第四步骤AIX启动的开始在这个过程中还会显示各种位置码位置码代表着系统的每一个部分Phase4:AIX启动当AIX开始启动时显示面板上的代码为0xxx同时位置码会出现在第二行当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现ErrorCode当系统运行有错误发现时一个8位码会显示在显示面板上同时在第二行显示相对应问题硬件的位置码SRNsServicerequestnumbers,服务请求码当系统运行有错误发现时SRNs码会以xxx-xxx的形式显示在显示面板上同时在AIX的errorlog中也会有记载以上所有代码都会有相应的步骤解决由于代码繁多请在出现问题后记录下代码并致电IBM服务热线

3.2  系统的启动顺序:

 

 

 

 

3.3  系统不能启动

系统停在Stage1可能为电源系统板CPU内存等硬件故障记录故障代码通知IBM工程师系统停在Stage2可能是启动顺序表(bootlist)损坏或I/O子系统故障可尝试进入SMS菜单检查启动顺序表并修改若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障若根本没有SCSI设备可选则链路有问题系统停在Stage3可能是硬盘数据损坏系统设置文件出错或I/O子系统故障

3.4  系统停在551555或557

发生在系统启动的第三阶段(Stage3)可能是

文件系统损坏

文件系统日志(jfslog)损坏

rootvg中有坏硬盘

修复方法

用系统光盘或系统备份带启动必须与硬盘中的操作系统版本一致

启动后选择选项3

"StartMaintenanceModeforSystemRecovery"

>"AccessaRootVolumeGroup"

>"Accessthisvolumegroupandstartashell

beforemountingthefilesystems"

格式化文件系统日志(jfslog)

#/usr/sbin/logform/dev/hd8

检查修复文件系统

#fsck -y/dev/hd1/home文件系统

#fsck -y/dev/hd2/usr文件系统

#fsck -y/dev/hd3/tmp文件系统

#fsck -y/dev/hd4/文件系统

#fsck -y/dev/hd9var/var文件系统

 

用exit命令退出文件系统会自动mount起来

重建bootimage

#lslv –m hd5找出bootimage所在的硬盘如hdisk0

#bosboot –ad /dev/hdisk0

#bootlist –m normal/dev/hdisk0重建启动顺序表

重启动系统

#shutdown -Fr

如上述步骤不奏效

用系统备份带恢复系统

如备份带不能恢复用诊断光盘DiagnosticCDROM检查是否坏硬盘

3.5  CDE图形界面挂死

CDE运行时不要更改网络参数如主机名和IP地址

更改网卡设置请先退出CDE图形环境选择命令行方式登录在字符界面下

更改

如CDE已经挂死

远程telnet登录

找出所有dt有关的进程用kill命令杀掉

#ps -ef|grepdt

 

#killPID

检查当前主机名

#hostname

tscf50

查看主机名是否对应有效的IP地址

#netstat -i|greptscf50

tr0*1500918540tscf5050604902824700

更改主机名或IP地址使主机名与当前有效的IP地址存在对应关系

#smittytcpip

重新启动CDE界面

#/etc/rcdt

HACMP环境下可把主机名alias到127001上

#cat /etc/hosts

127001_loopbacklocalhosttscf50#loopback(lo0)name/addressbvg

3.6  系统dump

发生在系统崩溃时AIX会做dump(系统内存的快照)

此时机器会显示闪动的888102xxx0cx代码

0c9系统dump进行中0c9状态可能会维持超过2分钟

不要关电和按reset,等待dump做完

0c0dump成功完成这时可以断电重起

0c2手动启动dump功能

0c4dump设备空间不足只有部分信息保存下来

0c5不明原因导致dump失败

一般dump是由于软件出错引起(888-102-207除外)机器通常可以重启重启

时可能提示用户插入磁带拷贝dump文件不要选择退出这样会丢失重要的故障信息

dump的有关设置

估算系统dump的大小在系统最繁忙时内存使用最多

#sysdumpdev -e

0453-041Estimateddumpsizeinbytes:53477376

#lsps -a

PageSpacePhysicalVolumeVolumeGroupSize%UsedActive

paging00hdisk0rootvg480MB1yes

hd6hdisk1rootvg544MB1yes

当前的设置

#sysdumpdev -l

primary /dev/hd6<--dump的主设备

secondary /dev/sysdumpnull

copydirectory /var/adm/ras<--dump拷贝的目录

forced copy flag TRUE

always allow dump TRUE

hd6应比估算值稍大

/var/adm/ras是默认的dump拷贝目录比较估算值保证/var文件系统有足够的

剩余空间拷贝dump文件否则机器重起时会提示用户插入磁带

dump文件名为vmcore#

对PCI机型如要手动做dump须把"alwaysallowdump"先设成true

#sysdumpdev -K

dump打包

#snap –a -o/dev/rmt#或

#snap –a -c把/tmp/ibmsupt目录做成一个压缩文件

snaptarZ如果/tmp文件系统空间不够

可用-ddirectory参数指定别的目录代

替/tmp/ibmsupt

第4章    7133-D40SSA磁盘柜的故障定位

当SSA磁盘柜出现故障时在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时

黄色的显示灯会闪动在AIX的errorlog中也会有记载错误信息如DISK_ERR1

DISK_ERR4SSA_ARRAY_ERROR等请在出现问题后记录下代码并致电IBM服务热

线

第5章    软件故障定位方法

软件故障情况错综复杂下面列举几个常见案例的故障处理方法

5.1  文件系统空间不够

查看有没有_满_的文件系统特别是//var/tmp不要超过90%文件系统

满可导致系统不能正常工作尤其是AIX的基本文件系统如/(根文件系统)满则

会导致用户不能登录用df_k查看

#df -k(查看AIX的基本文件系统)

Filesystem1024-blocksFree%UsedIused%IusedMountedon

/dev/hd424576145295%259922%/

/dev/hd26144002806896%2296715%/usr

/dev/hd9var8192454045%64932%/var

/dev/hd31679361579686%891%/tmp

/dev/hd116384533268%140235%/home

除/usr文件系统其他文件系统都不应太满一般不超过80%

处理方法1删除垃圾文件

#du -sk*|sort -rn|head

查找出当前目录下占空间最大的子目录逐层往下直到找出占空间最大的文件要

区分哪些目录是文件系统的mountpoint哪些是文件系统的子目录删除文件

释放空间有时删除文件后空间并不马上释放这是由于你删除的文件正被某个程

序打开只有当这个程序停止后空间才释放有时甚至需要重起系统

处理方法2增加文件系统大小

#smitty chjfs

文件系统可以在任何时候加大前提是卷组(VG)中有剩余空间

5.2  检查文件系统的完整性

#umount filesystem_name

#fsck –y filesystem_name

注意文件系统必须先umount再做检查和修复否则可导致未

知的后果

5.3  查看卷组信息(lsvg-lvg_name)

有没有"stale"状态的逻辑卷若有用syncvg命令修复"stale"逻辑卷

5.4  检查内存交换区(pagingspace)使用率(lsps-s)

使用率是否超过70%若有则用chps_sXpgname增加X个PP或用mkps –a -n

-sX myvg在myvg上增加一个PP数为X的内存交换区

5.5  小型机内存泄漏问题

小型机出现内存泄漏即系统或应用进程无法将使用过的内存释放使可用内存的容量逐渐减少如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程就会造成系统瘫痪通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势

(a) ps

#psgv|head-n1;psgv|egrep-v"RSS"|sort+6b-7-n-r|head-n5

PIDTTYSTATTIMEPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND

15674pts/11A0:01036108361723276852406240/tctestp

22742pts/11A0:00020748208123276852400140/backups

10256pts/1A0:00015628156923276852400110/tctestp

2064-A2:135646448xx063920040kproc

1806-A0:200166408xx063920040kproc

SIZE virtual size(in the paging space),in kilobytes,

RSS real-memory (resident set) size in kilobytes of the process

通过不同时间输出的比较就能观察出内存和CPU占用率的基本情况找出其中占用内存数不断变大的进程这个进程可能就已经发生了内存泄漏

(b)sar指令也可以查看CPU占用率但统计的结果不是很准确通常使用sar令

的格式为

#sar –P ALL 2 10

09:29:37cpu%usr%sys%wio%idle

09:29:39000495

110495

-00495

09:29:41002692

134291

-23492

09:29:43031294

122295

-21294

09:29:45022790

145686

-33688

09:29:47011296

112296

-11296

09:29:490000100

101099

-000100

09:29:51020098

101098

-10098

09:29:53071686

122590

-52588

09:29:550455635

11225532

-845533

09:29:5701681464

11591165

-1581264

Average0321085

143885

-42985

表示2秒钟输出一次结果总共有10次结果然后平均

目前如果发现内存泄漏最好重新启动系统

 

第6章    常用的系统状态查询命令

#lsdev –C -sscsi

列出各个SCSI设备的所有相关信息如逻辑单元号硬件地址及设备文件名等

#ps -ef

列出正在运行的所有进程的各种信息如进程号及进程名等

#netstat -rn

列出网卡状态及路由信息等

#netstat -in

列出网卡状态及网络配置信息

#df -k

列出已加载的逻辑卷及其大小信息

#mount

列出已加载的逻辑卷及其加载位置

#uname -a

列出系统ID号系统名称OS版本等信息

#hostname

列出系统网络名称

#lsvg –l rootvg, lsvg –p rootvg

显示逻辑卷组信息如包含哪些物理盘及逻辑卷等

#lslv -l datalv,lslv -p datalv

显示逻辑卷各种信息如包含哪些盘是否有镜像等

第7章    网络故障定位方法

7.1  网络不通的诊断过程

ifconfig查看网卡是否启动(up)

netstat -i查看网卡状态

Ierrs/Ipkts和Oerrs/Opkts是否>1%

ping自己网卡地址(ip地址)

ping其它机器地址如不通在其机器上用diag检测网卡是否有问题

在同一网中subnet mask应一致

7.2  网络配置的基本方法

(1)如需修改网络地址主机名等一定要用chdev命令

#chdev -l inet0 -a hostname=myhost

#chdev –l en0 –a netaddr='9324058' –a netmask=2552552550_

(2)查看网卡状态#lsdev -Cc if

(3)确认网络地址#ifconfig en0

(4)启动网卡#ifconfige n0 up

(5)_配置路由

有两种方式加入路由

永久路由

#chdev –l inet0-aroute=_104700_,_9324059_

临时路由

#route add 1047129324059

用命令netstat -rn查看路由表

第8章    HACMP环境下的排错

在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断和恢复的技巧是很重要的需要能很快地断定问题然后运用你对HACMP的理解来恢复HACMP的正常运作一般地,HACMP环境下的排错包括:了解问题的存在判断问题的出处

解决问题

8.1  了解问题的存在

您可以通过以下途径了解到一个CLUSTER环境下出现了问题

最终用户的投诉,他们无法访问应用程序

控制台上出现一些HACMP的信息

应用服务无法访问

最终用户的抱怨通常预示CLUSTER出现了问题他们无法正常执行应用或是无

法登录到系统我们必须采集到详细的信息以判断到底那里出现了问题是否有错误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始您也可以在自己的系统上重复要知道用户应用不可用并不代表HACMP有问题问题可能出现在应用程序本身或是它的启动或终止脚本出现了问题因此应用程序本身的排错也应是HA排错的一部分

2控制台上出现一些HACMP的信息

在HACMP启动,终止或出错时,控制台上会出现一些HACMP的信息,同时也会写

入相应的文件中

8.2  判断问题的出处

当错误出现时,我们应尝试发现错误的所在但我们常常被错误的表面所误导以下的步骤可以使我们得到更详细的信息

1保存好一些LOG文件(/tmp/hacmp.out&/tmp/cm.log)因为它们可能被覆盖

2仔细检查HACMP所产生的LOG文件它们能提供最初的判断线索

3用HACMP的工具和AIX的命令来检查HACMP的部件是否正常

4打开HACMP的跟踪工具来产生更详细的信息

HACMP的LOG文件:以下文件都是文本文件,可以用VI来看每个日志文件都含有

每个信息的产生时间

/usr/adm/cluster.log:记录了HACMP的状态,由HA的守护进程所产生

/tmp/hacmp.out:记录了HA的详细脚本

/usr/sbin/cluster/history/cluster.mmdd:记录了HA的各个事件的发生

/tmp/cm.log:由clstrmgr进程产生,每次HA重起时会被覆盖

HACMPFORAIX的结构

应用层

HACMP软件层

LVM&TCPIP层

AIX层

物理网络层

物理硬盘层

硬件层

在物理网络层,物理硬盘层,硬件层,LVM&TCPIP层,AIX层我们可以用AIX

系统命令来看是否硬件和系统出现了问题一般地,在用errpt命令来看没有类型为PH的错误,lsvg -o来看我们所须的VG已varyon,mount来看我们所须的文件系统已安装,netstat -i来看我们所须的serviceIP是UP的状态(或用ifconfig en*),cluster node之间的service与serviceIP,standby与standby IP互相可以ping通在各个节点上执行stty<

在第一时间保存好相关的日志文件,特别是那些会被覆盖的文件

尝试去重复问题的出现不要被用户所反映的问题迷惑

渐进地去重复问题,如果有多个可能导致问题的出现,一个一个地去重复,而不要一

次重复多个可能

不要凭经验来判断问题,而是要在各种测试后,由结果来判断

隔离问题的来源,根据我们上面所叙述的层次关系,至顶向下地诊断

由简到繁地做测试,我们先从一个简单的环境来做测试,不要尝试在一个复杂的环境中测试

一次做一次改动,否则我们无法知道是那个改动解决了问题

不要忽略各种可能,因小可失大,留心系统的每一个细节,包括电源,插头,连线等保持各种测试的记录以及解决的步骤,用做将来排错的参考

拨打技术支持工程师电话。