solaris系统panics故障实例与解决

发表于:2007-06-08来源:作者:点击数: 标签:
这是一台运行地震反演软件的sunultra80工作站,去年一段时间以来系统频繁宕机多达21次,每次自动重启时,用户反演作业常常因未来及存盘遭受数据丢失,只能重做。尤其去年七、八月份,有时系统一天不定时自动重启多次,用户根本无法在本机上工作,许可证也无

这是一台运行地震反演软件的sun ultra80工作站,去年一段时间以来系统频繁宕机多达21次,每次自动重启时,用户反演作业常常因未来及存盘遭受数据丢失,只能重做。尤其去年七、八月份,有时系统一天不定时自动重启多次,用户根本无法在本机上工作,许可证也无法取用,直接影响了用户使用反演软件进行的科研生产工作。
该问题自解决以来,经过多次不断的跟踪及回访,故障不复再现,今将这一故障现象进行归纳总结,供各位网友参考,希望从中得到帮助。

一、故障现象及分析
该工作站的不定时自动重启有着比较特殊的现象:没有规律、没有预兆。对用户的影响也是最致命的---不仅是作业失败,甚至会导致数据库被破坏。针对这一系统故障现象进行了认真的分析,通过查找错误日志,找出了系统报出的“Panics”错误。当系统自动重启时,/etc/rc2.d/S75savecore 实用程序会把这些信息卸载到文件系统/var/crash/`hostname`/目录下,便于系统管理员进行故障分析和故障定位,21次Panics错系统自动产生的文件如下:
-rw-r--r--   1 root     root      634041 Feb  3  03:20 unix.0
………………………
-rw-r--r--   1 root     root      620121 Aug 7   12:35 unix.16
………………………
-rw-r--r--   1 root     root      622218 Aug 12  09:25 unix.21

-rw-r--r--   1 root     root      181395456 Feb  3  03:20 vmcore.0
………………………
-rw-r--r--   1 root     root      237830144 Aug 7   12:35 vmcore.16
………………………
-rw-r--r--   1 root     root      168732916 Aug 12  09:25 vmcore.21

二、Panics错误类型分析
依据系统提供的技术资料,Panics错误具有两种典型的错误类型:
第一类:系统自动重启(reboot)
这类错误是指系统在执行过程中遇到一条非法指令无法继续执行下去,为避免错误的扩大而采取的保护措施,这种非法指令的访问可由来自于主板、内存、显卡等很多因素,也可能是系统对某一硬件支持存在BUG;若硬件自身没问题,有时操作系统存在某些缺陷,也会导致此类故障的发生。
第二类:系统挂起(system hang)
这类错误现象是系统不接受任何指令,大多属于用户应用程序存在错误而耗尽了系统资源所致。
从故障现象分析我们判断,该机器呈现的故障属于第一类情况。

      三、故障的研究与解决
通过对系统内核故障卸载的文件unix.16 和 vmcore.16分析研究,解决了装有地震反演Jason软件的sun工作站系统运行不稳定问题。
针对系统重启(reboot)故障,为了找出有效的故障处理方法,我们认为应该从分析系统发生故障所卸载的错误信息入手,利用系统中提供的调试工具,(如:adb、crash等)进行错误分析,根本无法找出解决问题的方法。最终在sunsolve网站上找到一个用于分析Panics错误所产生的DUMP文件的软件---Act(Automated Crash Analysis Tool)。

1  act 软件的安装配置
该软件的安装会在/etc/rc2.d中产生S76ACT_dumpscript脚本配置文件,便于日后跟踪分析。
详细安装过程(略)
2  运行Act软件进行代码分析,并将分析结果存放于act.16文件中
# cd /var/crash/`hostname`
# /opt/CTEact/bin/act –n unix.16 –d vmcore.16 > act.16 
3  对软件的结果进行分析,提取故障信息关键字
# more act.16
   该文件信息很多,摘录其中的部分信息为:
System booted at: 2003 Aug  7 01:09:37 GMT
System crashed at: 2003 Aug 7 12:33:14 GMT
Crash dump started at: 2003 Aug 7 12:34:54 GMT
panic: BAD TRAP: type=%x rp=%p addr=%p mmu_fsr=%x oclearcase/" target="_blank" >ccurred in module“%s”due to %s
SunSolve search string:                                         ### SUNSOLVE ###
[ifb_kernel_dma_cmd_data trap type 31 (data mmu miss)](其中ifb为3D显卡逻辑设备名)
从软件分析结果中提取出故障关键字: [ifb_kernel_dma_cmd_data trap type 31 (data mmu miss)],得到的结论是:目前的SunOS 5.8 Generic_108528-11 kernel版本对X Window 及3D显卡的支持仍存在bug,该工作站使用的显卡是Elite3D Graphics和Expert3D Graphics,由此得出故障处理的方法是对这台工作站下载最新补丁(patch)以解决对显卡的支持问题。
需要的补丁文件如下:
108569-08、108604-32、108605-33、108606-31、108576-41、108714-05、108773-08。
4  故障的解决方法
首先download所有补丁文件,再利用系统提供的pkgadd或patchadd实用程序解包并安装、效验。

    四、技术关键
1 、 系统错误的定位及分析
2 、 故障类型的确定及处理方法
3 、ACT软件的开发与应用

 race 回复于:2004-05-31 18:02:04
我的同行水平都这么高,学习学习。

messages里面没什么错误提示吗?

补丁打完之后一直没出现类似错误?

jason没提供这些补丁?

 nimysun 回复于:2004-05-31 18:03:50
这样的问题,我很长时间都没有解决了。终于遇到一个比较详细的方案和步骤了。谢谢了。

 bear 回复于:2004-05-31 18:07:32
不错的事例,我是搞售后的,深深知道,patch是解决很多问题的关键。
建议在碰到莫名其妙的问题的时候首先考虑补丁的问题。

 大海剑侠 回复于:2004-05-31 18:21:00
肯定地说打完补丁再没出现类似错误
从messages文件里可以搜索到系统频繁启动机器的信息

 iamark 回复于:2004-05-31 22:24:10
所以新装系统的时候一定要把补丁打全了。

 我爱臭豆腐 回复于:2004-06-01 07:50:37
不打补丁是要死人的:( 但是每次新的机器打补丁都时间太长了。

 我爱臭豆腐 回复于:2004-06-01 07:51:46
如果是在线已经运行的系统上面在打补丁的话。应该是更加的小心。有的时候打完补丁可能会出现一些意想不到的事情。特别是那些机器常年不关闭的。有的时候在重新启动的时候就完蛋了。

 bj_solarisfan 回复于:2004-06-01 08:37:10
不错,很厉害,

 mzp 回复于:2004-06-01 09:28:22
very good.

 zhou610 回复于:2004-06-01 11:12:40
我在sunsolve上不知道怎么才能找到这个软件,能不能提供一下下载地址啊,谢谢了!!

 brucewoo 回复于:2004-06-01 11:35:06
大长见识,好东西

 toperos 回复于:2004-06-01 11:48:02
zhou610 发表于: 2004-06-01 11:06    发表主题: 大海剑侠 , 能不能把那个软件下载的地址给我一下啊,谢谢!! 

--------------------------------------------------------------------------------
 
我在sunsolve上不知道怎么才能找到这个软件,能不能提供一下下载地址啊,谢谢了!!  
 
 
这个软件在EIS-CD中,执行setup-standard.sh 的时候会问你要不要安装。
看来以后这个软件最好还是安装了,呵呵。

 superwater 回复于:2004-06-01 13:48:26
佩服楼主对这个问题的深入分析和研究,向楼主学习!

 Philmoon 回复于:2004-06-01 14:58:19
谢谢楼主!
我们在分析类似问题时曾怀疑过显卡问题,但无法确切定位,终于找到一条大道了!

 Philmoon 回复于:2004-06-01 15:10:09
谢谢楼主!
我们在分析类似问题时曾怀疑过显卡问题,但无法确切定位,终于找到一条大道了!

 mazu 回复于:2004-06-01 17:31:24
向楼主致敬,向大虾致敬  :em02:  :em02:  :em02:

 wujunatsh 回复于:2004-06-03 18:51:51
各位老大,本人实在是找不到你们所说的ACT工具,十分郁闷。网上实在是找不到啊。帮帮忙啦!

 paradisegame 回复于:2004-06-03 19:29:12
不建议打补丁!!!!牺牲速度!!!!sun强调的就是速度!!所以还是要从根本解决问题!!

 www.pctint.com 回复于:2004-06-03 20:45:32
学习。。收藏!!

 koukou 回复于:2004-06-03 20:56:55
好,顶

原文转自:http://www.ltesting.net