发信人: jiaxu2000(
)
整理人: terryh(2002-12-30 15:35:59), 站内信件
|
去年8月5日,星期天,下面单位有人打电话反映网络不通,让其用ping命令测试,发现故障在我公司三楼主机房的核心交换机上。这是FORE公司的带三层交换功能的核心交换机Power HUB 7000(PH7K),估计是当机了,只等周一上班重启。PH7K是通过ATM上联石油公司骨干网,其下划分了八九个子网,在双绞线和光纤下联了十多个单位几百台机器。
8月6日,周一上班重启PH7K后网络开始恢复正常,但不到半小时,网络又陷入了瘫痪状态。用ping测试网关时,time值有时超过1000ms并且时常有断点,系统重启、软启动和关电冷启几次仍是这种现象,网络时通时断,有时甚至PH7K自动重启。此时推断可能是PH7K硬件故障。因为此设备没有备件,只能看着网络瘫痪在那里,后想起FLUKE683网络测试仪可以查网络下三层的故障,死马就当活马医,看看具体是什么问题。
首先把FLUKE683接在了信息中心子网段的中心交换机上,此交换机用双绞线上联至PH7K。
用 Network Stats查看:Util:1-5%,Bacast:90-100%。
用Error Stats查看:没有错误。
(以上两项说明本网段硬件可能没问题。)
用MAC Matrix查看:前几个流量最大的MAC地址都是广播,而且还在不断迅速增加。
用Protocal Mix查看:ARP协议占95-99%,进一步查看发送ARP的具体MAC地址,发现前三个流量最大,约占80%。
记下地址,用Internet TCP/IP中的Segment Discovery查看:
Problem:None Seen(没有问题)。
Local Hosts:查3个MAC的IP:一个IP是网关(即PH7K),另两个IP是信息中心软件二室的机器。软件二室的所有机器是通过一个HUB上联至信息中心的一个交换机,断掉软件二室的HUB后整个网络有明显好转。
(以上工作说明核心路由PH7K的硬件没有问题,造成网络瘫痪是由于某些机器发出大量数据包所至,PH7K发出的大量广播包也是转发其它机器的数据所致,因此工作重心开始由PH7K转向其下的各个子网。)
用NIC/HUB Tests测试软件二室两台机器的网卡,结果网卡没问题,同时软件二室的机器之间通过HUB仍能互相通信。
(这说明故障出现在软件方面而非硬件,一种可能是系统进程出了问题,但不应该两台以上的机器同时出了毛病,另一种可能是病毒。)
用瑞星杀毒软件(12.34版)杀毒,没有发现病毒,上瑞星网站查看最新版仍是12.34,也没有发布新病毒,最后,重启两台机器,用FLUKE683再测ARP已明显减少。(此时只能怀疑进程出了问题,这就是第一天的检查结果)接下来的工作就是利用FLUKE683查找其它网段发送大量ARP的机器,这时网络仍然时好时坏,运行很不稳定。
8月7日,星期二,PH7K下的各个子网有的是用双绞线与其上联,有的是用单模或多模光纤上联,用FLUKE683对各网段进行逐一排查,发现大量的ARP仍是来自上联口PH7K,问题又集中到了PH7K。这期间用FLUKE683测试软件二室被断掉的小网,发现那两台机器又开始发送大量的ARP广播,如果重启只会正常一段时间,过后现象依旧。
使用FLUKE IP协议分析软件对ARP帧解析时发现,其请求的都是未在线的IP地址(在线的IP都做了应答),通过对在线单机的防火墙拦截日志发现,通过ATM骨干网来自其它网段IP的大量80端口请求(Web请求),其中也有本网段IP的80端口请求。
问题查到这里可以断定:有人在大量攻击Web服务器,一些被感染黑客病毒的机器也在大量攻击Web服务器,但这些攻击对HUB和交换机并不产生影响,大量数据只导致核心路由拥塞,造成整个网络瘫痪。
查清这些问题已是周三下午,为了证实上述推断,断掉PH7K的ATM上联光纤链路,PH7K安安静静地工作了一夜,未出任何异常。
8月9日,星期四,经过石油公司信息中心证实,网上正在流行一种叫红色代码的病毒,是它造成了整个网络的瘫痪,让我忙活了几天。这时再上瑞星网站查看,它也公布了红色代码的现象、原理以及解决方案等相关信息,杀毒软件的版本也升级到了12.36。接下来的事情就是各单位自扫门前雪,查杀自己单位染毒机器,给系统打补丁。
至此,这个网络故障终于解决了,全过程FLUKE683起了很大作用。
转自《网络故障诊断实用手册》 作者 王广道
----
你是风儿我是沙,你不封我我自杀。 |
|