網路故障診斷與排除



贊助商連結


milwater
2002-01-11, 11:31 AM
本文轉載自天极网 (http://www.yesky.com/20010927/199227.shtml),
原文為大陸網站之簡體字, 翻譯成繁體字後文法可能還是有些不同, 希望大家看得懂..^^b

==============================================================================

近年來,網路熱潮不斷上漲,最典型的例子就是網吧的層出不窮和網民數量的不斷上升,不管你是用DDN、ADSL、ISDN或者家堛漱p貓,網路中可能出現的故障總是多種多樣,往往解決一個複雜的網路故障需要廣泛的網路知識與豐富的工作經驗(要不CCIE、MCSE怎能那么紅呢)。:D

  一個成熟的網路管理機構一般都制定有一整套完整的故障管理日誌記錄機制,同時人們也率先把專家系統和人工智慧技術引進到網路故障管理中心。但對於大多數初學網路的人來說,這未免有點過於複雜,不過沒關係,我來幫大家總結一下網路故障診斷和排除的方法和經驗,供各位網管參考。

  我們可以根據網路故障的性質把網路故障分爲物理故障與邏輯故障,也可以根據網路故障的物件把網路故障分爲線路故障、路由故障和主機故障。
下面首先介紹按照網路故障不同性質而劃分的物理故障與邏輯故障。

1.物理故障
  物理故障指的是設備或線路損壞、插頭鬆動、線路受到嚴重電磁干擾等情況。比如說,網路管理人員發現網路某條線路突然中斷,首先用ping或fping檢查線路在網管中心這邊是否連通。

  ping的格式爲:ping www.cisco.com或ping 192.168.0.1 (192.168.0.1是IP地址,可以是主機的IP也可以是網路中另一台電腦的IP)。ping一般一次只能檢測到一端到另一端的連通性,而不能一次檢測一端到多端的連通性,但fping一次就可以ping多個IP地址,比如C類的整個網段地址等。順便多說一句,網路管理員經常發現有人依次掃描本網的大量IP地址,不一定就是有黑客攻擊,fping也可以做到。如果連續幾次ping都出現"Requst time out"資訊,表明網路不通。這時去檢查埠插頭是否鬆動,或者網路插頭誤接,這種情況經常是沒有搞清楚網路插頭規範或者沒有弄清網路拓撲規劃的情況下導致的。

另一種情況,比如兩個路由器Router直接連接,這時應該讓一台路由器的出口連接另一台路由器的入口,而這台路由器的入口連接另一路由器的出口才行。當然,集線器Hub、交換機、多工器也必須連接正確,否則也會導致網路中斷。還有一些網路連接故障顯得很隱蔽,要診斷這種故障沒有什么特別好的工具,只有依靠經驗豐富的網路管理人員了。

2. 邏輯故障
  邏輯故障中最常見的情況就是配置錯誤,就是指因爲網路設備的配置原因而導致的網路異常或故障。配置錯誤可能是路由器埠數設定定有誤,或路由器路由配置錯誤以至於路由迴圈或找不到遠端位址,或者是路由遮罩設置錯誤等。比如,同樣是網路中的線路故障,該線路沒有流量,但又可以ping通線路的兩端埠,這時就很有可能是路由配置錯誤了。遇到這種情況,我們通常用“路由跟蹤程式”就是traceroute,它和ping類似,最大的區別在於traceroute是把端到端的線路按線路所經過的路由器分成多段,然後以每段返回回應與延遲。如果發現在traceroute的結果中某一段之後,兩個IP地址迴圈出現,這時,一般就是線路遠端把埠路由又指向了線路的近端,導致IP包在該線路上來回反復傳遞。幸好traceroute可以檢測到哪個路由器之前都能正常回應,到哪個路由器就不能正常回應了。這時只需更改遠端路由器埠配置,就能恢復線路正常了。

  邏輯故障的另一類就是一些重要進程或埠關閉,以及系統的負載過高。比如也是線路中斷,沒有流量,用ping發現線路埠不通,檢查發現該埠處於down的狀態,這就說明該埠已經關閉,因此導致故障。這時只需重新啓動該埠,就可以恢復線路的連通了。還有一種常見情況是路由器的負載過高,表現爲路由器CPU溫度太高、CPU利用率太高,以及記憶體剩餘太少等,如果因此影響網路服務質量,最直接也是最好的辦法就是——更換路由器,當然換個好點的。(如果你有銀子的話)

網路故障根據故障的不同物件也可以劃分爲:線路故障、路由故障和主機故障。

1. 線路故障
  線路故障最常見的情況就是線路不通,診斷這種情況首先檢查該線路上流量是否還存在,然後用ping檢查線路遠端的路由器埠能否回應,用traceroute檢查路由器配置是否正確,找出問題逐個解決。方法在前面已經提過,這奡N不多說了。

2. 路由器故障
  事實上,線路故障中很多情況都涉及到路由器,因此也可以把一些線路故障歸結爲路由器故障。檢測這種故障,需要利用MIB變數瀏覽器,用它收集路由器的路由表、埠流量資料、計費資料、路由器CPU的溫度、負載以及路由器的記憶體餘量等資料,通常情況下網路管理系統有專門的管理進程不斷地檢測路由器的關鍵資料,並及時給出報警。而路由器CPU利用率過高和路由器記憶體餘量太小都將直接影響到網路服務的質量。解決這種故障,只有對路由器進行升級、擴大記憶體等,或者重新規劃網路拓撲結構。

3. 主機故障
  主機故障常見的現象就是主機的配置不當。像主機配置的IP位址與其他主機衝突,或IP地址根本就不在子網範圍內,由此導致主機無法連通。主機的另一故障就是安全故障。比如,主機沒有控制其上的finger,RPC,rlogin等多餘服務。而攻擊者可以通過這些多餘進程的正常服務或bug攻擊該主機,甚至得到Administrator的許可權等。還有值得注意的一點就是,不要輕易的共用本機硬碟,因爲這將導致惡意攻擊者非法利用該主機的資源。發現主機故障一般比較困難,特別是別人惡意的攻擊。一般可以通過監視主機的流量、或掃描主機埠服務來防止可能的漏洞。最後提醒大家不要忘了安裝防火牆,因爲這是最省事也是最安全的辦法。