不知不覺離上次Post已經是半年,說來話長,一句話總結來說:工作真的是太忙啦。計劃中的CCSP,連課本都沒粘過手,真是汗顏~
自從上一年12月份開始,工作就開始忙,主要的還是公司的內部網絡進行調整升級,在過程中發生了一個很意外的意外,而公司的網絡就癱瘓了。雖然是屬於內部網絡,但是涉及到外面店鋪,一小段時間內無法連接到公司內部的服務器,影響也是蠻大的。看著VP從樓上很緊張的下來了解情況,他...已經跑了第3趟了,而我們已經是連續24小時沒有休息過。一直到第二天的晚上11點,情況稍微好了一點,和負責升級的Vendor商量好對策,才能回家。
到現在已經是3個多月了,期間一直在找網絡癱瘓的原因,很多時候都要通宵去工作。因為白天無法去進行調整,會影響到店鋪和公司的運作,只能在晚上去做。但公司里面有超過200臺的服務器,在晚上都需要備份與其他的工作,所以可以說是整個公司的IT同事都要出動,在網絡整修之後,進行各類的檢查。在壓力之下,我是已經累得不像是個人了~唉,誰叫你是唯一的Network Admin~我的名字從此在公司中不再陌生 -_-''
其實網絡升級的最主要動作是,對於2部核心的交換機6509進行軟件升級,從CatOS升級到IOS版本。因為風險的緣故,不能一次性地升級2部,只能升級一部後,運行穩定後,再去升級另一部。但由於負責的Vendor對於升級的風險沒有正確的評估,事前也沒有進行詳細的檢查,結果導致了這次問題的出現。他們自己對整個項目Under-estimate,虧錢了,但真正受害者卻是我們!
當然我們自己不會把全部的責任都推給他們,對於本身網絡熟悉程度不高,也是自身的過失。但這個Vendor的確太多的想當然了,而且一開始的時候沒有派經驗較好的RS的人來做,卻是來個專門做Voice的,沒有試過6509的升級。現在回想起,當初怎么這么傻會給他做呢?過後還在那指指點點,說甚麼癱瘓的主要原因是網絡中存在Loop,Access Layer交換器沒有正確地設置等等。
爾后用了很長一段時間,對公司內部網絡的徹底檢查之後,移除了一些連接的Hub,重新設置Access Layer交換器,把疑似Loop的情況也移除掉了,但最後問題還是一樣存在。這里說明一下升級後所產生的問題,主要是同一個Vlan不同交換機中的Host有時候無法互相溝通,在6509中不存在相關Host的Mac-Address,這才是最致命的原因(而不同Vlan溝通卻沒有問題)。
這個Vendor到現在也沒有給出真正的原因來,我們也不想再去深究,與他們探討了。大約在1月份的時候,我們自己發現VTP Pruning才是主要的原因,而最後也得到證實。Scenario大概就是這樣子的:
連接 6905 <-> 2950 <-> 3548 (交換器類型沒有關系的,只是方便分辨而已)
(1) 6509是VTP Server,VTP Pruning Enable,有全部的Vlan,例如:Vlan 10與20
(2) 2950是VTP Server或者Transparent,只用Vlan10
(3) 3548是6509的VTP Client,只用Vlan20
(4) 三者之間都用Trunk連接起來,用Trunk allow vlan all
結果就是因為6509有了VTP Pruning Enable的原因,只與3548VTP Client的Vlan20有聯系,認定連接下面只有Vlan20,而阻止了去2950的Vlan10的broadcast。這就造成了同一個Vlan不同交換機之間有時候無法溝通的後果了。
現在項目已經接近尾聲了,昨天晚上進行第二階段的升級,剩下的就在下個星期五設置就完成了。回想一下,整件項目中,最大得益的似乎是我,雖然很累但卻得到了不少珍貴的經驗。再次向著NP與SP前進吧!
沒有留言:
發佈留言