思科最佳實踐是一組規範化的文檔,提供有關思科產品和解決方案的網路運營的相關和可靠指導。這些領先實踐由屢獲殊榮的思科TAC和高級服務工程師開發和支援,您可以利用這些工程師建立您自己的領先實踐集進行模擬。思科客戶已在其網路環境中應用這些領先實踐,以獲得網路效能和可用性。
強烈建議使用思科及其合作夥伴提供的服務來補充這些領先實踐。有關如何最佳化網路效能和可用性的詳細資訊,請聯絡您的服務銷售代表,瞭解思科高級服務網站,瞭解有關網路最佳化支援-重點工程支援、網路可用性改進支援(NAIS)、軟體管理流程評估(SMPA)和NAIS-SMPA實施的詳細資訊。
圍繞軟體管理的操作流程有助於降低網路複雜性,減少被動支援問題,縮短解決問題的時間。本文檔提供總體管理Cisco IOS®軟體(Cisco IOS)的策略、工具建議和最佳實踐。
本文檔中的建立Cisco IOS管理操作策略和遵循最佳實踐Cisco IOS管理操作過程部分討論用於入門的推薦方法以及用於操作階段的最佳工具。運營階段包括以下方面的最佳實踐流程:
程序 | 說明 |
---|---|
軟體版本控制 | 跟蹤、驗證和改進已辨識軟體「跟蹤」內的軟體一致性。 |
故障管理 | 主動監控並根據Cisco IOS生成的更高優先順序SNMP和Syslog消息採取行動。 |
問題管理 | 快速有效地收集軟體相關問題的關鍵問題資訊,以防止將來再次發生此類問題。 |
組態標準化 | 「標準化」配置,以減少在生產中執行未經測試的代碼的可能性,並使網路協定和功能行為標準化。 |
可用性管理 | 根據指標、改進目標和改進專案提高可用性 |
本文檔假定您已為Cisco IOS的規劃、設計和實施實施了以下最佳實踐流程:
根據平台、模組、功能、協定和拓撲要求,確定環境中的可管理軟體區域(軟體路徑)。
根據軟體路徑選擇、認證和傳達的Cisco IOS版本。
在每個軟體路徑中一致實施標準Cisco IOS版本。
本部分幫助您管理和維護已定義的路徑內的標準化Cisco IOS版本。您將學習如何:
開發軟體版本控制流程,以確保所辨識軟體路徑內的軟體版本一致性。
根據裝置故障管理消息和警報(SNMP/Syslog)監控、通知和解決流程,幫助主動解決潛在的軟體和故障問題。
有效收集軟體的重要問題資訊,協助縮短軟體相關問題的問題解決時間。
標準化裝置配置,幫助確保環境的協定、功能、訪問和安全一致性。
本文檔適用於負責網路日常運行並具有技術指導的個人和管理人員。本文檔介紹如何建立操作流程,透過構建網路一致性和改進主動故障管理功能,幫助您降低網路複雜性、減少被動支援問題並縮短解決問題的時間。
參與Cisco IOS管理操作的人員應具備網路基礎設施設計和管理的紮實知識,尤其是使用思科裝置的相關知識,並且必須能夠訪問目標網路的拓撲、裝置配置、活動配置檔案、應用使用以及資源利用策略的詳細資訊。此外,還需要訪問Cisco Connection Online (CCO)上提供的資訊工具並使用這些工具。如果您尚未向CCO註冊,我們建議您這樣做以訪問本文檔中介紹的工具。
許多高品質策略和工具可以幫助管理Cisco IOS環境。本章重點介紹在高可用性環境中管理Cisco IOS運營的三個主要策略,並包括一系列特別有助於管理Cisco IOS和Cisco IOS問題的主要運營工具。
第一個關鍵策略是儘可能保持環境簡單,儘可能避免配置和Cisco IOS版本中的變化。已經討論了Cisco IOS認證,但配置一致性是另一個關鍵領域。架構/工程小組應負責建立配置標準。然後,實施和操作組負責透過Cisco IOS版本控制和Cisco IOS配置標準/控制來配置標準並維護標準。
第二個關鍵策略是能夠辨識和快速解決網路故障。運營團隊一般應在使用者報告網路問題之前發現這些問題,並且應儘快解決問題,而不會進一步影響或改變環境。此領域的兩個關鍵最佳做法是問題管理和故障管理(本文檔稍後將介紹這兩個做法)。
注意:Cisco IOS堆疊解碼器工具可用於幫助快速診斷Cisco IOS軟體崩潰。
第三項關鍵戰略是「持續改進」。主要流程是改善以品質為基礎的可用性改善計畫。透過對所有問題(包括Cisco IOS相關問題)執行根本原因分析,組織可以改進測試覆蓋範圍、縮短問題解決時間,並改進消除或減少中斷影響的流程。組織還可以檢視常見問題並構建流程以更快地解決這些問題。
思科IOS軟體管理操作流程交付的內容包括:
軟體版本控制流程和工具
故障管理監控和流程
問題管理流程
裝置配置標準和稽核流程
網路可用性方法、報告和審查流程
度量應定義為運營計畫的一部分,並用於確定工具和流程是否正在產生預期結果。以下是一些有用的Cisco IOS軟體管理指標的示例:
網路可用性(由於軟體問題)
符合標準的Cisco IOS版本百分比(基於每個路徑)
%裝置配置一致性(基於標準)
問題管理指標(MTTR、故障單數量、關閉代碼)
確定、確認和彙集來自網路架構、網路工程和實施/運營團隊的跨職能部門經理和/或銷售線索,幫助確保您的IOS升級專案的規劃、設計、實施和運營階段取得成功。
從網路管理、網路工程、實施和運營團隊中組建一個跨職能部門的經理和/或領導團隊,幫助完成Cisco IOS管理專案的運營階段。
網路管理員:
經理姓名、部門、聯絡資訊
主要備份名稱、部門、聯絡資訊
輔助備份名稱、部門、聯絡資訊(如果需要)
網路架構師:
架構師姓名、部門、聯絡資訊
主要備份名稱、部門、聯絡資訊
輔助備份名稱、部門、聯絡資訊(如果需要)
網路工程師:
工程師姓名、部門、聯絡資訊
主要備份名稱、部門、聯絡資訊
輔助備份名稱、部門、聯絡資訊(如果需要)
網路運營(NOC)工程師:
工程師姓名、部門、聯絡資訊
主要備份名稱、部門、聯絡資訊
輔助備份名稱、部門、聯絡資訊(如果需要)
網路管理員負責:
維護專案計畫
指派/重新指派資源
管理變更控制
管理進度
管理預算報告
網路架構師負責:
分析網路標準和版本警告
維護軟體升級表
維護候選管理矩陣
維護記憶體需求表
網路(NOC)工程師負責:
實施並確保遵守網路標準
確定軟體問題和根本原因
建議更正操作
監控網路
應在業務階段確定所需資源,以支援本組織的軟體管理戰略。這將包括支援軟體戰略所需的人員時間和資本支出。
在許多情況下,可以根據停機時間的成本和可用性要求生成軟體管理實踐的投資回報(ROI)或預算計畫。如果組織能夠確定軟體問題導致的停機時間,則可以透過確定的軟體管理最佳實踐來抵消此成本的大部分。如果成本無法完全抵消,組織應考慮採用更基本的軟體管理策略,透過防止因軟體問題而產生額外返工,幫助提高生產效率。
遵循Cisco IOS管理操作流程的最佳實踐包括:
最佳實踐 | 詳細資訊 |
---|---|
軟體版本控制 | 僅實施標準化的軟體版本並監控網路,以驗證軟體或可能因不符合版本而更改軟體。 |
故障管理 | SNMP和Syslog消息收集、監控和分析是推薦的故障管理流程,用於解決難以或無法通過任何其他方式辨識的Cisco IOS特定網路問題。 |
問題管理 | 詳細的問題管理流程,用於定義問題辨識、資訊收集以及經過充分分析的解決方案路徑。此資料用於確定根本原因。 |
組態標準化 | 配置標準代表建立和維護跨類似裝置和服務的標準「全局」配置引數的實踐,從而實現企業範圍的全局配置一致性。 |
可用性管理 | 使用網路可用性作為品質改進指標的品質改進。 |
軟體版本控制是僅實施標準化軟體版本並監控網路的過程,以驗證或可能由於不符合版本而更改軟體。一般而言,軟體版本控制是使用認證程式與標準控制來完成的。許多組織都在中央Web伺服器上發佈版本標準。此外,實施人員還接受培訓,以審查正在運行的版本,並在版本不符合標準時對其進行更新。有些組織有品質閘道程式,透過審計完成二級驗證,以確保標準在實施過程中得到遵守。
在網路運行期間,在網路中看到非標準軟體版本的情況也並不少見,尤其是當網路規模較大、運行人員較多時。這可能是下列其中一項原因:
未經培訓的新員工
啟動命令配置錯誤
未檢查的實作
建議使用可按Cisco IOS版本對所有裝置進行排序的工具(如CiscoWorks2000 Resource Manager Essentials (RME))定期驗證軟體版本標準。辨識出非標準版本時,應立即標籤該版本,並啟動故障單或變更單以使該版本符合所辨識的標準。
可用工具
CiscoWorks2000 RME Inventory manager透過基於網路的報告工具(根據軟體版本、裝置平台和裝置名稱報告和排序裝置),大大簡化了Cisco路由器和交換機的Cisco IOS版本管理。
故障管理是收集、監控和分析SNMP和Syslog消息的過程,用於解決更多難以或無法通過其他方式辨識的Cisco IOS特定網路問題。
SNMP陷阱收集
SNMP陷阱收集和通知是故障管理中的一個基本過程,用於辨識軟體或硬體事件和/或崩潰,而不會產生SNMP輪詢開銷或輪詢間隔延遲。陷阱消息直接從網路裝置生成到提供通知服務的網路管理系統。收集並通知這些陷阱對於快速解決許多網路事件至關重要,包括不影響使用者的事件,如主裝置或冗餘環境中的鏈路丟失。
為了收集和監控這些陷阱,必須在裝置和網路管理系統上正確配置陷阱。收到陷阱後,網路管理系統應通知網路操作組。然後,通知可以在NOC環境中以分頁、電子郵件或事件螢幕的形式出現。
無論資料如何顯示,網路運營人員和/或網路支援人員都必須定期(最好每天)分析和審查這些故障例項或例外。應該調查發現的所有異常的原因。某些記錄的異常可能並不嚴重,無法立即在網路運營中心發出警報。主動審查、調查和解決次要異常有助於網路支援團隊減少或防止網路中斷。
系統日誌消息收集
系統日誌消息由裝置傳送到收集伺服器。這些消息可能是硬體或軟體錯誤,也可能是資訊性消息(例如,當有人在裝置上配置終端時)。
系統日誌監控需要網路管理系統(NMS)工具支援或指令碼來幫助分析和報告系統日誌資料。其中包括按日期或時間段、裝置、系統日誌消息型別或消息頻率對系統日誌消息進行排序的功能。在大型網路中,可以實施工具或指令碼來分析系統日誌資料,並向事件管理系統或運營人員和工程人員傳送警報或通知。如果未使用各種系統日誌資料的警報,組織應至少每天檢視更高優先順序的系統日誌資料,並為潛在問題建立故障單。為了主動檢測透過正常監控可能無法看到的網路問題,應定期檢視和分析歷史系統日誌資料,以檢測可能未指示立即問題,但可能在問題變為影響服務之前提供問題的指示的情況。
可用工具
一些比較常用的SNMP陷阱接收器工具包括:
惠普Hewlett Packard提供的HP OpenView Network Node Manager,地址為openview.hp.com
Aprisma提供的頻譜完整性,請訪問www.aprisma.com
IBM Tivoli的NetView,網址為www.tivoli.com
CiscoWorks2000 RME系統日誌管理器是最常用的Cisco IOS管理系統日誌工具。其他可用的工具包括SL4NT、www.netal.com的共享軟體程式cisco.com和OpenSystems的專用I,網址為www.opensystems.com
問題管理是故障管理的一個方面,是從問題的出現時刻開始,到辨識、故障排除、解決和關閉的全過程。
許多客戶因缺乏問題管理流程而經歷額外的停機時間。如果網路管理員嘗試結合使用影響服務的命令或配置更改來快速解決問題,而不是花時間辨識問題、收集資訊並深入分析解決方案路徑,則可能會出現額外的停機時間。在此區域觀察到的行為包括重新載入裝置或在調查問題及其根本原因之前清除IP路由表。在某些情況下,這是因為第一層支援問題解決目標。所有軟體相關問題的目標應該是在恢復連線或服務之前快速收集根本原因分析所需的必要資訊。
建議採用問題管理過程,在將問題升級到第二級支援之前,應包含一定程度的預設問題說明和相應的「show」命令集合。第一級支援絕不能包括清除路由或重新載入裝置。理想情況下,第一級支援組織應快速收集資訊,然後將問題上報給第二級支援。透過在第一級支援中多花一點時間來辨識和描述問題,根本原因發現的可能性會大大增加,從而允許採用解決方法、實驗室辨識和錯誤報告。第二級支援應精通思科可能需要診斷問題或提交錯誤報告的資訊型別,包括:
記憶體轉儲
路由資訊輸出
Device show命令輸出
全球裝置配置標準代表跨類似的裝置和服務維護標準「全局」配置引數的做法,從而實現企業範圍的全局配置一致性。全局配置命令是應用於整個裝置(而不是應用於單個埠、協定或介面)的命令,通常會影響裝置訪問、一般裝置行為和裝置安全。在Cisco IOS中,這包括下列命令:
服務
IP
VTY
控制檯埠
記錄
AAA/TACACS+
SNMP
橫幅
在全局裝置配置標準中同樣重要的是適當的裝置命名約定,管理員可以使用該約定根據裝置的DNS名稱確定裝置、裝置型別和裝置位置。全局配置一致性對於網路環境的整體可支援性和可靠性非常重要,因為它有助於降低網路複雜性並提高網路可支援性。由於裝置行為不正確或不一致、SNMP訪問和一般裝置安全,通常在沒有配置標準化的情況下會遇到支援困難。
維護全局裝置配置標準通常由內部工程或操作組完成,該組為類似網路裝置建立並維護全局配置引數。在TFTP目錄中提供全局配置檔案的副本也是一種很好的做法,這樣最初就可以將它們下載到所有新調配的裝置。此外,Web可存取的檔案也十分有用,該檔案可為標準組態檔案提供每個組態引數的說明。某些組織會定期配置所有類似裝置,以幫助確保全局配置一致性,或者定期檢查裝置是否滿足正確的全局配置標準。
介面或協定配置標準代表維護介面和協定配置標準的實踐,它透過降低網路複雜性、提供預期的裝置和協定行為以及提高網路可支援性來提高網路可用性。介面或協定配置不一致可能導致意外裝置行為、流量路由問題、連線問題增加以及反應性支援時間增加。
介面配置標準可能包括:
CDP(Cisco發現協定)
介面描述符
快取組態
其他協定特定標準
協定特定的配置標準可能包括:
IP路由配置
DLSW配置
訪問清單配置
ATM配置
幀中繼配置
生成樹配置
VLAN分配和配置
VTP(虛擬中繼協定)
HSRP(熱待命路由通訊協定)
其他,取決於網路中的配置
IP標準的示例可能包括子網大小、使用的IP地址空間、使用的路由協定和路由協定配置。
維護協定和介面配置標準通常由網路工程和實施團隊負責。工程小組應負責辨識、測試、驗證和記錄標準。然後,實施組負責使用工程文檔或配置模板來調配新服務。工程小組應建立所需標準所有方面的文檔,以確保一致性。還應建立配置模板以幫助實施配置標準。操作組還應接受有關標準的培訓,並能夠辨識非標準配置問題。在測試、驗證和認證階段,配置一致性是非常有幫助的。如果沒有標準化的配置模板,則幾乎不可能充分測試、驗證或認證中大型網路的Cisco IOS版本。
可用性管理是將網路可用性作為品質改進指標的品質改進過程。許多組織現在正在測量可用性和中斷型別。中斷型別可能包括:
硬體
軟體
鏈路/業者
電源/環境
設計
使用者錯誤/進程
透過辨識故障並在恢復後立即執行根本原因分析,組織可以確定提高可用性的方法。幾乎所有已經實現高可用性的網路都具備某種型別的品質改進流程。
步驟 2: 評估Cisco IOS軟體管理實務的目前狀態(僅限註冊客戶)
第4步:制定軟體管理專案計畫(僅限註冊客戶)
為了幫助客戶獲取其他有價值的Cisco IOS相關資訊,我們製作了一個附錄,例如:Cisco IOS基礎知識、Cisco內部Cisco IOS軟體流程、軟體可靠性分析、Cisco內部品質計畫、Cisco內部測試方法以及顯示當前行業實踐和Cisco IOS軟體總體客戶體驗的現場分析
Cisco IOS管理:有關Cisco IOS管理和最佳實踐的更多資訊,請參閱以下站點的「Cisco IOS高可用性網路管理」白皮書:http://www.cisco.com/en/US/tech/tk869/tk769/technologies_white_paper09186a00800a998b.shtml
有關如何運行網路探測器、使用哪些CLI命令、如何分析和解釋網路流量資料以及如何建立應用程式使用策略的具體資訊,請訪問http://www.cisco.com。本網站提供全方位的支援、訓練、技術參考及諮詢解決方案。
Cisco IOS具有此處定義的特定命名約定:http://www.cisco.com/en/US/products/sw/iosswrel/ps1818/products_tech_note09186a0080101cda.shtml
此處提供Cisco IOS版本的相關資訊:http://www.cisco.com/en/US/products/sw/iosswrel/products_ios_cisco_ios_software_releases.html
Cisco IOS版本最終會從CCO中刪除,不能再訂購。請務必設定相應的客戶期望。
Cisco IOS產品公告用於向客戶發佈Cisco IOS版本。它們包含發行內容的簡短資訊。有關新的Cisco IOS版本http://www.cisco.com/en/US/products/sw/iosswrel/products_ios_cisco_ios_software_releases.html的可用性,請檢視此處
產品安全事件響應團隊負責思科產品的安全事務。任何與Cisco IOS安全相關的問題都應提交給該團隊。思科公開發佈其安全漏洞。http://tools.cisco.com/security/center/publicationListing
Cisco IOS缺陷:嚴重的Cisco IOS缺陷應推薦延期。任何思科員工均可提出此建議。
有關Cisco IOS的欄位問題可透過Cisco IOS建議傳達給客戶。 http://www.cisco.com/en/US/products/products_security_advisory09186a0080b20ee1.shtml
Cisco IOS功能:Feature Navigator工具使客戶可以查詢支援特定功能的版本,反之亦然。http://tools.cisco.com/ITDIT/CFN/jsp/index.jsp
Cisco Software Advisor可讓客戶尋找功能的軟體支援或硬體的軟體支援。http://tools.cisco.com/Support/Fusion/FusionHome.do(僅限註冊客戶)