簡介
本檔案介紹以應用程式為中心的基礎架構(ACI)交換器平台上的固態驅動器(SSD)使用年限耗盡行為。
如果由於應用策略基礎設施控制器(APIC)(不是交換機節點)上出現SSD故障而登入到此頁面,請參閱FN64329。
APIC SSD更換記錄APIC SSD更換過程。
背景資訊
ACI枝葉節點和主幹節點利用SSD進行儲存和事件記錄。所有SSD(無論供應商型別如何)都有固定的使用壽命,具體取決於製造商定義的特定屬性。一些示例包括一段時間內寫入和擦除的數量以及傳輸到驅動器的資料量。枝葉和主幹節點上的SSD壽命可能會因定期磨損而耗盡。如果使用者未對SSD即將耗盡的交換機採取適當的操作,則交換機可能會由於SSD進入只讀模式而崩潰。因此,在針對給定節點發生F3073故障時,必須優先進行SSD更換。SSD可由思科認證現場工程師現場更換。
F3073是在版本2.1(4)、2.2(4)、2.3(1o)和3.1(2m)中實現的。任何後續的軟體版本都有引發F3073的功能。
註:如果運行的ACI軟體版本沒有SSD監控功能,強烈建議您升級到支援此類監控的版本。
未更換SSD時的典型症狀
1.當交換器無法開機時,在主控台上可以看到以下錯誤:
/dev/hd-cfg0: ********** WARNING: Filesystem still has errors **********
e2fsck 1.42.1 (17-Feb-2012)
/dev/hd-cfg1: recovering journal
/sbin/e2fsck: unable to set superblock flags on /dev/hd-cfg1
2.在更高的代碼版本(將在後續章節中介紹)中,系統能夠主動引發與SSD(F3073或F3074,基於SSD的使用壽命)相關的故障。
3.您還可能看到由於SSD使用率較高而引發的F3525故障。此故障通常與F3073/F3074相混淆。
# fault.Inst
code : F3525
ack : no
annotation :
cause : equipment-flash-warning
changeSet : deltape (New: 21), peCycles (New: 1678), tbw (New: 32.465179), warning (New: yes)
childAction :
created : 2019-08-05T18:22:01.455-07:00
delegated : no
descr : High SSD usage observed. Please check switch activity and contact Cisco Technical Support about high SSD usage.
dn : topology/pod-1/node-206/sys/ch/supslot-1/sup/flash/fault-F3525
domain : infra
extMngdBy : undefined
highestSeverity : warning
lastTransition : 2019-08-05T18:24:02.029-07:00
lc : raised
modTs : never
occur : 1
origSeverity : warning
prevSeverity : warning
rn : fault-F3525
rule : eqpt-flash-flash-warning-alarm
severity : warning
status :
subject : flash-warning-alarm
type : operational
如果P/E(程式清除)週期在7天內增加超過21,則會引發故障F3525。這並不是說SSD已耗盡,只是因為存在大量雜湊可能會最終導致SSD耗盡。
您需要與技術支援中心(TAC)合作,瞭解導致此流失的原因並予以解決。還有一項策略用於更改導致F3525針對特定型別的SSD提升的閾值(請參見Access Policies > Policies > Switch > Equipment Flash Config Policies)。
如何驗證SSD的當前運行狀況
檢查SSD壽命狀態的方法有兩種:
主動系統警報
SSD生命週期監控功能已作為Cisco錯誤ID CSCve88634的一部分新增到以下版本的代碼中:
- 2.1(4)及更高版本適用於2.1系列
- 2.2(4)及更高版本用於2.2系列
- 2.3(1o)及更高版本用於2.3系列
- 3.1(2m)和以後的所有版本
當驅動器接近其壽命的80%時引發次要故障,當驅動器超過其壽命的90%時引發主要故障。
這樣,網路操作員就能夠監控並主動更換任何交換機,以防交換機由於超出SSD壽命而發生故障。
- F3074: fltEqptFlashFlash-minor-alarm(80%生存期)
- F3073: fltEqptFlashFlash已磨損(90%壽命)
早期版本的代碼沒有針對交換機SSD的SSD壽命檢查。因此,即使交換機接近SSD過期,也不會發生故障。
手動資料分析
SSD使用日誌記錄從以下版本開始:3.2(5d)、3.2(6i)、3.2(7f)和4.1(1i)。
a-leaf101# cat /mnt/pss/ssd_log_amp.log (Tested on 4.2.3l)
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Mon Dec 16 19:00:01 EST 2019 16531370 0 29398 12350 100 0 122396965772 3825894828 60841125365 16 0.00 % 0 0
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Tue Dec 17 19:00:01 EST 2019 16531725 0 29422 12355 100 0 122447755358 3827482016 60858831240 16 0.00 % 12355 61606629993
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Wed Dec 18 19:00:01 EST 2019 16532222 0 29446 12359 100 0 122495197374 3828964594 60875667807 16 0.00 % 12359 61636366134
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Thu Dec 19 19:00:01 EST 2019 16533056 0 29470 12364 100 0 122542269672 3830435617 60892533342 16 0.00 % 12364 61666601865
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Fri Dec 20 19:00:01 EST 2019 16534010 0 29494 12367 100 0 122587126224 3831837398 60908759296 16 0.00 % 12367 61694592882
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sat Dec 21 19:00:01 EST 2019 16535311 0 29518 12372 100 0 122631804318 3833233605 60925205662 16 0.00 % 12372 61723045022
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sun Dec 22 19:00:01 EST 2019 16536727 0 29542 12376 100 0 122676829388 3834640654 60941741722 16 0.00 % 12376 61751623726
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Mon Dec 23 19:00:01 EST 2019 16538321 0 29566 12380 100 0 122722137414 3836056544 60958504969 16 0.00 % 12380 61780395692
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Tue Dec 24 19:00:01 EST 2019 16539858 0 29591 12384 100 0 122767087802 3837461258 60975050343 16 0.00 % 12384 61808582833
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Wed Dec 25 19:00:01 EST 2019 16541121 0 29615 12388 100 0 122812238580 3838872234 60991578411 16 0.00 % 12388 61837188237
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Thu Dec 26 19:00:01 EST 2019 16542653 0 29639 12393 100 0 122857007868 3840271286 61008101155 16 0.00 % 12393 61865429457
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Fri Dec 27 19:00:01 EST 2019 16544352 0 29663 12397 100 0 122901807026 3841671272 61024757511 16 0.00 % 12397 61893705871
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sat Dec 28 19:00:01 EST 2019 16546213 0 29687 12401 100 0 122946927200 3843081289 61041459287 16 0.00 % 12401 61922169689
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sun Dec 29 19:00:01 EST 2019 16549522 0 29711 12405 100 0 122991584018 3844476827 61058889999 16 0.00 % 12405 61950124731
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Mon Dec 30 19:00:01 EST 2019 16551885 0 29735 12410 100 0 123036252528 3845872732 61075846564 16 0.00 % 12410 61977362529
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Tue Dec 31 19:00:01 EST 2019 16553858 0 29759 12414 100 0 123098133082 3847806568 61093085451 16 0.00 % 12414 62022286518
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Wed Jan 1 19:00:01 EST 2020 16555127 0 29783 12418 100 0 123142018610 3849178024 61109758713 16 0.00 % 12418 62048933159
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Thu Jan 2 19:00:01 EST 2020 16556532 0 29808 12422 100 0 123186637556 3850572390 61126687626 16 0.00 % 12422 62076878843
Model SerialNo SW-Version Date R.Error(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attr(210) TBW(246) WAF DWAF DPE DTBW
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-03 16557977 0 29832 12428 100 0 123278298184 16 0.00 % 0 0
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-04 16558440 0 29856 12433 100 0 123323818606 16 0.00 % 5 45520422
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-05 16559031 0 29880 12438 100 0 123369348610 16 0.00 % 5 45530004
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-06 16561567 0 29904 12443 100 0 123415316270 16 0.00 % 5 45967660
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-07 16564701 0 29928 12448 100 0 123460483898 16 0.00 % 5 45167628
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-08 16565955 0 29952 12453 100 0 123505550532 16 0.00 % 5 45066634
ssd_log_amp.log檔案位於1of3交換機技術支援中。
對於任何其他製造商相關命令,輸出需要根使用者的特權,而根使用者需要請求TAC服務請求。
導致交換機SSD壽命耗盡的觸發器
- 為了保證可維護性以及在事件發生後很長時間提供事件的根本原因,ACI APIC和交換機對SSD具有永續性的每個元件進行詳細記錄。
- 這些日誌記錄功能需要大量的磁碟寫入和覆蓋。磁碟執行此操作的能力不是無限的,因此存在與驅動器相關的生存期。如果網路長期不穩定(大量移動或策略更新等),可能導致交換機SSD過早耗盡。
- 在最佳化寫操作和維護可維護性的同時減少寫入磁碟的資料量方面進行了許多增強。這些更改是在不同版本中引入的。請參閱代碼最佳化部分。
- 對於整合了代碼最佳化增強功能的版本,如果您仍然體驗到快速的SSD消耗(如每天2/3的P/E週期),這很可能是由DB寫入而不是日誌記錄引起的,因為大多數寫入的是RAMFS。當需要輪換時,只有在ZIP之後才能將日誌移動到SSD。
代碼最佳化
在最佳化寫操作以維護可維護性方面進行了許多增強,同時減少了寫入磁碟的資料量。這些更改是在不同版本中引入的。
- 思科錯誤ID CSCve88634 — 當SSD超過其壽命時引發故障。
新增到版本2.1(4)、2.2(4)、2.3(1o)和3.1(2m)
- 思科漏洞ID CSCvi32353 - F3073修訂版超出了SSD壽命檢測邏輯
- 思科錯誤ID CSCvh73803 — 為tmp_logs建立ramfs分割槽,以減少日誌記錄對SSD的影響
- 思科錯誤ID CSCvm97108 — 用於跟蹤SSD過度調配更改的錯誤
- 思科漏洞ID CSCvt36458 — 已移除交換器的SQL DB永久層。
新增到版本4.2(6d)和5.1(1h)
3.2.4d及更高版本和4.x及更高版本具有延長SSD壽命所需的所有故障監控和最佳化增強功能。當然,這並不意味著升級到這些版本絕對可以阻止SSD的壽命問題。
重新載入型別行為更改
思科錯誤ID CSCvt36458更改了ACI交換機節點未正常重新載入的預期行為:
重新載入型別 |
思科錯誤ID CSCvt36458之前 |
思科錯誤ID CSCvt36458之後 (4.2(6d)及更高版本和5.1(1h)及更高版本) |
升級 |
無狀態 |
無狀態 |
平滑過載(手動過載、後重設) |
有狀態 |
有狀態 |
非正常過載(核心宕機、電源循環) |
有狀態 |
無狀態 |
總而言之,優雅的交換機重新載入會在啟用時繼續使用其DB。不正常的交換機重新載入現在需要從APIC拉出所有策略,類似於升級。
其他常見問題
是否可以在現場更換SSD?
會。現在,思科正在現場更換固態硬碟,由經過認證的現場工程師幫助完成。在模組化的主幹上,整個管理引擎被更換。
您是否應主動更換交換機硬體?
TAC工程師可以檢查smartctl值並評估哪些交換機的生存時間更長,以便立即更換最緊急的交換機,然後逐步更換不緊急的交換機。
是否有特定硬體PID更易受SSD故障的影響?
不能。在同一環境中,不同裝置之間的SSD使用期限可能有所不同。SSD磁碟的使用情況取決於裝置寫入日誌以保留事件的頻率。註冊由網路不穩定造成的大量事件的裝置可能會比其它裝置更快地達到其SSD壽命。因此,思科提倡使用更高版本來確保代碼最佳化有助於控制SSD寫入並延長SSD的使用壽命。