O conjunto de documentação deste produto faz o possível para usar uma linguagem imparcial. Para os fins deste conjunto de documentação, a imparcialidade é definida como uma linguagem que não implica em discriminação baseada em idade, deficiência, gênero, identidade racial, identidade étnica, orientação sexual, status socioeconômico e interseccionalidade. Pode haver exceções na documentação devido à linguagem codificada nas interfaces de usuário do software do produto, linguagem usada com base na documentação de RFP ou linguagem usada por um produto de terceiros referenciado. Saiba mais sobre como a Cisco está usando a linguagem inclusiva.
A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.
Este documento descreve o comportamento de esgotamento da vida útil da unidade de estado sólido (SSD) em plataformas de switch de infraestrutura centrada em aplicativos (ACI).
Se você aterrissou nesta página como resultado de uma falha de SSD no Application Policy Infrastructure Controller (APIC) (não um nó de switch), consulte FN64329.
A substituição do SSD APIC documenta o procedimento de substituição do SSD APIC.
Os nós leaf e spine da ACI utilizam SSDs para armazenamento e registro de eventos. Todos os SSDs, independentemente do tipo de fornecedor, têm uma vida útil fixa com base em atributos específicos definidos pelo fabricante. Alguns exemplos incluem o número de gravações e exclusões, bem como o volume de dados transferidos para as unidades durante um período. A vida útil do SSD nos nós Leaf e Spine pode se esgotar devido ao desgaste regular. Se o usuário não tomar a ação adequada contra um switch que tenha um SSD se aproximando do esgotamento, o switch poderá travar devido ao SSD entrar no modo somente leitura. Por esse motivo, é imperativo priorizar a substituição de SSD caso a falha F3073 seja gerada contra um determinado nó. As SSDs podem ser substituídas em campo por um engenheiro de campo certificado pela Cisco.
O F3073 foi implementado nas versões 2.1(4), 2.2(4), 2.3(1o) e 3.1(2m). Todas as versões de software subsequentes têm a funcionalidade de elevar F3073.
Observação: se você executar uma versão do software ACI que não tenha a funcionalidade de monitoramento SSD, é altamente recomendável atualizar para uma versão em que esse monitoramento esteja disponível.
1. Quando o switch falhar ao inicializar, você poderá ver os seguintes erros no console:
/dev/hd-cfg0: ********** WARNING: Filesystem still has errors **********
e2fsck 1.42.1 (17-Feb-2012)
/dev/hd-cfg1: recovering journal
/sbin/e2fsck: unable to set superblock flags on /dev/hd-cfg1
2. O sistema pode, de forma proativa, detectar falhas relacionadas à SSD (F3073 ou F3074 com base no tempo de vida útil da SSD) em versões posteriores do código (abordadas em uma seção posterior).
F3074: fltEqptFlashFlash-minor-alarm (80% lifetime)
F3073: fltEqptFlashFlash-worn-out (90% lifetime)
3. Você também pode ver a falha F3525 aumentada para alto uso de SSD. Esta falha é frequentemente confundida com F3073/F3074.
# fault.Inst
code : F3525
ack : no
annotation :
cause : equipment-flash-warning
changeSet : deltape (New: 21), peCycles (New: 1678), tbw (New: 32.465179), warning (New: yes)
childAction :
created : 2019-08-05T18:22:01.455-07:00
delegated : no
descr : High SSD usage observed. Please check switch activity and contact Cisco Technical Support about high SSD usage.
dn : topology/pod-1/node-206/sys/ch/supslot-1/sup/flash/fault-F3525
domain : infra
extMngdBy : undefined
highestSeverity : warning
lastTransition : 2019-08-05T18:24:02.029-07:00
lc : raised
modTs : never
occur : 1
origSeverity : warning
prevSeverity : warning
rn : fault-F3525
rule : eqpt-flash-flash-warning-alarm
severity : warning
status :
subject : flash-warning-alarm
type : operational
A falha F3525 é elevada se os ciclos P/E (apagamento de programa) aumentarem em mais de 21 em sete dias. Isso não significa que o SSD está desgastado, simplesmente que há muita rotatividade que pode eventualmente causar o desgaste dos SSDs.
Você precisa trabalhar com o Centro de Assistência Técnica (TAC) para entender o que está causando essa rotatividade e abordá-la. Há também uma política para alterar os limites que fazem com que o F3525 seja aumentado para um tipo específico de SSD (Consulte Políticas de acesso > Políticas > Switch > Políticas de configuração flash de equipamento).
Há duas maneiras de verificar o status de vida útil do SSD:
O monitoramento de vida útil de SSD foi adicionado como parte da ID de bug da Cisco CSCve8634 nestas versões de código:
Uma falha menor é gerada quando a unidade se aproxima de 80% de sua vida útil e uma falha maior é gerada quando ela excede 90% de sua vida útil.
Isso permite que os operadores de rede monitorem e substituam proativamente qualquer switch antes que ele falhe devido ao tempo de vida da SSD ter sido excedido.
As versões anteriores do código não tinham uma verificação de vida útil de SSD para SSDs do switch. Portanto, mesmo que o switch estivesse se aproximando da expiração do SSD, não haveria uma falha.
O registro de uso do SSD foi introduzido a partir destas versões: 3.2(5d), 3.2(6i), 3.2(7f) e 4.1(1i).
a-leaf101# cat /mnt/pss/ssd_log_amp.log (Tested on 4.2.3l)
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Mon Dec 16 19:00:01 EST 2019 16531370 0 29398 12350 100 0 122396965772 3825894828 60841125365 16 0.00 % 0 0
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Tue Dec 17 19:00:01 EST 2019 16531725 0 29422 12355 100 0 122447755358 3827482016 60858831240 16 0.00 % 12355 61606629993
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Wed Dec 18 19:00:01 EST 2019 16532222 0 29446 12359 100 0 122495197374 3828964594 60875667807 16 0.00 % 12359 61636366134
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Thu Dec 19 19:00:01 EST 2019 16533056 0 29470 12364 100 0 122542269672 3830435617 60892533342 16 0.00 % 12364 61666601865
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Fri Dec 20 19:00:01 EST 2019 16534010 0 29494 12367 100 0 122587126224 3831837398 60908759296 16 0.00 % 12367 61694592882
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sat Dec 21 19:00:01 EST 2019 16535311 0 29518 12372 100 0 122631804318 3833233605 60925205662 16 0.00 % 12372 61723045022
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sun Dec 22 19:00:01 EST 2019 16536727 0 29542 12376 100 0 122676829388 3834640654 60941741722 16 0.00 % 12376 61751623726
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Mon Dec 23 19:00:01 EST 2019 16538321 0 29566 12380 100 0 122722137414 3836056544 60958504969 16 0.00 % 12380 61780395692
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Tue Dec 24 19:00:01 EST 2019 16539858 0 29591 12384 100 0 122767087802 3837461258 60975050343 16 0.00 % 12384 61808582833
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Wed Dec 25 19:00:01 EST 2019 16541121 0 29615 12388 100 0 122812238580 3838872234 60991578411 16 0.00 % 12388 61837188237
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Thu Dec 26 19:00:01 EST 2019 16542653 0 29639 12393 100 0 122857007868 3840271286 61008101155 16 0.00 % 12393 61865429457
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Fri Dec 27 19:00:01 EST 2019 16544352 0 29663 12397 100 0 122901807026 3841671272 61024757511 16 0.00 % 12397 61893705871
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sat Dec 28 19:00:01 EST 2019 16546213 0 29687 12401 100 0 122946927200 3843081289 61041459287 16 0.00 % 12401 61922169689
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sun Dec 29 19:00:01 EST 2019 16549522 0 29711 12405 100 0 122991584018 3844476827 61058889999 16 0.00 % 12405 61950124731
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Mon Dec 30 19:00:01 EST 2019 16551885 0 29735 12410 100 0 123036252528 3845872732 61075846564 16 0.00 % 12410 61977362529
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Tue Dec 31 19:00:01 EST 2019 16553858 0 29759 12414 100 0 123098133082 3847806568 61093085451 16 0.00 % 12414 62022286518
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Wed Jan 1 19:00:01 EST 2020 16555127 0 29783 12418 100 0 123142018610 3849178024 61109758713 16 0.00 % 12418 62048933159
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Thu Jan 2 19:00:01 EST 2020 16556532 0 29808 12422 100 0 123186637556 3850572390 61126687626 16 0.00 % 12422 62076878843
Model SerialNo SW-Version Date R.Error(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attr(210) TBW(246) WAF DWAF DPE DTBW
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-03 16557977 0 29832 12428 100 0 123278298184 16 0.00 % 0 0
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-04 16558440 0 29856 12433 100 0 123323818606 16 0.00 % 5 45520422
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-05 16559031 0 29880 12438 100 0 123369348610 16 0.00 % 5 45530004
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-06 16561567 0 29904 12443 100 0 123415316270 16 0.00 % 5 45967660
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-07 16564701 0 29928 12448 100 0 123460483898 16 0.00 % 5 45167628
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-08 16565955 0 29952 12453 100 0 123505550532 16 0.00 % 5 45066634
O arquivo ssd_log_amp.log está no 1de3 switches que o tech suporta.
Para qualquer saída adicional de comandos relacionados ao fabricante, seriam necessários privilégios de um usuário raiz, o que exigiria uma solicitação de serviço do TAC.
Houve muitos aprimoramentos para otimizar as gravações a fim de manter a facilidade de manutenção, enquanto diminuía a quantidade de dados gravados em disco. Essas alterações foram introduzidas em diferentes versões.
As versões 3.2.4d e posteriores e 4.x e posteriores têm todos os aprimoramentos de monitoramento e otimização de falhas necessários para prolongar a vida útil do SSD. Isso, obviamente, não significa que a atualização para essas versões evite absolutamente o problema de vida útil do SSD.
O bug da Cisco ID CSCvt36458 alterou o comportamento esperado de uma recarga não-gratuita de um nó do Switch ACI:
Tipo de Recarga | Antes do bug da Cisco ID CSCvt36458 | Após a ID de bug da Cisco CSCvt36458 [4.2(6d) e mais recentes e 5.1(1h) e mais recentes] |
Atualizações | Sem estado | Sem estado |
Recarregamentos elegantes (recarregamentos manuais, reinicializações de hap) | Com estado | Com estado |
Recarregamentos ingratos (pânico do kernel, ciclo de energia) | Com estado | Sem estado |
Em resumo, as recargas de switches elegantes continuam a usar seu DB em bringup. Recarregamentos inadequados de switches agora exigem que todas as políticas sejam extraídas do APIC, semelhante a uma atualização.
A SSD pode ser substituída no campo?
Yes. Agora, a Cisco está substituindo os SSDs em campo com a ajuda de um engenheiro de campo certificado. Em Spines modulares, todo o supervisor é substituído.
Você deve substituir o hardware do switch de forma proativa?
Os engenheiros do TAC podem verificar os valores de smartctl e avaliar quais switches têm mais tempo de vida, de modo que as substituições possam ser feitas imediatamente para os switches mais urgentes e, em seguida, mudar gradualmente para substituir os switches que não são tão urgentes.
Há PIDs de hardware específicos que são mais susceptíveis a falhas de SSD?
Não. O uso do tempo de vida útil do SSD pode variar de um dispositivo para outro no mesmo ambiente. O uso dos discos SSD depende da frequência com que o dispositivo precisa gravar os logs para a manutenção de eventos. Um dispositivo que registra um grande número de eventos contribuídos pela instabilidade da rede tem o potencial de atingir sua vida útil de SSD mais cedo do que outros. Por isso, a Cisco defende a necessidade de usar versões posteriores para garantir que a otimização de código ajude a controlar as gravações de SSD e prolongue a vida útil do SSD.
Revisão | Data de publicação | Comentários |
---|---|---|
3.0 |
18-Jan-2024 |
Seção de perguntas frequentes diversas atualizada devido a alterações recentes no processo de substituição do SSD. |
1.0 |
09-Jan-2020 |
Versão inicial |