Inleiding
In dit document wordt beschreven hoe u problemen kunt oplossen met de meest voorkomende redenen voor de ontoegankelijke fout van de server die voor de meeste typen UCS-servers kunnen worden waargenomen.
Voorwaarden
Vereisten
Cisco raadt u aan kennis te hebben van het beheer van servers in Unified Computing System Manager (UCSM) en Intersight Management Mode (IMM).
Gebruikte componenten
Dit document is niet beperkt tot specifieke software- en hardware-versies.
De informatie in dit document is gebaseerd op de apparaten in een specifieke laboratoriumomgeving. Alle apparaten die in dit document worden beschreven, hadden een opgeschoonde (standaard)configuratie. Als uw netwerk live is, moet u zorgen dat u de potentiële impact van elke opdracht begrijpt.
Achtergrondinformatie
Er is een veel voorkomende fout gebruikers kunnen ontvangen in hun UCS-domein en dat is om u te informeren dat een server ontoegankelijk is. Dit kan om een aantal redenen zijn en de fout kan er een paar verschillende manieren uitzien, afhankelijk van de bewakingstools en UCSM/IMM-versies.
System Notification from [UCSM Domain Name] - diagnostic:GOLD-minor - 2023-05-25 01:56:41 GMT-04:00 Recovered : Server x/y (service profile: org-root/ls-[service_profile]) inaccessible
Serial number: [Server Serial]
Alert: System Name: [UCSM Domain Name]
Time of Event:2022-08-31 03:15:04 GMT-05:00 Event Description:Server x (service profile: org-root/ls-[service_profile]) inaccessible Severity Level:4
Als IMM in gebruik is, is een bericht van de verbinding met de server verloren gegaan en kan mogelijk in de GUI worden gezien. Een verbreking van de intervisiefouten kan ook worden waargenomen.
Verbinding met server is verbroken
Deze waarschuwing is zichtbaar wanneer de Cisco Integrated Management Controller (CIMC) op een blade een probleem tegenkomt en opnieuw opstart of probeert opnieuw op te starten. Dit leidt tot een Server InAccess-waarschuwing omdat terwijl het beheervliegtuig van de blade rebooten, UCSM/IMM niet kan communiceren met de blade dus denkt het ontoegankelijk is. Wanneer de CIMC is opgestart, keert de bladeswitch terug naar de normale toestand.
Daarom kunt u deze waarschuwing ontvangen, dan wanneer u het domein controleert, kijkt de server omhoog en gezond.
Gemeenschappelijke referentie defecten
Cisco bug-id CSCwe19822 - van toepassing op M5/M6-servers na 4.2(2c)/na 5.0(1c) voor X-serie
Cisco bug-ID CSC85667 - van toepassing op M5/M6-servers tussen 4.1(3e) - 4.2(2a) Omvat ook X-serie na 5.0(1b)
Cisco bug-id CSCvz62711 - van toepassing op M5/M6-servers tussen 4.1(3d) - 4.2(2a)
Cisco bug-id CSCwi5091 - van toepassing op blades uit de M5/M6-serie op code vóór 4.3(2e)
Cisco bug-id CSCv79912 - van toepassing op M5/M6-servers tussen 4.0(4h) en 4.2(1a)/4.1(3d)
Cisco bug-id CSCvh25786 - van toepassing op M4/M5-servers na 2.0(13f) en 3.0(4a)
Probleemoplossing
Scenario 1
De eerste en meest voorkomende situatie is het ontvangen van de waarschuwing dan tijdens het controleren UCSM / IMM de server lijkt operabel, gezond, en zonder (nieuwe) fouten. Tijdens het controleren van het besturingssysteem lijkt het alsof het zonder onderbrekingen in bedrijf is.
Gezonde server in UCSM
Logbundels tonen dit bericht in een van de OBFL-logs die te vinden zijn op CIMCx_TechSupport.tar.gz > obfl > obfl-log.
3:2022 Sep 8 10:54:33 UTC:+0000:(4.2(2d)):kernel:-:[watchdog_init]:976:BMC Watchdog resetted BMC.
Dit vertelt ons dat CIMC is neergestort en opnieuw is opgestart.
In dit scenario is geen verdere actie vereist aangezien CIMC succesvol is herstart en er geen problemen zijn met de server.
Scenario 2
De volgende situatie ontvangt de waarschuwing en tijdens het controleren van UCSM/IMM wordt de server nog steeds als ontoegankelijk weergegeven als u UCSM gebruikt of de verbinding met de server wordt verbroken als u IMM gebruikt. Tijdens het controleren van het besturingssysteem lijkt het systeem zonder onderbrekingen in bedrijf te zijn.
Aangezien het besturingssysteem actief is, maar UCSM/IMM niet kan communiceren met de blade, betekent dit dat CIMC niet opnieuw is opgestart of tijdens het proces is vastgelopen.
De eerste stap in dit scenario is om SSH of Console te gebruiken op de Fabric Interconnects (FI) en deze opdracht uit te voeren om x/y te vervangen door het betreffende chassis/blade. Er zijn drie verschillende uitkomsten.
1) De verbinding met CIMC is geslaagd.
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.1...
Connected to 127.5.1.1.
Escape character is '^]'.
CIMC Debug Firmware Utility Shell [ support ]
[ help ]#
Als deze output wordt gezien, dan is er nog wat leven op CIMC en u kunt proberen terugstellend CIMC om het blad terug te krijgen.
Als UCS M in gebruik is, navigeer dan naar Apparatuur > Chassis > Chassisnummer > Servers > Servernummer > Recover Server > Reset CIMC.
Locatie van Recover Server voor Blade
CIMC opnieuw instellen
Als IMM in gebruik is, navigeer dan naar de betreffende server en selecteer Acties > Systeem > Reboot Management Controller.
Reboot Management Controller IMM
Als de server na het opstarten van CIMC weer normaal wordt, dan is het probleem opgelost en is er geen verdere actie vereist.
Als de fout blijft optreden, gaat u verder met de stappen voor probleemoplossing van de volgende connect cimc-uitgang.
2) Verbinding met CIMC mislukt.
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.8...
telnet: Unable to connect to remote host: No route to host
3) Verbinding met CIMC-kraampjes. In dit geval gebeurt er niets na het uitvoeren van het commando en wanneer men probeert te ontsnappen (Ctrl + C) wordt dit waargenomen.
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
^C
Console escape. Commands are:
l go to line mode
c go to command mode
z suspend telnet
e exit telent
continuing...
De probleemoplossing voor een van de laatste twee uitgangen is hetzelfde. In deze gevallen is CIMC volledig uitgeschakeld en kan niet communiceren met de Fabric Interconnects. Om CIMC te kunnen herstellen, moet de server opnieuw worden opgestart. Het wordt altijd aangeraden om een onderhoudsvenster te nemen bij het opnieuw opstarten van de messen.
Als UCSM in gebruik is, kunt u het fysiek resetten van de blade simuleren door SSHing naar de Fabric Interconnects en deze opdracht uit te voeren om x/y te vervangen door het betreffende chassis/de server. U moet het juiste chassis/de juiste server invoeren, aangezien deze opdracht u niet om bevestiging vraagt.
UCSM-A# reset slot x/y
Opmerking: de opdracht voor de opnieuw ingestelde sleuf start de blade in de toegewezen sleuf x/y onmiddellijk opnieuw op. Zorg ervoor dat de server veilig opnieuw opgestart kan worden als het besturingssysteem nog actief is.
Deze opdracht geeft niets terug als het gelukt is. Als de opdracht niet is uitgevoerd, wordt een bericht weergegeven.
Als IMM in gebruik is, of de opdracht voor het opnieuw instellen van sleuven het ontoegankelijke probleem niet heeft opgelost, dan is de enige andere optie fysiek opnieuw te draaien van het blad.
Als het probleem zich na het opnieuw installeren van de blade blijft voordoen, neemt u contact op met TAC voor verdere probleemoplossing.
Scenario 3
De definitieve situatie ontvangt de waarschuwing en tijdens het controleren van UCSM/IMM wordt de server nog steeds als ontoegankelijk weergegeven als u UCSM gebruikt of de verbinding wordt verbroken bij gebruik van IMM. Bij het controleren van het besturingssysteem, is het beneden en ook ontoegankelijk.
In deze situatie kan de server alleen maar opnieuw worden opgestart. Als de computer niet opnieuw kan worden opgestart, moet de server fysiek opnieuw worden geïnstalleerd.
Als het probleem zich na het opnieuw installeren van de blade blijft voordoen, neemt u contact op met TAC voor verdere probleemoplossing.
Conclusie
Er kunnen vele redenen zijn om Server Ontoegankelijke fouten te ontvangen, sommige meer impact dan anderen. De stappen hier zijn een goede plek om te beginnen te beoordelen of een probleemoplossing vereist is of als uw domein gezond is en geen actie nodig is.