소개
이 문서에서는 대부분의 UCS 서버 유형에서 볼 수 있는 서버 액세스 불량의 일반적인 원인을 해결하는 방법에 대해 설명합니다.
사전 요구 사항
요구 사항
UCSM(Unified Computing System Manager) 및 IMM(Intersight Managed Mode)에서 서버를 관리하는 방법을 알고 있는 것이 좋습니다.
사용되는 구성 요소
이 문서는 특정 소프트웨어 및 하드웨어 버전으로 한정되지 않습니다.
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다. 이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다. 현재 네트워크가 작동 중인 경우 모든 명령의 잠재적인 영향을 미리 숙지하시기 바랍니다.
배경 정보
UCS 도메인에서 사용자가 받을 수 있는 일반적인 오류가 있습니다. 즉 서버에 액세스할 수 없음을 알려줍니다. 이는 여러 가지 이유로 발생할 수 있으며, 모니터링 툴 및 UCSM/IMM 버전에 따라 결함이 몇 가지 다른 방식으로 보일 수 있습니다.
System Notification from [UCSM Domain Name] - diagnostic:GOLD-minor - 2023-05-25 01:56:41 GMT-04:00 Recovered : Server x/y (service profile: org-root/ls-[service_profile]) inaccessible
Serial number: [Server Serial]
Alert: System Name: [UCSM Domain Name]
Time of Event:2022-08-31 03:15:04 GMT-05:00 Event Description:Server x (service profile: org-root/ls-[service_profile]) inaccessible Severity Level:4
IMM을 사용 중인 경우 GUI에서 Connection to Server was lost(서버에 대한 연결 끊김) 메시지가 표시될 수 있습니다. Intersight 결함과의 연결 해제도 관찰할 수 있습니다.
서버와의 연결이 IMM을 손실했습니다.
이 경고는 블레이드의 CIMC(Cisco Integrated Management Controller)에서 문제가 발생하여 재부팅하거나 재부팅을 시도할 때 표시됩니다. 이렇게 하면 블레이드의 관리 플레인이 재부팅되는 동안 UCSM/IMM이 블레이드와 통신할 수 없으므로 액세스할 수 없다고 생각하기 때문에 서버 액세스 불가 경고가 트리거됩니다. CIMC가 재부팅되면 블레이드 상태가 정상으로 돌아갑니다.
따라서 이 알림을 받을 수 있으며 도메인을 확인하면 서버가 정상적으로 표시됩니다.
공통 결함 참조
Cisco 버그 ID CSCwe19822 - X Series의 경우 4.2(2c) 이후/5.0(1c) 이후 M5/M6 서버에 적용
Cisco 버그 ID CSCwa85667 - 4.1(3e) - 4.2(2a) 사이의 M5/M6 서버에 적용됨 5.0(1b) 이후의 X Series 포함
Cisco 버그 ID CSCvz62711 - 4.1(3d) - 4.2(2a) 사이의 M5/M6 서버에 적용
Cisco 버그 ID CSCwi50991 - 4.3(2e) 이전의 코드에서 M5/M6 Series 블레이드에 적용
Cisco 버그 ID CSCv79912 - 4.0(4h)에서 4.2(1a)/4.1(3d) 사이의 M5/M6 서버에 적용됩니다.
Cisco 버그 ID CSCvh25786 - 2.0(13f) 및 3.0(4a) 이후의 M4/M5 서버에 적용됩니다.
문제 해결
시나리오 1
첫 번째이자 가장 일반적인 상황은 UCSM/IMM을 점검할 때 경고를 수신하는 것입니다. 그러면 서버가 정상 작동하고, 장애가 없으며(신규) 오류가 없는 것으로 나타납니다. 운영 체제를 확인할 때 중단 없이 정상적으로 작동하고 있는 것으로 보입니다.
UCSM의 정상 서버
로그 번들은 CIMCx_TechSupport.tar.gz > obfl > obfl-log에서 찾을 수 있는 OBFL 로그 중 하나에 이 메시지를 표시합니다.
3:2022 Sep 8 10:54:33 UTC:+0000:(4.2(2d)):kernel:-:[watchdog_init]:976:BMC Watchdog resetted BMC.
이는 CIMC가 스스로 crash하여 리부팅했음을 알려줍니다.
이 시나리오에서는 CIMC가 성공적으로 리부팅되었고 서버에 문제가 없으므로 추가 작업이 필요하지 않습니다.
시나리오 2
다음 상황은 UCSM/IMM을 확인할 때 알림을 수신하는 것입니다. 그러면 서버는 UCSM을 사용하는 경우 액세스할 수 없는 것으로 표시되고 IMM을 사용하는 경우 연결이 끊어진 것으로 표시됩니다. 운영 체제를 확인할 때 중단 없이 정상적으로 작동하고 있는 것으로 보입니다.
OS가 실행 중이지만 UCSM/IMM이 블레이드와 통신할 수 없으므로 CIMC가 재부팅되지 않았거나 프로세스에서 중단되었습니다.
이 시나리오의 첫 번째 단계는 FI(Fabric Interconnect)에 대한 SSH 또는 Console을 실행하고 x/y를 영향을 받는 섀시/블레이드로 교체하여 이 명령을 실행하는 것입니다. 세 가지 다른 결과가 있습니다.
1) CIMC에 연결되었습니다.
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.1...
Connected to 127.5.1.1.
Escape character is '^]'.
CIMC Debug Firmware Utility Shell [ support ]
[ help ]#
이 출력이 표시되면 CIMC에 수명이 남아 있으며 CIMC를 재설정하여 블레이드를 복구할 수 있습니다.
UCSM을 사용 중인 경우 Equipment(장비) > Chassis(섀시) > Chassis Number(섀시 번호) > Servers(서버) > Server Number(서버 번호) > Recover Server(서버 복구) > Reset CIMC로 이동합니다.
블레이드용 복구 서버의 위치
CIMC 재설정
IMM을 사용 중인 경우 영향을 받는 서버로 이동하고 Actions(작업) > System(시스템) > Reboot Management Controller(관리 컨트롤러 재부팅)를 선택합니다.
관리 컨트롤러 IMM 재부팅
CIMC를 재부팅한 후 서버가 정상으로 돌아가면 문제가 해결되며 추가 작업이 필요하지 않습니다.
결함이 지속되면 다음 connect cimc 출력의 트러블슈팅 단계를 진행합니다.
2) CIMC에 연결할 수 없습니다.
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
Trying 127.5.1.8...
telnet: Unable to connect to remote host: No route to host
3) CIMC 정지 연결 이 경우 명령을 실행한 후 이스케이프를 시도할 때 아무 일도 발생하지 않습니다(Ctrl + C).
UCSM-A# connect cimc x (For C Series Rack Mount Server)
UCSM-A# connect cimc x/y (For B/X Series Blade Server)
^C
Console escape. Commands are:
l go to line mode
c go to command mode
z suspend telnet
e exit telent
continuing...
마지막 두 출력 중 하나에 대한 트러블슈팅은 동일합니다. 이러한 경우 CIMC가 완전히 중단되어 Fabric Interconnect와 통신할 수 없습니다. CIMC를 복구하려면 서버를 재부팅해야 합니다. 블레이드를 재부팅할 때는 항상 유지 보수 기간을 두는 것이 좋습니다.
UCSM을 사용 중인 경우 Fabric Interconnect에 SSH를 연결하고 이 명령을 실행하여 x/y를 영향을 받는 섀시/서버로 대체하여 블레이드를 물리적으로 재장착하는 것을 시뮬레이션할 수 있습니다. 이 명령은 확인 메시지를 표시하지 않으므로 반드시 올바른 섀시/서버를 입력해야 합니다.
UCSM-A# reset slot x/y
참고: reset slot 명령은 지정된 슬롯 x/y에서 블레이드를 즉시 재부팅합니다. OS가 여전히 실행 중인 경우 서버를 안전하게 재부팅하십시오.
이 명령은 성공할 경우 아무것도 반환하지 않습니다. 명령이 실행되지 않으면 메시지가 표시됩니다.
IMM을 사용 중이거나 reset slot 명령으로 액세스할 수 없는 문제가 해결되지 않은 경우 다른 유일한 옵션은 블레이드를 물리적으로 재설정하는 것입니다.
블레이드를 물리적으로 재장착한 후에도 계속해서 문제가 발생하면 TAC에 문의하여 추가 트러블슈팅을 요청하십시오.
시나리오 3
마지막 상황은 UCSM/IMM을 확인할 때 알림을 수신합니다. 그러면 서버는 UCSM을 사용하는 경우 액세스할 수 없는 것으로 표시되고 IMM을 사용하는 경우 연결이 끊어진 것으로 표시됩니다. 운영 체제를 확인 할 때, 작동 중지 및 액세스 할 수 없습니다.
이 경우 서버 재부팅만 수행할 수 있습니다. 재부팅이 불가능한 경우 서버를 물리적으로 재장착합니다.
블레이드를 물리적으로 재장착한 후에도 계속해서 문제가 발생하면 TAC에 문의하여 추가 트러블슈팅을 요청하십시오.
결론
서버 액세스 할 수 없는 결함을 수신 하는 이유는 여러 가지가 있을 수 있습니다, 다른 것보다 더 큰 영향. 이 단계는 트러블슈팅이 필요한지 또는 도메인이 정상적이고 조치가 필요하지 않은지 평가하기 시작하는 데 좋은 위치입니다.