소개
이 문서에서는 Cisco 라우터에서 Watchdog Timeout이 발생하는 원인과 문제 해결 방법에 대해 설명합니다.
사전 요구 사항
요구 사항
이 문서의 독자는 다음 주제에 대해 알고 있어야 합니다.
사용되는 구성 요소
이 문서의 정보는 다음 소프트웨어 및 하드웨어 버전을 기반으로 합니다.
-
모든 Cisco 라우터
-
모든 Cisco IOS® 소프트웨어 버전
참고: 이 문서는 Cisco Catalyst 스위치 또는 MGX 플랫폼에 적용되지 않으며 Cisco 라우터에만 적용됩니다.
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다. 이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다. 현재 네트워크가 작동 중인 경우, 모든 명령어의 잠재적인 영향을 미리 숙지하시기 바랍니다.
표기 규칙
문서 규칙에 대한 자세한 내용은 Cisco 기술 팁 표기 규칙을 참조하십시오.
Watchdog 시간 초과 확인
Cisco 프로세서에는 특정 유형의 시스템 중단을 방지하는 타이머가 있습니다. CPU는 주기적으로 watchdog 타이머를 재설정합니다. watchdog 타이머는 기본적으로 각 프로세스의 시간을 제어합니다. 타이머가 재설정되지 않으면 트랩이 발생합니다. 프로세스가 필요 이상으로 긴 경우 watchdog 타이머를 사용하여 이 프로세스를 이스케이프합니다.
이는 문제가 발생하는 경우에만 발생합니다. 상황을 기반으로 라우터는 자신을 재설정하거나 오류를 복구하고 다음과 같은 오류 메시지를 콘솔 로그에 생성할 수 있습니다.
*** Watch Dog Timeout ***
PC = 0x6022536C, SP = 0x00000000
또는
%SYS-2-WATCHDOG: Process aborted on watchdog timeout, process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
라우터의 전원을 껐다 켜지 않거나 수동으로 다시 로드하지 않으면 show version 명령의 출력은 다음과 같습니다.
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 09:26:24 UTC Mon Mar 27 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
...
Cisco 디바이스에서 show version 명령을 출력한 경우 Cisco CLI Analyzer를 사용하여 잠재적인 문제 및 수정 사항을 표시할 수 있습니다. Cisco CLI Analyzer를 사용하려면 등록된 고객으로 로그인한 상태여야 하고 JavaScript가 활성화되어 있어야 합니다.
문제 해결
watchdog 시간 초과의 근본 원인은 하드웨어 또는 소프트웨어와 관련될 수 있습니다. 다음은 문제의 원인을 파악할 수 있는 일반적인 증상입니다.
-
몇 개월 동안 제대로 작동하던 라우터가 갑자기 20분마다 다시 로드되기 시작하거나, 라우터가 계속 재부팅되어 더 이상 액세스할 수 없는 경우, 하드웨어 관련 문제일 가능성이 높습니다. 이는 최근에 새 모듈이 설치되었고 이후 watchdog 시간 초과로 라우터가 충돌한 경우에도 마찬가지입니다.
-
컨피그레이션 변경 또는 Cisco IOS 소프트웨어 버전 변경 후 라우터가 중단되기 시작하면 소프트웨어 관련 문제일 수 있습니다.
이 유형의 문제를 해결하기 위한 첫 번째 단계는 발생한 watchdog 시간 초과 유형을 식별하는 것입니다. Watchdog 시간 초과에는 두 가지 유형이 있습니다.
소프트웨어 워치독 시간 초과
이 시간 제한은 인터럽트 레벨의 무한 루프 또는 하드웨어 문제로 인해 발생합니다. 다음은 이러한 시간 초과 유형에 대한 몇 가지 지표입니다.
-
콘솔 로그에는 다음 행이 포함됩니다.
*** Watch Dog 시간 초과 ***
PC = 0x6022536C, SP = 0x00000000
-
show version 출력은 다시 로드 이유를 "watchdog timer expired"로 보고합니다.
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 06:30:24 UTC Mon Jan 28 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
-
crashinfo 파일이 생성되지 않았습니다. 자세한 내용은 Crashinfo 파일에서 정보 검색을 참조하십시오.
대부분의 경우 이러한 메시지는 주 프로세서 보드 또는 모듈 중 하나에 하드웨어 문제가 있음을 나타냅니다.
소프트웨어 watchdog 시간 초과를 식별한 후 다음 단계는 플랫폼 및 해당 시스템에 설치된 모든 구성 요소에 대해 알려진 중요 하드웨어 문제가 있는지 Product Field Notice Summary를 확인하는 것입니다. 예를 들어, Cisco 3600 Series Router에는 Cisco 3600 T1/E1 PRI Module Watchdog Timeouts라는 필드 알림이 하나 있습니다. 추가 트러블슈팅을 수행하기 전에 Field Notices(필드 알림)를 확인하십시오.
새 모듈이 최근에 설치된 경우, 먼저 해당 모듈을 제거하여 watchdog 시간 초과의 원인이 되는지 확인해야 합니다. Watchdog 시간 초과가 지속되면 모든 이동식 구성 요소를 다시 장착해 보십시오.
이 시점에서 Watchdog 시간 초과가 계속되면 하드웨어에 대한 Field Notice가 없으며, 최근에 새 모듈이 설치되지 않은 경우 계속 진행하여 주 프로세서 보드를 교체하십시오. 고급 플랫폼에서 프로세서 보드는 별도의 카드(예: NPE-400 또는 RSP8)입니다. 로우엔드 플랫폼(Cisco 1700, 2500, 4000, 2600, 3600 등)에서는 마더보드를 별도로 배송할 수 없습니다. 이 경우 섀시 자체를 교체해야 합니다.
프로세스 감시장치 시간 초과
이 시간 제한은 프로세스 레벨의 무한 루프에 의해 발생합니다. 다음은 이 시간 초과에 대한 몇 가지 표시입니다.
이 문제는 Cisco IOS 소프트웨어 버그일 가능성이 높습니다.
Cisco 디바이스에서 show stacks 명령의 출력이 있는 경우 Cisco CLI Analyzer를 사용하여 잠재적인 문제 및 해결 방법을 표시할 수 있습니다. Cisco CLI Analyzer를 사용하려면 등록된 고객으로 로그인한 상태여야 하고 JavaScript가 활성화되어 있어야 합니다.
그러나 다시 로드하기 전에 시스템이 루프에 갇혔습니다. 따라서 스택 추적이 반드시 관련이 있을 필요는 없습니다. 릴리스 열차에서 최신 Cisco IOS 소프트웨어 버전으로 업그레이드하여 알려진 모든 Process Watchdog 문제를 해결할 수 있습니다. 업그레이드 후에도 충돌이 계속 발생하면 가능한 많은 정보를 수집하고(라우터 충돌 트러블슈팅 참조) 기술 지원 담당자에게 문의하십시오.
Watchdog 시간 초과와 관련된 오류 메시지
watchdog 타이머와 관련된 다른 콘솔 오류 메시지가 있습니다. 이러한 메시지를 watchdog 타이머 충돌과 혼동하지 마십시오. 오류 메시지 디코더(등록된 고객만)의 도움을 받아 이러한 오류 메시지의 의미를 확인하십시오. 이 도구는 많은 오류 메시지에 대한 자세한 설명을 제공하며 이를 해결하기 위한 작업을 권장합니다.
다음 메시지를 고려하십시오.
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = [chars]
이 메시지는 지정된 프로세스가 너무 오래 실행되었으며 프로세서가 중단되지 않았음을 나타냅니다. 시스템에서 표시된 프로세스를 종료했습니다. 컨피그레이션에 따라 시스템 충돌이 발생할 수 있습니다. 메시지가 한 번만 나타나면 아무 작업도 수행할 필요가 없습니다. 그러나 다시 발생하는 경우 Process Watchdog Timeout으로 처리하고 필요한 조치를 취해야 합니다.
TAC 서비스 요청을 열 경우 수집할 정보
위의 트러블슈팅 단계를 수행한 후에도 여전히 도움이 필요하며 Cisco TAC에 서비스 요청(등록된 고객만 해당)을 열려면 다음 정보를 포함해야 합니다. |
- 서비스 요청을 열기 전에 문제 해결을 수행했습니다.
- show technical-support 출력(가능한 경우 활성화 모드)
- 로그 출력 또는 콘솔 캡처가 있는 경우 표시합니다.
- execute-on slot [slot #] 라인 카드 충돌이 발생한 슬롯에 대한 기술을 보여줍니다.
- crashinfo 파일(사용 가능한 경우 및 show technical-support 출력에 아직 포함되어 있지 않은 경우)
수집된 데이터를 압축되지 않은 일반 텍스트 형식(.txt)으로 서비스 요청에 첨부하십시오. TAC Service Request 툴(등록된 고객만)을 사용하여 정보를 업로드하여 서비스 요청에 첨부할 수 있습니다. Service Request 툴에 액세스할 수 없는 경우 이메일 첨부 파일의 정보를 메시지 제목 줄에 있는 서비스 요청 번호와 함께 attach@cisco.com으로 보낼 수 있습니다. 참고: Cisco 12000 Series Internet Router에서 라인 카드 충돌을 해결하기 위해 필요한 경우가 아니면 위의 정보를 수집하기 전에 라우터를 수동으로 다시 로드하거나 전원을 껐다가 켜지 마십시오. 이렇게 하면 문제의 근본 원인을 파악하는 데 필요한 중요한 정보가 손실될 수 있습니다. |
관련 정보