소개
이 문서에서는 Cisco 라우터에서 Watchdog Timeouts의 원인을 설명하고 이러한 문제를 해결하는 방법에 대해 설명합니다.
사전 요구 사항
요구 사항
이 문서의 독자는 다음 주제에 대해 알고 있어야 합니다.
사용되는 구성 요소
이 문서의 정보는 다음 소프트웨어 및 하드웨어 버전을 기반으로 합니다.
-
모든 Cisco 라우터
-
모든 Cisco IOS® 소프트웨어 버전
참고: 이 문서는 Cisco Catalyst 스위치 또는 MGX 플랫폼에는 적용되지 않으며 Cisco 라우터에만 적용됩니다.
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다.이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다.현재 네트워크가 작동 중인 경우, 모든 명령어의 잠재적인 영향을 미리 숙지하시기 바랍니다.
표기 규칙
문서 규칙에 대한 자세한 내용은 Cisco 기술 팁 표기 규칙을 참조하십시오.
감시 시간 초과 식별
Cisco 프로세서에는 특정 유형의 시스템이 중단되는 것을 방지하는 타이머가 있습니다.CPU는 주기적으로 watchdog 타이머를 재설정합니다.워치독 타이머는 기본적으로 각 프로세스의 시간을 제어합니다.타이머가 재설정되지 않으면 트랩이 발생합니다.프로세스가 필요 이상으로 길면 watchdog 타이머를 사용하여 이 프로세스를 이스케이프합니다.
이는 문제가 발생할 경우에만 발생합니다.상황에 따라 라우터가 자신을 재설정하거나 실패에서 복구하여 다음과 같은 오류 메시지를 콘솔 로그에 생성할 수 있습니다.
*** Watch Dog Timeout ***
PC = 0x6022536C, SP = 0x00000000
또는
%SYS-2-WATCHDOG: Process aborted on watchdog timeout, process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
전원을 껐다가 다시 켜거나 수동으로 라우터를 다시 로드하지 않으면 show version 명령의 출력은 다음과 같습니다.
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 09:26:24 UTC Mon Mar 27 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
...
Cisco 디바이스에서 show version 명령의 출력이 있는 경우 Cisco CLI Analyzer를 사용하여 잠재적인 문제 및 수정 사항을 표시할 수 있습니다.Cisco CLI Analyzer를 사용하려면 등록된 고객으로 로그인한 상태여야 하고 JavaScript가 활성화되어 있어야 합니다.
문제 해결
watchdog 시간 제한의 근본 원인은 하드웨어 또는 소프트웨어 관련일 수 있습니다.다음은 문제의 원인을 파악할 수 있는 일반적인 증상입니다.
-
몇 개월 동안 정상적으로 작동하던 라우터가 갑자기 20분마다 다시 로드되기 시작하거나 라우터가 지속적으로 재부팅되어 더 이상 액세스할 수 없는 경우, 하드웨어 관련 문제가 발생할 가능성이 높습니다.또한 최근에 새 모듈이 설치되었고 이후 watchdog 시간 초과로 라우터가 충돌하는 경우도 마찬가지입니다.
-
컨피그레이션 변경 또는 Cisco IOS 소프트웨어 버전 변경 후 라우터가 crash하기 시작하면 소프트웨어 관련 문제일 수 있습니다.
이러한 유형의 문제를 해결하는 첫 번째 단계는 발생한 워치독 시간 초과 유형을 식별하는 것입니다.Watchdog Timeouts에는 두 가지 유형이 있습니다.
소프트웨어 워치독 시간 초과
이 시간 제한은 인터럽트 레벨의 무한 루프 또는 하드웨어 문제로 인해 발생합니다.다음은 이 유형의 시간 제한의 몇 가지 표시입니다.
-
콘솔 로그에는 다음 행이 포함됩니다.
*** 감시 개 시간 초과 ***
PC = 0x6022536C, SP = 0x0000000
-
show version 출력은 다시 로드 이유를 "watchdog timer expired"로 보고합니다.
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 06:30:24 UTC Mon Jan 28 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
-
crashinfo 파일이 생성되지 않습니다.자세한 내용은 Crashinfo 파일에서 정보 검색을 참조하십시오.
대부분의 경우 이러한 메시지는 주 프로세서 보드 또는 모듈 중 하나에 하드웨어 문제가 있음을 나타냅니다.
소프트웨어 워치독 시간 초과를 확인한 후 다음 단계는 플랫폼 및 해당 시스템에 설치된 모든 구성 요소에 대해 Product Field Notice Summary(제품 필드 알림 요약)를 확인하여 알려진 중요한 하드웨어 문제를 확인합니다.예를 들어 Cisco 3600 Series 라우터에 대한 필드 알림은 다음과 같습니다.Cisco 3600 T1/E1 PRI Module Watchdog Timeouts.추가 트러블슈팅을 수행하기 전에 Field Notices(필드 알림)를 확인해야 합니다.
새 모듈이 최근에 설치된 경우 먼저 해당 모듈을 제거하여 watchdog 시간 초과의 원인인지 확인해야 합니다.watchdog 시간 제한이 지속되면 모든 이동식 구성 요소를 다시 장착하십시오.
이 시점에서 watchdog 시간 초과가 계속되면 하드웨어에 대한 필드 알림이 없으며 최근에 새 모듈이 설치되지 않은 경우 계속해서 주 프로세서 보드를 교체하십시오.하이엔드 플랫폼에서 프로세서 보드는 별도의 카드입니다(예: NPE-400 또는 RSP8). 로우엔드 플랫폼(Cisco 1700, 2500, 4000, 2600, 3600 등)에서는 마더보드를 별도로 배송할 수 없습니다.이 경우 섀시 자체를 교체해야 합니다.
프로세스 워치독 시간 초과
이 시간 제한은 프로세스 수준에서 무한 루프로 인해 발생합니다.다음은 이 시간 제한의 몇 가지 표시입니다.
이 문제는 Cisco IOS 소프트웨어 버그로 인해 발생할 수 있습니다.
Cisco 디바이스에서 show stacks 명령을 출력한 경우 Cisco CLI Analyzer를 사용하여 잠재적인 문제 및 수정 사항을 표시할 수 있습니다.Cisco CLI Analyzer를 사용하려면 등록된 고객으로 로그인한 상태여야 하고 JavaScript가 활성화되어 있어야 합니다.
그러나 시스템이 다시 로드되기 전에 루프에 고정되었습니다.따라서 스택 추적이 반드시 관련될 필요는 없습니다.릴리스 교육에서 최신 Cisco IOS 소프트웨어 버전으로 업그레이드하여 알려진 모든 Process Watchdog 문제를 제거할 수 있습니다.업그레이드 후에도 충돌이 발생할 경우 최대한 많은 정보를 수집하고(라우터 충돌 트러블슈팅 참조) 기술 지원 담당자에게 문의하십시오.
워치독 시간 초과와 관련된 오류 메시지
watchdog 타이머와 관련된 다른 콘솔 오류 메시지가 있습니다.이러한 메시지를 watchdog 타이머 충돌과 혼동하지 마십시오.오류 메시지 디코더의 도움을 받아 이러한 오류 메시지의 의미를 확인해야 합니다(등록된 고객만 해당). 이 도구는 여러 오류 메시지에 대한 자세한 설명을 제공하며 이를 해결하기 위한 작업을 권장합니다.
다음 메시지를 고려하십시오.
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = [chars]
이 메시지는 지정된 프로세스가 너무 오래 실행되었으며 프로세서가 취소되지 않았음을 나타냅니다.시스템에서 지정된 프로세스를 종료했습니다.컨피그레이션에 따라 시스템 충돌이 발생할 수 있습니다.메시지가 한 번만 나타나면 아무 작업도 수행할 필요가 없습니다.그러나 다시 발생할 경우 이를 Process Watchdog Timeout(프로세스 워치독 시간 초과)으로 처리하고 필요한 조치를 취해야 합니다.
TAC 서비스 요청을 열 경우 수집할 정보
위의 트러블슈팅 단계를 거친 후에도 지원이 필요한 경우 Cisco TAC에 서비스 요청(등록된 고객만 해당)을 열려면 다음 정보를 포함해야 합니다. |
- 서비스 요청을 열기 전에 수행된 트러블슈팅.
- show technical-support 출력(가능한 경우 활성화 모드)
- 로그 출력 또는 콘솔 캡처 표시(사용 가능한 경우)
- 실행 슬롯 [slot #]은 라인 카드 충돌이 발생한 슬롯에 대한 기술을 표시합니다.
- crashinfo 파일(사용 가능하며 show technical-support 출력에 포함되지 않은 경우)
수집된 데이터를 압축되지 않은 일반 텍스트 형식(.txt)으로 서비스 요청에 첨부하십시오. TAC 서비스 요청 툴을 사용하여 업로드하여 서비스 요청에 정보를 첨부할 수 있습니다(등록된 고객만 해당). Service Request 툴에 액세스할 수 없는 경우, 이메일 첨부 파일의 정보를 attach@cisco.com으로 보낼 수 있습니다. 이때 서비스 요청 번호는 메시지의 제목 줄에 표시됩니다. 참고: Cisco 12000 Series Internet Router에서 라인 카드 충돌 문제를 해결하는 데 필요하지 않은 경우, 문제의 근본 원인을 파악하는 데 필요한 중요한 정보가 손실될 수 있으므로 위의 정보를 수집하기 전에 라우터를 수동으로 다시 로드하거나 전원을 껐다가 다시 켜지 마십시오. |
관련 정보