소개
이 문서에서는 인터페이스 CRC(Cyclic Redundancy Check) 또는 FCS(Frame Check Sequence) 오류 카운터로 식별된 것처럼 손상된 데이터 프레임을 UCS(Unified Computing System) 패브릭에 주입할 수 있는 주요 소프트웨어 결함에 대해 설명합니다.
참고:이 문서에서는 CRC 주입 지점을 격리하는 방법에 대해 설명하지 않습니다.
배경 정보
UCS 환경에서는 CRC 오류가 큰 영향을 미칠 수 있습니다.이러한 오류의 원인 격리 및 완화는 높은 우선 순위로 처리해야 합니다.
이러한 영향은 문제가 발생하는 지점에 따라 달라지며, 이는 여러 섀시로 확장되어 이더넷과 스토리지 연결 모두에 영향을 미칠 수 있습니다.
물리적 구성 요소 장애(특히 케이블 및 SFP(Small Form-Factor Pluggable)가 가장 빈번한 원인이지만 알려진 소프트웨어 결함이 있어 CRC 오류도 발생할 수 있습니다.
이러한 결함은 다양한 구성 요소 간에 신호 강도가 낮기 때문에 프레임이 손상됩니다.
여기서 참조할 수 있는 핵심 개념은 물리적 레이어 구성 요소 간의 신호 무결성을 측정하는 눈 높이입니다.신호 레벨이 특정 레벨(구성 요소 간에 다름)보다 낮은 경우 전송되거나 수신된 프레임이 손상될 수 있습니다.
Cisco는 UCS 패브릭 및/또는 업스트림 스위치 내에서 맞춤화되지 않은 CRC 오류의 원인을 식별하기 위해 FlexPod의 일반적인 성능 문제, 특히 프레임 및 패킷 손실을 검토하는 것이 좋습니다.
이 문서는 FlexPod 구축을 위한 것이지만, 언급된 섹션은 FlexPod UCS 이외의 환경에 적용됩니다.
CRC 관련 결함 표시
UCS 환경에 Twinax 케이블링이 있는 경우, Twinax 기반 케이블링에서 대부분의 결함이 발생하므로 하나 이상의 이러한 결함이 영향을 받을 가능성이 높습니다.
옵티컬 케이블만 있는 환경에서도 문제가 발생할 수 있습니다. 어댑터와 UCS I/O 모듈(IOM) 간에 CRC 오류를 주입할 수 있기 때문입니다. 그러나 이는 특정 서버로 제한되며 업링크 또는 서버 포트 문제가 발생할 경우 여러 서버 또는 섀시에 영향을 주지 않습니다.
UCS Manager에서 포트를 비활성화/활성화하면 케이블 교체 또는 재연결과 같은 추가 작업 없이 인터페이스 오류가 중지되는 것처럼 보일 경우 소프트웨어 결함이 문제의 근본 원인인지 추가로 확인해야 합니다.
갑작스러운 포트 플랩/재부팅 후 CRC 오류가 발생한 경우 이러한 결함이 발생할 수 있습니다.
눈 높이를 확인하는 명령
CRC 관련 소프트웨어 결함의 주요 표시는 하나 이상의 포트에 대한 낮은 눈 높이 값입니다.
이를 확인하는 데 사용되는 일반적인 명령은 다음과 같습니다.
Nexus 5500 기반 스위치:
show hardware internal carmel eye
UCS 6200 패브릭 인터커넥트:
connect nxos a
show hardware internal carmel eye
exit
connect nxos b
show hardware internal carmel eye
exit
양호한 눈 높이를 보여 주는 샘플 출력(200 mv):
UCSB-5-A(nxos)# show hardware internal carmel eye
+-------+------------+-------------+------------+----------------------------+--+--+--+--+--+--+--+--+--+--+
| Port | Eye Height | Eye Width | Raw values | Time measured |St|20|21|22|23|24|25|26|2E|2F|
+-------+------------+-------------+------------+----------------------------+--+--+--+--+--+--+--+--+--+--+
Eth 1/1 | 200 mv | 796 mUI | 40/ 33 | 08/31/2016 16:48:52.345248 |a9|ee|82|00|00|6e|82|00|88|00|
fi0 | 200 mv | 843 mUI | 40/ 36 | 08/31/2016 16:48:52.350360 |00|00|00|00|00|00|00|00|00|00|
fi1 | 200 mv | 859 mUI | 40/ 37 | 08/31/2016 16:48:52.355470 |00|00|00|00|00|00|00|00|00|00|
다음 플랫폼에서 값이 다음과 같은 경우
- 50mV 이하에서 CRC 오류를 트리거하는 것으로 확인됨
- 50 - 100mV, CRC 오류를 일으킬 수 있으며 완화 권장
- 100mV 이상, CRC 오류를 발생시키지 않아야 함
위의 명령은 6332, 6454 또는 6324 Fabric Interconnect에 적용되지 않습니다.
UCS 2200 IOM 모듈:
connect local-mgmt a or connect local-mgmt b
connect iom x
show platform software woodside sts (Note: The HI number/s for the servers that you need to check)
dbgexec woo
kr_geteye HIxx
Ctrl-C to exit dbgexec mode
양호한 눈 높이(125mV)를 보여 주는 샘플 출력:
woo> kr_geteye HI31
[serdes] reg: 64/40h = 42ch
check_kr_status: HI31: up (kr_retries=0)
sent SPICO interrupt(20, 0, 49)
Vertical eye result 0x14
sent SPICO interrupt(20, 0, 49)
Horizontal eye result 0x28
HI31: 125.0 mV, 0.6250 UI (NORM)
UCS 2300 IOM 모듈:
connect local-mgmt a or connect local-mgmt b
connect iom x
show platform software tiburon sts (Note the HI number/s for the servers you need to check)
dbgexec tib
kr_geteye 0 HIxx
Ctrl-C to exit dbgexec mode
양호한 눈 높이를 보여 주는 샘플 출력(156mv):
tib> kr_geteye 0 HI31
Start eye measurement HI31...
bottom: -73.5 (mV), top: 82.7 (mV), height: 156.2 (mV)
left: -0.34 (UI), right: 0.33 (UI), width: 0.69 (UI)
total time = 0.119456 sec
이러한 플랫폼에서 높이 값이 다음과 같은 경우
- 90mV 이하에서 CRC 오류를 트리거하는 것으로 확인됨
- 90mV 이상, CRC 오류를 트리거하지 않아야 함
결함
패브릭 인터커넥트
이 결함은 업링크 및 서버 포트와 같은 패브릭 인터커넥트 포트에서 나타납니다.
UCS Infrastructure 2.2(3a)에서 수정되었습니다. 다른 고정 릴리스는 버그 검색 도구를 참조하십시오.
- 나중에 UCS 펌웨어에 영향을 주는 거의 동일한 버그:
CSCuw36398 구리 케이블의 CRC 오류 관찰
이 결함은 업링크 및 서버 포트와 같은 패브릭 인터커넥트 포트에서 확인됩니다.
UCS Infrastructure 2.2(7b)에 고정되어 있습니다. 다른 고정 릴리스는 버그 검색 도구를 참조하십시오.
IOM 및 어댑터
이 결함은 IOM HIF(Host Interfaces) 및 어댑터 백플레인 인터페이스 사이에서 관찰됩니다.
이 문제는 섀시 백플레인 문제로 인해 발생할 수 있습니다.이 문제가 발생하면 Cisco TAC에서 서비스 요청을 엽니다.
- CSCva47085 VIC1340+2304 IOM 네이티브 40g 링크 교육 문제로 연결 손실 발생
이 결함은 개별 서버에 영향을 주는 IOM HIF와 어댑터 사이에서 나타납니다.
현재 조사 중입니다.
C 시리즈
- CSCux31002 VIC 1227은 활성 twinax 케이블을 사용할 때 CRC를 표시합니다.
독립형 C Series 펌웨어 2.0(9c)에서 고정됩니다. 다른 고정 릴리스는 버그 검색 도구를 참조하십시오.
이 버그의 트리거 상태는 활성 Twinax가 활성 전원 전송으로 인해 CRC 문제를 일으킬 가능성이 적다는 일반적인 통념의 반대입니다.
Nexus 5500
- CSCuj86736 55xxUP 시리즈 스위치에서 DFE 튜닝을 최적화해야 함 - RX CRC 오류
UCS 버그는 그리 엄격하지는 않지만 Nexus 55xx 업스트림 보급도 가능하여 UCS 설정에서 흔히 볼 수 있습니다.고정 버전에 대한 자세한 내용은 버그 검색 도구를 참조하십시오.
해결 방법/완화
특정 세부 정보는 각 버그에 대한 릴리스 노트를 참조하지만, 낮은 눈 높이(Eye Height)의 증거가 발견되면 포트의 종료/종료가 적절합니다.
IOM/어댑터 눈 높이 결함의 경우 인터페이스에서 DCE를 재설정할 수 있습니다.Server(서버) > Adapter(어댑터) > DCE Interface(DCE 인터페이스) > Reset Connectivity(연결 재설정)로 이동합니다.
그런 다음 Eye Height가 양수로 증가했는지, CRC 카운터가 더 이상 증가하지 않았는지 확인하려면 출력을 확인해야 합니다.
눈 높이를 충분히 높이려면 여러 플랩(일반적으로 최대 5개)이 필요할 수 있습니다.
여러 링크 플랩 후 Eye Height가 복구되지 않으면 구성 요소에 하드웨어 오류가 발생할 수 있습니다.
포트를 플랩할 때 UCS Manager에서 얕은 검색을 트리거할 수 있습니다.
일반적인 상황에서는 얕은 검색이 데이터 플레인에 영향을 미치지 않지만 B200-M4 블레이드에 영향을 주는 알려진 결함이 있습니다(가장 일반적인 결함은 CSCut61527 참조).얕은 검색은 심층 검색으로 전환되어 호스트 OS 재부팅을 트리거할 수 있습니다.
Cisco에서는 UCS Manager 버전의 릴리스 노트를 검토하여 기타 적용 가능한 결함을 확인하는 것이 좋습니다.
수동 포트 플래핑 외에도 UCS Manager 2.2(4) 이상에서 UCS Policy-Based Port Error Handling(UCS 정책 기반 포트 오류 처리)을 사용하여 CRC 오류가 표시될 때 NIF 포트를 비활성화할 수 있습니다.이러한 작업은 CRC 오류의 영향을 신속하게 제한할 수 있지만, 트래픽 플로우의 중단이 발생할 가능성이 있으므로 기본적으로 활성화되지 않으므로 활성화한 경우 주의해야 합니다.
UCS Manager는 CRC 오류에 대한 결함을 생성하며 XML API 또는 SNMP(Simple Network Management Protocol)를 통해 이러한 결함을 모니터링할 수 있습니다.