概要
このドキュメントでは、インターフェイスの巡回冗長検査(CRC)またはフレームチェックシーケンス(FCS)のエラーカウンタによって識別される、破損したデータフレームがUnified Computing System(UCS)ファブリックに挿入される可能性がある主要なソフトウェア不具合について説明します。
注:このドキュメントでは、CRCインジェクションのポイントを切り離す方法については説明しません。
背景説明
UCS環境では、CRCエラーが大きな影響を与える可能性があります。このようなエラーの原因の切り分けと緩和は、高い優先順位で処理する必要があります。
この影響は、問題が発生するポイントによって異なります。このポイントは複数のシャーシに拡張され、イーサネットとストレージの両方の接続に影響を与える可能性があります。
物理コンポーネントの障害(特にケーブルとSmall Form-Factor Pluggable(SFP))が最も頻繁に発生する原因ですが、CRCエラーを引き起こす可能性がある既知のソフトウェア不具合があります。
これらの不具合は、さまざまなコンポーネント間の低信号強度を引き起こし、フレームの破損につながります。
参照できる重要な概念は、物理層コンポーネント間の信号完全性の測定であるEye Heightです。信号レベルが特定のレベル(コンポーネントによって異なる)を下回ると、送受信されたフレームが破損する可能性があります。
UCSファブリックまたはアップストリームスイッチ内のCRCエラーの原因を特定するために、「FlexPodの一般的なパフォーマンスの問題」、特に「フレームおよびパケット損失」を確認しておくことを推奨します。
このドキュメントはFlexPodの導入を目的としていますが、このセクションはFlexPod以外のUCS環境に適用できます。
CRCの兆候に関連する不具合
UCS環境でTwinaxケーブルを使用している場合は、Twinaxベースのケーブル配線に関する不具合の大部分が使用されるため、これらの不具合の1つ以上の影響を受ける可能性が高くなります。
アダプタとUCS I/Oモジュール(IOM)の間でCRCエラーが挿入される可能性があるため、光ケーブルのみの環境でも問題が発生する可能性があります。 ただし、これは特定のサーバに限定されており、アップリンクまたはサーバポートの問題の場合は、複数のサーバまたはシャーシに影響を与えることはありません。
UCS Managerのポートのdisable/enableが、ケーブルの交換や抜き差しなどのアクションなしでインターフェイスエラーを停止するような場合は、ソフトウェアの不具合が問題の根本原因であるかどうかを確認するためにさらにチェックを行う必要があります。
ポートの突然のフラップまたはリブート後にCRCエラーが発生した場合、これらの不具合が原因である可能性があります。
目の高さを確認するコマンド
CRC関連のソフトウェア不具合の主な指標は、1つ以上のポートのEye Height値が低いことです。
これを確認するための一般的なコマンドは次のとおりです。
Nexus 5500ベースのスイッチ:
show hardware internal carmel eye
UCS 6200ファブリックインターコネクト:
connect nxos a
show hardware internal carmel eye
exit
connect nxos b
show hardware internal carmel eye
exit
良好なEye Height(200 mv)を示すサンプル出力:
UCSB-5-A(nxos)# show hardware internal carmel eye
+-------+------------+-------------+------------+----------------------------+--+--+--+--+--+--+--+--+--+--+
| Port | Eye Height | Eye Width | Raw values | Time measured |St|20|21|22|23|24|25|26|2E|2F|
+-------+------------+-------------+------------+----------------------------+--+--+--+--+--+--+--+--+--+--+
Eth 1/1 | 200 mv | 796 mUI | 40/ 33 | 08/31/2016 16:48:52.345248 |a9|ee|82|00|00|6e|82|00|88|00|
fi0 | 200 mv | 843 mUI | 40/ 36 | 08/31/2016 16:48:52.350360 |00|00|00|00|00|00|00|00|00|00|
fi1 | 200 mv | 859 mUI | 40/ 37 | 08/31/2016 16:48:52.355470 |00|00|00|00|00|00|00|00|00|00|
これらのプラットフォームでは、値が次の場合:
- 50 mV未満では、CRCエラーをトリガーすることが確認されています
- 50 ~ 100 mV、CRCエラーを引き起こす可能性があり、緩和策が推奨されます
- 100 mVを超える場合、CRCエラーを引き起こしてはならない
上記のコマンドは、6332、6454、または6324ファブリックインターコネクトには適用されません
UCS 2200 IOMモジュール:
connect local-mgmt a or connect local-mgmt b
connect iom x
show platform software woodside sts (Note: The HI number/s for the servers that you need to check)
dbgexec woo
kr_geteye HIxx
Ctrl-C to exit dbgexec mode
良好な眼高(125 mV)を示す出力例:
woo> kr_geteye HI31
[serdes] reg: 64/40h = 42ch
check_kr_status: HI31: up (kr_retries=0)
sent SPICO interrupt(20, 0, 49)
Vertical eye result 0x14
sent SPICO interrupt(20, 0, 49)
Horizontal eye result 0x28
HI31: 125.0 mV, 0.6250 UI (NORM)
UCS 2300 IOMモジュール:
connect local-mgmt a or connect local-mgmt b
connect iom x
show platform software tiburon sts (Note the HI number/s for the servers you need to check)
dbgexec tib
kr_geteye 0 HIxx
Ctrl-C to exit dbgexec mode
良好なEye Height(156 mv)を示すサンプル出力:
tib> kr_geteye 0 HI31
Start eye measurement HI31...
bottom: -73.5 (mV), top: 82.7 (mV), height: 156.2 (mV)
left: -0.34 (UI), right: 0.33 (UI), width: 0.69 (UI)
total time = 0.119456 sec
これらのプラットフォームで、高さの値が次の場合:
- 90 mV未満では、CRCエラーをトリガーすることが確認されています
- 90 mVを超える場合、CRCエラーをトリガーしてはなりません
不具合
Fabric Interconnect
この不具合は、アップリンクやサーバポートなどのファブリックインターコネクトポートで発生します。
これはUCS Infrastructure 2.2(3a)で修正されています。他の修正済みリリースについては、バグ検索ツールを参照してください。
- 後でUCSファームウェアに影響を与えるほぼ同じバグ:
CSCuw36398:Observing CRC errors on Copper cable
この不具合は、アップリンクやサーバポートなどのファブリックインターコネクトポートで発生します
UCS Infrastructure 2.2(7b)で修正されています。 その他の修正済みリリースについては、Bug Search Toolを参照してください。
IOMおよびアダプタ
この不具合は、IOMホストインターフェイス(HIF)とアダプタバックプレーンインターフェイスの間で発生します。
これは、シャーシバックプレーンの問題が原因である可能性があることが判明しています。この問題が発生した場合は、Cisco TACでサービスリクエストをオープンしてください。
- CSCva47085 VIC1340+2304 IOMネイティブ40gリンクトレーニングの問題で接続損失が発生
この不具合は、IOM HIFとアダプタの間で発生し、個々のサーバに影響します。
現在調査中。
Cシリーズ
- CSCux31002 VIC 1227では、アクティブなtwinaxケーブルを使用するとCRCが表示されます。
スタンドアロンCシリーズファームウェア2.0(9c)で修正。 その他の修正済みリリースについては、Bug Search Toolを参照してください。
このバグのトリガー状態は、アクティブTwinaxがアクティブな電力伝送のためにCRCの問題を引き起こす可能性が低いという一般的な考え方の逆です。
Nexus 5500
- CSCuj8673655xxUPシリーズスイッチのDFEチューニングを最適化する必要 – RX CRCエラー
UCSのバグではありませんが、Nexus 55xxアップストリームの普及により、UCSのセットアップではまだ一般的に見られます。修正バージョンの詳細については、Bug Search Toolを参照してください。
回避策と軽減
具体的な詳細については、各バグのリリースノートを参照してください。ただし、目高が低い証拠が見つかった場合は、ポートのshut/no shutが妥当です。
IOM/アダプタアイハイト不具合の場合は、インターフェイスのDCEをリセットできます。必要に応じて、[Server] > [Adapter] > [DCE Interface] > [Reset Connection]に移動します。
次に、Eye Heightが適切な値に増加しているか、CRCカウンタが増加していないかを確認するために、出力をチェックする必要があります。
目の高さを十分に高くするには、いくつかのフラップ(通常5まで)が必要です。
いくつかのリンクフラップが発生した後にEye Heightが回復しない場合、コンポーネントのハードウェア障害が発生する可能性があります。
ポートをフラップする場合は、UCS Managerによる浅い検出がトリガーされる可能性があることに注意してください。
通常の状況での浅い検出はデータプレーンに影響しませんが、B200-M4ブレードに影響を与える既知の不具合があります(最も一般的な不具合についてはCSCut61527を参照)。浅いディスカバリは深いディスカバリになり、ホストOSのリブートをトリガーできます。
他の該当するバージョンについては、ご使用のUCS Managerバージョンのリリースノートを参照することをお勧めします。この不具合は次のとおりです。
UCS Manager 2.2(4)以降のUCSポリシーベースのポートエラー処理を使用して、CRCエラーが発生した場合にNIFポートを無効にすることができます。このようなアクションはCRCエラーの影響を迅速に制限できますが、トラフィックフローが中断する可能性があるため、デフォルトでは有効になっていないため、有効にした場合は注意が必要です。
UCS ManagerはCRCエラーの障害を生成し、このような障害はXML APIまたはSimple Network Management Protocol(SNMP)を介して監視できます。