概要
このドキュメントは、「MSO refused, Warm start-up Failed」メッセージが表示されたときに Cisco PGW 2200 のトラブルシューティングを容易にすることを目的としています。このエラーメッセージは、MMLコマンドsw-over::confirmを発行した後に表示されます。ウォーム スタートは優先順位が低く、非同期アクティビティであるため、複数のコンポーネントがスタンバイ ピアのウォーム スタートの処理中になる場合があります。アラームは、スタンバイ ユニットがスタンバイとして引き継ぐ準備ができたタイミングをオペレータが判断するのに役立ちます。procM が IOCM に Make Peer Standby の要求を送信するときにアラームを起動します。ウォーム スタートが成功した後にだけアラームを解除します。
前提条件
要件
次の項目に関する知識があることが推奨されます。
使用するコンポーネント
このドキュメントの情報は、次のソフトウェアとハードウェアのバージョンに基づいています。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、初期(デフォルト)設定の状態から起動しています。対象のネットワークが実稼働中である場合には、どのようなコマンドについても、その潜在的な影響について確実に理解しておく必要があります。
表記法
ドキュメント表記の詳細は、『シスコ テクニカル ティップスの表記法』を参照してください。
トラブルシュート
アクティブなCisco PGW 2200でMMLコマンドsw-over::Confirmを発行すると、このエラーが発生します。
PGW2200 mml> sw-over::Confirm
MGC-01 - Media Gateway Controller 2004-05-26 11:37:37.061 MEST
M DENY
SROF
"Proc Mgr"
/* MSO refused, Warm start-up Failed. */
;
PGW2200 mml>
注:「ウォームリスタート」は、スタンバイがチェックポインティングデータを受信する準備ができていることを示します。これは通常、IOCM を通じて レプリケータや IOCC MTP3 などのプロセスで発生します。これはソフトウェアが IOCM が sw-over コマンドが拒否する原因が SS7 IOCC である可能性があります。他の問題が原因となる場合もあります。この場合、このセクション内の情報を含むログ情報を収集します。
ユーザが手動スイッチオーバー(MSO)を試み、拒否されると、MML が次のいずれかの理由を示して応答します。
-
MSO refused, standby system not ready:スタンバイ システムの準備ができていなかったため、スイッチオーバーが失敗しました。
-
MSO refused, warm start-up in progress:スタンバイ システムの開始が進行中だったため、スイッチオーバーが失敗しました。
-
MSO refused, Warm start-up Failed:MSO が拒否され、ウォーム スタート時のスイッチオーバーが失敗しました。
-
MSO refused, System is not in active state:PGW 2200 のホストがアクティブ状態でないため、スイッチオーバーが失敗しました。
-
MSO refused, Detected standalone Flag:スタンバイ側の PGW 2200 ホストが設定されていないため、スイッチオーバーが失敗しました。
PGW2200 mml> rtrv-alms
MGC-01 - Media Gateway Controller 2004-05-26 11:37:40.732 MEST
M RTRV
"lnk-1-cisco1: 2004-04-29 18:24:43.766 MEST,ALM=\"SC FAIL\",SEV=MJ"
"lnk-1-cisco2: 2004-04-29 18:24:43.779 MEST,ALM=\"SC FAIL\",SEV=MJ"
"lnk-2-cisco3: 2004-04-29 18:24:43.797 MEST,ALM=\"SC FAIL\",SEV=MJ"
注:常にMMLのrtrv-almsコマンドで、sw-over::confirmコマンド中に発生するアラームを確認します。これは /opt/CiscoMGC/var/log ディレクトリにある UNIX コマンド tail -f platform.log と組み合わせて実行します。さらに、sw-over コマンドにリンクされているエラー メッセージを確認します。
この状況にリンクされている platform.log のエラー メッセージは次のとおりです。
Wed May 1 16:13:47:752 2004 MEST | ProcessManager
(PID 698) <Error>GEN_ERR_HA_MSO: Cannot comply with Manual
Switch Over request. Reason Warm start up failed
トラブルシューティングの手順の例
Standby Warm Start アラームは、IOCM のウォーム スタート プロセスの開始時にアクティブ ボックスで設定されます。
このアラームは、ウォームスタート プロセスが正常に完了した場合に限り、アクティブ ボックスから自動的にクリアされます。
ウォームスタートが失敗した場合、このアラームはクリアされません。この場合、アラームはウォームスタートが後で正常に処理された場合に限り、クリアされます。
このアラームには、手動スイッチオーバーが拒否されるという効果があります。
次に、アラームがクリアされない場合の是正措置を示します。
-
アクティブおよびスタンバイPGW 2200でpom.dataSyncパラメータがtrueに設定されていることを確認します。
-
スタンバイ側の PGW 2200 ソフトウェアを停止してからもう一度起動します。
-
アラームが依然としてクリアされない場合、テクニカル サポートのサービス リクエストをオープンし、/opt/CiscoMGC/var/log ディレクトリにある platform.log と mml.log - alarm.log、現在の PGW 2200 の設定、アラームが発生したときの前の 2 つの設定ディレクトリ(CFG_)、両方の PGW 2200 からのサービス リクエストへの platform.log を記録します。
トラブルシューティング手順の例を以下に示します。
-
このエラー メッセージに関連する項目については、リリース ノートを参照してください。これらは Cisco PGW 2200 以降のリリースで修正されます。
破損したパッチを実行しないでください。/opt/CiscoMGC/var/log ディレクトリで問題が報告された時点、platform.log ファイルを確認します。また、/var/adm ディレクトリにある UNIX エラー メッセージに関連するファイル メッセージを確認します。
シスコでは、最新の Cisco PGW 2200 パッチにアップグレードすることを推奨します。
この手順をすべて実現したら、手順 2 に進みます。
-
netstat -a コマンドを発行し、複製が Established モード(たとえばアクティブ <-> スタンバイ)かどうかを確認します。
MML prov-sync コマンドを発行して正常に動作することを確認します。また、sw-over::confirmコマンドを再度発行し、ステータスを確認します。Cisco PGW 2200 は、複製 TCP ポート 2970、2974 を使用します。
たとえば、ESTABLISHED モードであるかどうかを確認するため、アクティブ システムをチェックします。
mgc-bru-20 mml> rtrv-ne
MGC-01 - Media Gateway Controller 2004-05-28 11:03:46.236 GMT
M RTRV
"Type:MGC"
"Hardware platform:sun4u sparc SUNW,UltraAX-i2"
"Vendor:"Cisco Systems, Inc.""
"Location:MGC-01 - Media Gateway Controller"
"Version:"9.3(2)""
"Platform State:ACTIVE"
;
mgc-bru-20 mml>
mgcusr@mgc-bru-20% netstat -a | grep 29\[0-9\]\[0-9\]
mgc-bru-20.2974 *.* 0 0 24576 0 LISTEN
mgc-bru-20.2970 *.* 0 0 24576 0 LISTEN
mgc-bru-20.37637 mgc-bru-22.2974 24820 0 24820 0 ESTABLISHED
mgc-bru-20.37638 mgc-bru-22.2970 24820 0 24820 0 ESTABLISHED
mgc-bru-20.telnet dhcp-peg3-cl31144-254-5-149.cisco.com.2906 65256 3 25D
mgcusr@mgc-bru-20%
この例では、スタンバイ側のシステムが ESTABLISHED モードであるか確認します。
mgc-bru-22 mml> rtrv-ne
MGC-01 - Media Gateway Controller 2004-05-28 13:09:20.552 MSD
M RTRV
"Type:MGC"
"Hardware platform:sun4u sparc SUNW,Ultra-5_10"
"Vendor:"Cisco Systems, Inc.""
"Location:MGC-01 - Media Gateway Controller"
"Version:"9.3(2)""
"Platform State:STANDBY"
;
mgc-bru-22 mml>
mgcusr@mgc-bru-22% netstat -a | grep 29\[0-9\]\[0-9\]
mgc-bru-22.2974 *.* 0 0 24576 0 LISTEN
mgc-bru-22.2970 *.* 0 0 24576 0 LISTEN
mgc-bru-22.2974 mgc-bru-20.37637 24820 0 24820 0 ESTABLISHED
mgc-bru-22.2970 mgc-bru-20.37638 24820 0 24820 0 ESTABLISHED
mgc-bru-22.telnet dhcp-peg3-cl31144-254-5-149.cisco.com.2910 65256 1 25D
mgcusr@mgc-bru-22%
問題がなければ、手順 3 に進みます。
-
UNIX diff コマンドを使用して、アクティブおよびスタンバイの両方の設定が同一であることを確認します。
UNIX コマンド netstat -i を発行して、Ierrs、Oerrs、および Collis の値が増加しているカウンタがないか確認します。
mgcusr@PGW2200% netstat -i
Name Mtu Net/Dest Address Ipkts Ierrs Opkts Oerrs Collis Queue
lo0 8232 loopback localhost 28389215 0 28389215 0 0 0
eri0 1500 mgc-bru-20 mgc-bru-20 187731714 231 185007958 3 0
eri1 1500 mgc-bru-20b mgc-bru-20b 0 0 82 2 0 0
mgcusr@PGW2200%
Cisco PGW 2200 の設定をチェックし、/opt ディレクトリの下で Cisco PGW 2200 のスタンバイ ファイルを作成します。これは、最終チェック後に削除する一時ディレクトリです。
#mkdir temp
FTP を使用して、opt/CiscoMGC/etc ディレクトリの下の [Cisco PGW 2200 Active] のすべての情報をコピーします。/opt/temp ディレクトリおよびそのサブディレクトリにある [Cisco PGW 2200 Standby] にこの情報を移動します。これを行う前に、アクティブ/スタンバイ側の Cisco PGW 2200 のバックアップがあることを確認します。
注: UNIX dircmpコマンドの実行中は、XECfgParm.datのみが変更されます。また、UNIX コマンド diff を実行することもできます。
# dircmp -d /opt/temp /opt/CiscoMGC/etc/
May 31 13:52 2004 Comparison of /opt/temp /opt/CiscoMGC/etc/ Page 1
directory .
same ./accRespCat.dat
same ./alarmCats.dat
same ./alarmTable.dat
same ./auxSigPath.dat
same ./bearChan.dat
same ./bearChanSwitched.dat
same ./buckets.dat
same ./cable.dat
same ./charge.dat
same ./chargeholiday.dat
same ./codec.dat
same ./components.dat
same ./compTypes.dat
same ./condRoute.dat
same ./Copyright
same ./crossConnect.dat
same ./dependencies.dat
same ./dialplan.dat
same ./digitAnalysis.dat
same ./dmprSink.dat
same ./dns.dat
same ./dpc.dat
same ./extNodes.dat
same ./extNodeTypes.dat
same ./extProcess.dat
same ./files.dat
same ./gtdParam.dat
same ./linkSetProtocol.dat
same ./mclCallReject.dat
same ./mclThreshold.dat
same ./mdlProcess.dat
same ./measCats.dat
same ./measProfs.dat
same ./mmlCommands.dat
same ./percRoute.dat
same ./physLineIf.dat
same ./processes.dat
same ./procGroups.dat
same ./profileComps.dat
same ./profiles.dat
same ./profileTypes.dat
same ./properties.dat
same ./propSet.xml.dat
same ./propSet.xml.dat.old.newfile
same ./propSet.xml.dat.old.newfile.newfile
same ./propSet.xml.dat.old.newfile.newfile.newfile
same ./propVal.xsd.dat
same ./routeAnalysis.bin
same ./routeAnalysis.dat
same ./routes.dat
same ./services.dat
same ./sigChanDev.dat
same ./sigChanDevIp.dat
same ./sigPath.dat
same ./snmpmgr.dat
same ./stp.dat
same ./tables.dat
same ./tariff.dat
same ./testLine.dat
same ./thresholds.dat
same ./trigger.dat
same ./trigger.template
same ./trunkGroup.dat
same ./variant.dat
same ./variant.dat.old.newfile
same ./variant.dat.old.newfile.newfile
same ./variant.dat.old.newfile.newfile.newfile
same ./version.dat
different ./XECfgParm.dat
トラブルシューティングの参考に、これらの問題が発生した時間の前後でネットワークで何が変化したかを考える必要もあります。たとえば、ゲートウェイのアップグレード、設定の変更、新しい回線の追加などがあります。
この手順に問題がなければ、手順 4 に進みます。
-
ほとんどの場合、このエラー メッセージは I/O チャネル コントローラ(IOCC)プロセスの動作停止、またはスタンバイ側の Cisco PGW 2200 の障害に関係しています。こうした場合には、UNIX コマンド ./CiscoMGC stop を使用して、スタンバイ側の Cisco PGW 2200 のアプリケーションを停止してからもう一度起動します。次に、/etc/init.d ディレクトリで ./CiscoMGC start command を使用してアプリケーションを再起動します。
Cisco PGW 2200スタンバイホストでMMLコマンドrtrv-softw:allを実行し、すべてのプロセスが正しく実行されていることを確認します。
PGW2200 mml> rtrv-softw:all
MGC-01 - Media Gateway Controller 2004-05-31 13:04:21.410 MSD
M RTRV
"CFM-01:RUNNING STANDBY"
"ALM-01:RUNNING STANDBY"
"MM-01:RUNNING STANDBY"
"AMDMPR-01:RUNNING STANDBY"
"CDRDMPR-01:RUNNING STANDBY"
"DSKM-01:RUNNING IN N/A STATE"
"MMDB-01:RUNNING IN N/A STATE"
"POM-01:RUNNING STANDBY"
"MEASAGT:RUNNING STANDBY"
"OPERSAGT:RUNNING STANDBY"
"ss7-i-1:RUNNING IN N/A STATE"
"mgcp-1:RUNNING IN N/A STATE"
"Replic-01:RUNNING STANDBY"
"ENG-01:RUNNING STANDBY"
"IOCM-01:RUNNING STANDBY"
"TCAP-01:RUNNING IN N/A STATE"
"eisup-1:RUNNING IN N/A STATE"
"FOD-01:RUNNING IN N/A STATE"
"sip-1:RUNNING IN N/A STATE"
;
PGW2200 mml>
すべてのプロセスが正常に実行されているにもかかわらず、MMLコマンドsw-over中にエラーメッセージが表示される場合は、ステップ5に進みます。そうでない場合は、失敗の理由を確認します。
一例として、更新を行って新しい SS7 トランクを追加すると、この sw-over 失敗メッセージが表示される場合があります。この時点で、ss7-i-1 プロセスをデバッグ モードに変更してください。これにより、/opt/CiscoMGC/var/log/platform.log ファイルのエラー メッセージについての詳細がわかります。デフォルトがエラー状態に相当します。
PGW2200 mml>rtrv-log:all
MGC-01 - Media Gateway Controller 2004-05-31 13:10:35.376 MSD
M RTRV
"CFM-01:ERR"
"ALM-01:ERR"
"MM-01:ERR"
"AMDMPR-01:ERR"
"CDRDMPR-01:ERR"
"DSKM-01:ERR"
"MMDB-01:ERR"
"POM-01:ERR"
"MEASAGT:ERR"
"OPERSAGT:ERR"
"ss7-i-1:ERR"
"mgcp-1:ERR"
"Replic-01:ERR"
"ENG-01:ERR"
"IOCM-01:ERR"
"TCAP-01:ERR"
"eisup-1:ERR"
"FOD-01:ERR"
"sip-1:ERR"
;
PGW2200 mml>
-
この MML コマンドをスタンバイ側の Cisco PGW 2200 ホストで使用して、ss7-i-1 プロセスをデバッグ モードに変更します。
mml> set-log:ss7-i-1:debug,confirm
-
UNIX コマンド vi を発行して、スタンバイ側の XECfgParm.dat ファイルで /opt/CiscoMGC/etc ディレクトリにある # 文字を削除します。
ioChanMgr.logPrio = Debug
foverd.logPrio = Debug
-
/etc/init.d ディレクトリの下で、コマンド ./CiscoMGC/stop および ./CiscoMGC/start をスタンバイ側 Cisco PGW 2200 で実行します。
-
MMLコマンドsw-over::confirmを再度発行します。次に、MML コマンド rtrv-alms と UNIX コマンド tail -f platform.log でエラー メッセージ情報をチェックします。
-
アクティブな Cisco PGW 2200 の複製プロセスがアクティブ状態であるかどうかを確認します。
PGW2200 mml> rtrv-softw:all
<snip>
"Replic-01:RUNNING ACTIVE"
<snip>
すべての情報を集め、サービス リクエストにこれらの詳細情報を記入します。
-
この手順は、上記のすべての手順をテスト/確認した場合に進むことができます。これは、アクティブ側の Cisco PGW 2200 にまだ問題が存在している可能性があるためです。
メンテナンス ウィンドウの間に、/etc/init.d/CiscoMGC stop コマンドを使用してアクティブな Cisco PGW 2200 をシャットダウンする必要があります。
スタンバイは引き継ぐ必要があります。ただし、この手順を実行する前に、アクティブシステム(ステップ3)およびrtrv-tc:allコマンドからのすべての設定情報が、コールのステータスがアクティブCisco PGW 2200以上であることを確認します。また、rtrv-softw:allコマンドを使用して、すべてのプロセスがSTANDBY状態であることを確認します。
この手順が失敗した場合、エラー メッセージに関係するすべての詳細情報が記載されたサービス リクエストをオープンします。
関連情報