تسعى مجموعة الوثائق لهذا المنتج جاهدة لاستخدام لغة خالية من التحيز. لأغراض مجموعة الوثائق هذه، يتم تعريف "خالية من التحيز" على أنها لغة لا تعني التمييز على أساس العمر، والإعاقة، والجنس، والهوية العرقية، والهوية الإثنية، والتوجه الجنسي، والحالة الاجتماعية والاقتصادية، والتمييز متعدد الجوانب. قد تكون الاستثناءات موجودة في الوثائق بسبب اللغة التي يتم تشفيرها بشكل ثابت في واجهات المستخدم الخاصة ببرنامج المنتج، أو اللغة المستخدمة بناءً على وثائق RFP، أو اللغة التي يستخدمها منتج الجهة الخارجية المُشار إليه. تعرّف على المزيد حول كيفية استخدام Cisco للغة الشاملة.
ترجمت Cisco هذا المستند باستخدام مجموعة من التقنيات الآلية والبشرية لتقديم محتوى دعم للمستخدمين في جميع أنحاء العالم بلغتهم الخاصة. يُرجى ملاحظة أن أفضل ترجمة آلية لن تكون دقيقة كما هو الحال مع الترجمة الاحترافية التي يقدمها مترجم محترف. تخلي Cisco Systems مسئوليتها عن دقة هذه الترجمات وتُوصي بالرجوع دائمًا إلى المستند الإنجليزي الأصلي (الرابط متوفر).
هذا المستند dإسكريبات كيفية أستكشاف أخطاء عمليات إعادة التحميل أو الأعطال غير المتوقعة على محولات Nexus 9000 وإصلاحها.
لا توجد متطلبات لهذا المستند.
لا يقتصر هذا المستند على إصدارات برامج ومكونات مادية معينة.
تم إنشاء المعلومات الواردة في هذا المستند من الأجهزة الموجودة في بيئة معملية خاصة. بدأت جميع الأجهزة المُستخدمة في هذا المستند بتكوين ممسوح (افتراضي). إذا كانت شبكتك قيد التشغيل، فتأكد من فهمك للتأثير المحتمل لأي أمر.
NX-OS من Cisco هو نظام تشغيل مرن تم تصميمه خصيصا للحصول على توفر عال على مستويات الشبكة والنظام والعمليات.
هناك 3 أسباب لحدوث إعادة تحميل غير متوقع على Nexus 9000:
النواة نفسها تواجه حالة لا يمكن علاجها وتعطل.
N9K#show system reset-reason module 1 ----- reset reason for Supervisor-module 1 (from Supervisor in slot 1) --- 1) At 21301 usecs after Tue Jan 17 20:29:20 2023 Reason: Reset Requested due to Fatal Module Error Service: ipfib hap reset Version: 9.3(8)
N9K#show cores
VDC Module Instance Process-name PID Date(Year-Month-Day Time)
--- ------ -------- --------------- -------- -------------------------
A B C D E 2024-01-04 19:17:25
copy core://<module-number>/<process-id>[/instance-num]
copy core://B/E/C ftp://<address>/<directory>
show logging onboard
show logging onboard kernel-trace
show logging onboard stack-trace
**************************************************************
STACK TRACE GENERATED AT Sun Sep 10 19:06:39 2023 CCT
**************************************************************
<snip> >>>dumps kernel massages before reload
<0>[10925084.972289] [1694343998] sysServices Unexpected call in interrupt context, serviceId=824
<0>[10925084.980666] [1694343998] cctrl_set_card_offline - EOBC switch reset failed
<0>[10925084.987824] [1694343998] sysServices Unexpected call in interrupt context, serviceId=824
<0>[10925084.996200] [1694343998] cctrl_set_card_offline - EPC switch reset failed
<snip>
<4>[10925085.040600] [1694343998] Dumping interrupt statistics >>>dump interrupt statictics
<4>[10925085.045928] [1694343998] CPU0 CPU1
<4>[10925085.051732] [1694343998] 3: 0 0 axp_irq Armada Error Handler
<4>[10925085.059909] [1694343998] 4: 0 0 axp_irq Armada MBUS unit Error Handle
<4>[10925085.068957] [1694343998] 5: 1012335907 809985523 axp_irq axp_local_clockevent
<4>[10925085.077136] [1694343998] 8: 1260801154 0 axp_irq mv_eth
<4>[10925085.084108] [1694343998] 31: 11230 0 axp_irq mv64xxx_i2c
<4>[10925085.091508] [1694343998] 41: 7111 1 axp_irq serial
<4>[10925085.098471] [1694343998] 51: 2 0 axp_irq mv_xor.0
<4>[10925085.105602] [1694343998] 52: 2 0 axp_irq mv_xor.1
<4>[10925085.112760] [1694343998] 94: 1 0 axp_irq mv_xor.2
<4>[10925085.119890] [1694343998] 95: 1 0 axp_irq mv_xor.3
<4>[10925085.127029] [1694343998] 107: 0 0 axp_irq axp-temp
<4>[10925085.134200] [1694343998] 168: 0 0 axp_irq cctrl_mrv_nmi_irq
<4>[10925085.142134] [1694343998] 195: 29 0 axp_msi_irq cctrl_sc_msi_irq
<4>[10925085.150225] [1694343998] 196: 0 2399172865 axp_msi_irq linux-kernel-bde
<4>[10925085.158325] [1694343998] IPI0 : 0 0 Timer broadcast interrupts
<4>[10925085.166130] [1694343998] IPI1 : 1711470501 3532640372 Rescheduling interrupts
<4>[10925085.173672] [1694343998] IPI2 : 0 0 Function call interrupts
<4>[10925085.181302] [1694343998] IPI3 : 44582 118572 Single function call interrupts
<4>[10925085.189541] [1694343998] IPI4 : 0 0 CPU stop interrupts
<4>[10925085.196734] [1694343998] PMU: : 0 0
<4>[10925085.202186] [1694343998] Err : 0
show logging onboard exception-log >>>Check if any exception is raised before reload
N9K# show processes log details >>>detail process memory usage prior to crash
Service: ethpm
Description: Test Ethernet Port Manager
Executable: /isan/bin/ethpm
Started at Wed Jun 5 18:20:46 2023 (251615 us)
Stopped at Sat Jun 8 00:08:53 2023 (661042 us)
Uptime: 2 days 5 hours 48 minutes 7 seconds
Start type: SRV_OPTION_RESTART_STATELESS (23)
Death reason: SYSMGR_DEATH_REASON_FAILURE_SIGNAL (2)
Last heartbeat 48.10 secs ago
System image name:
System image version: 7.0(3)I7(6)
PID: 28914
Exit code: signal 5 (core dumped)
CWD: /var/sysmgr/work
RLIMIT_AS: 1019819820 >>>limit memory usage
Virtual Memory:
CODE 1007E000 - 1068DBD4
DATA 1068E000 - 106DC3E8
BRK 1194F000 - 11CF9000
STACK FFA28650
TOTAL 576004 KB >>>memory usage before crash
يوجد سجل دخول مدمج على Nexus 9000، وتنجو ملفات السجل بعد إعادة التحميل.
N9K#dir logflash:log | grep messages
3714961 Jan 13 18:05:31 2024 messages
4194331 Jan 13 17:30:14 2021 messages.1
5497842 May 11 15:59:00 2021 messages.2
4194341 Jul 30 07:25:36 2022 messages.3
4194510 Feb 09 14:50:50 2023 messages.4
4194426 Jun 04 05:00:40 2023 messages.5
N9K#show file logflash:log/messages
N9K#show file logflash:log/messages.1
N9K#show file logflash:log/messages.2
N9K#show file logflash:log/messages.3
N9K#show file logflash:log/messages.4
N9K#show file logflash:log/messages.5
N9K#show system reset-reason
----- reset reason for module 1 (from Supervisor in slot 1) ---
1) At 280125 usecs after Fri Aug 4 02:01:14 2023
Reason: Module PowerCycled
Service: HW check by card-client
Version:
يدعم المحول Nexus 9000 switch تكرار طاقة N+1. إذا حدث انقطاع التيار الكهربائي في معظم أو جميع مصادر الطاقة، فتحدث عملية إعادة تحميل.
1. تحقق من أسلاك الطاقة الخاصة بوحدات إمداد الطاقة.
2. تحقق مما إذا كانت الأجهزة الأخرى التي تتشارك في دائرة الدخول نفسها قد تعرضت أيضا لانقطاع.
3. تحقق مما إذا كان هناك أي تنبيه متعلق بالطاقة على Nexus 9000 أو PDU.
N9K#show system reset-reason module 1
----- reset reason for Supervisor-module 1 (from Supervisor in slot 1)
1) At 21301 usecs after Tue Jan 17 20:29:20 2023
Reason: Reset Requested due to Fatal Module Error
Service: ipfib hap reset >>>ipfib process reset
Version: 9.3(8)
لكل خدمة سياسة التوافر العالي (HA) الخاصة بها، بما في ذلك مؤقت نبضات القلب، وأسلوب إعادة التشغيل، وإعادة المحاولة القصوى ذات الحالة. يتيح برنامج NX-OS من Cisco عمليات إعادة بدء تشغيل تتسم بخطورة بالغة لمعظم العمليات والخدمات. تحدث عملية إعادة التحميل في حالة إعادة تعيين نهج العملية (يتعذر على NX-OS العمل أثناء إعادة تشغيل العملية) أو في حالة وصول وقت إعادة تشغيل العملية إلى الحد الأقصى لإعادة المحاولة.
`show cores` VDC Module Instance Process-name PID Date(Year-Month-Day Time) --- ------ -------- --------------- -------- ------------------------- 1 1 1 ipfib 27446 2023-01-17 20:30:30
copy core://1/27446/1 ftp://<address>/<directory>
معظم أعطال العملية هو خلل في البرنامج والملف الأساسي محفوظ، افتح حالة طلب خدمة للتأكيد.
2018 Jan 21 01:56:42.789 N9K#%KERN-0-SYSTEM_MSG: [4590707.849157] [1516460202] EMON: module 2 is not responding on EOBC path. Reloading module. - kernel 2018 Jan 21 01:56:43.071 N9K#%MODULE-2-MOD_DIAG_FAIL: Module 2 (Serial number: xxxxxxxxxx) reported failure due to EOBC heartbeat failure in device DEV_EOBC_MAC (device error 0xc0a1b137)
يتميز عنصر التحكم في الوصول للبنية الأساسية (EOBC) بقصره على قناة الإيثرنت خارج النطاق الترددي. رسائل تنشيط الاتصال العادية تنتقل بين المشرف وبطاقات الخط. تشير رسائل الخطأ التي تلقيتها إلى فقدان نبض القلب بين SUP و Linecard. إذا فقدت نبضة قلب واحدة، يمكن تجاهلها تلقائيا. ولكن، إذا فقدت نبضات قلب متعددة في وقت واحد، فسيعاد تعيين بطاقة الخط.
عادة ما يكون هناك ثلاثة أسباب لفشل EOBC:
1. إزدحام EOBC. يمكنك أن ترى فقد أكثر من 1 لعبة Linecard.
2. إدخال وحدة المعالجة المركزية (CPU) في وحدة (وحدات) معينة. وحدة المعالجة المركزية Linecard/Supervisor مشغولة وغير قادرة على معالجة رسائل EOBC. يوجد تحسين للبرامج بدءا من Nexus 9000 من الإصدار 7.0(3)I7(3).
3. عطل الجهاز.
1. تحقق مما إذا كان هناك أي رمز CPUhog لبطاقة الخط المتأثرة حول إعادة التحميل.
2. تحقق مما إذا كانت لعبة الخط الأخرى تعاني من فقدان EOBC حول إعادة التحميل.
3. تأكد مما إذا كان قد تم نشر BFD أو خدمة إستهلاك وحدة المعالجة المركزية (CPU) الخاصة ب NetFlow مؤخرا.
4. إذا حدث ذلك عدة مرات دون أي معلومات، فاستبدل الأجهزة.
N9K#show logging onboard stack-trace ************************************************************** STACK TRACE GENERATED AT Tue Sep 21 02:27:58 2021 UTC ************************************************************** <0>[88302546.800770] [1632158876] ERROR: MACHINE: Uncorrectable <0>[88302546.809202] [1632158876] L2CACHE ERROR: Cause 0x88 <0>[88302546.814368] [1632158876] TAG Parity Error >>>>>Parity error <0>[88302546.818750] [1632158876] Kernel panic - not syncing: L2CACHE ERROR <4>[88302546.825212] [1632158876] Cpu: 0 Pid: 0, comm: swapper/0
يحدث خطأ التماثل عندما يتم قلب جزء من المعلومات من 1 إلى 0 أو 0 إلى 1.
ترجع أغلب أخطاء التماثل إلى ظروف بيئية كهراكدية أو مرتبطة بالمغناطيسية. تحدث هذه الأحداث بشكل عشوائي ولا يمكن منعها.
تكشف الأنظمة عن حدوث هذا الخطأ وتفرض على النظام التعطل لمنع معالجة البيانات غير الصحيحة. ولا يشير حدوث واحد إلى وجود مشكلة في الجهاز أو البرنامج.
يمكن أن تكون أخطاء التماثل عمليات زائدة عابرة لأحداث واحدة (SEU)، أو قد تكون ناجمة عن أجهزة معيبة. لتحديد أي من هذه العناصر، يلزمك مراقبة الجهاز لمدة 48 ساعة لمعرفة ما إذا كان لديه تكرار أم لا.
وإذا لم يحدث مرة أخرى في غضون 48 ساعة، اعتبرت المشكلة عابرة، فلا حاجة إلى إجراء.
تحدث أخطاء التماثل (الثابتة) المتكررة أو المتكررة بسبب الخلل الوظيفي للذاكرة أو الدوائر المستخدمة في القراءة والكتابة. في مثل هذه الحالات، استبدل الأجهزة.
N9K#show logging onboard stack-trace
<6>[ 105.196227] CCTRL PANIC DUMP <6>[ 105.196229] ========================= <6>[ 105.196231] WDT last punched at 105192052644 <6>[ 105.196234] REG(0x60) = 3c <6>[ 105.196238] REG(0x64) = 0 <6>[ 105.196241] REG(0x300) = baadbeef <6>[ 105.196245] REG(0x304) = baadbeef <6>[ 105.196246] ========================= <0>[ 105.197303] nxos_panic: Kernel panic - not syncing: PCIE Uncorrectable error >>>>>PCIE Uncorrectable error
يتم تصنيف أخطاء PCIe إلى نوعين: الأخطاء القابلة للتصحيح والأخطاء غير القابلة للتصحيح. ويستند هذا التصنيف إلى تأثير تلك الأخطاء، مما يؤدي إلى انخفاض الأداء أو فشل الوظيفة.
لا تؤثر الأخطاء القابلة للتصحيح على وظيفة الواجهة. ويمكن إسترداد بروتوكول PCIe دون أي تدخل في البرامج أو أي فقد للبيانات. يتم اكتشاف هذه الأخطاء وتصحيحها بواسطة الأجهزة.
تؤثر الأخطاء غير القابلة للتصحيح على وظائف الواجهة. قد تؤدي الأخطاء غير القابلة للتصحيح إلى عدم الاعتماد على معاملة معينة أو إرتباط PCIe معين. على حسب حالات الخطأ تلك، يتم تصنيف الأخطاء غير القابلة للتصحيح أيضا إلى أخطاء غير قاتلة وأخطاء قاتلة. تتسبب الأخطاء غير القاتلة في عدم إمكانية الاعتماد على معاملة معينة، ولكن إرتباط PCIe نفسه يعمل بكامل طاقته. ومن ناحية أخرى، تسبب الاخطاء الفادحة عدم الاعتماد على الرابط.
يقوم Nexus 9000 باكتشاف أخطاء PCIe الفادحة ويفرض على النظام إعادة التحميل لمنع معالجة البيانات غير الصحيحة.
نفس الأمر مع خطأ التماثل.
وإذا لم يحدث مرة أخرى في غضون 48 ساعة، اعتبرت المشكلة عابرة، فلا حاجة إلى إجراء.
تحدث الأخطاء المتكررة أو القابلة للتكرار نتيجة لخلل وظيفي. في مثل هذه الحالات، استبدل الأجهزة.
N9K#show system reset-reason ----- reset reason for module 1 (from Supervisor in slot 1) --- 1) At 88659 usecs after Mon Sep 24 18:33:04 2023 Reason: Watchdog Timeout Service: Version: 7.0(3)I7(9)
وعادة ما توجد أدوات توقيت المراقبة في الأنظمة المخبأة وغيرها من المعدات التي يتم التحكم فيها بواسطة الكمبيوتر حيث لا يستطيع البشر الوصول إلى المعدات بسهولة أو لا يستطيعون التفاعل مع الأعطال في الوقت المناسب.
يقوم Nexus 9000 بنشر ميزة مؤقت المراقبة عبر FPGA. وهذا يضمن إمكانية اكتشاف Nexus 9000 لتعليق البرامج وإعادة تمهيد المحول على الفور.
1. تحقق مما إذا كانت أي أخطاء برمجية معروفة تؤثر على الإصدار الحالي.
2. إذا حدثت المشكلة مرة أخرى، فقم بجمع تتبع kernel وأي بيانات تسجيل إضافية.
3. فتح حالة طلب خدمة.
N9K# show system reset-reason
----- reset reason for module 1 (from Supervisor in slot 1) ---
1) At 343832 usecs after Sat Jan 13 17:58:53 2024
Reason: Reset Requested by CLI command reload
Service:
Version: 10.2(5)
>
4) At 282886 usecs after Fri Jan 12 07:42:33 2024
Reason: Reset due to upgrade
Service:
Version: 10.3(4a) >>>>>version prior to upgrading
تدعم المحولات من السلسلة Nexus 9000 عمليات ترقية البرامج وتخفيضها بشكل افتراضي. عمليات إعادة تحميل Nexus 9000 أثناء الترقية.
السلوك المتوقع. تدقيق سجل المحاسبة لمزيد من تفاصيل جلسة CLI.
مثال إعادة تحميل CLI:
Sat Jan 13 17:58:40 2024:type=update:id=console0:user=admin:cmd=reload (REDIRECT)
Sat Jan 13 17:58:47 2024:type=update:id=console0:user=admin:cmd=Rebooting the switch
مثال إعادة تحميل الترقية:
Fri Jan 12 07:35:52 2024:type=update:id=console0:user=admin:cmd=install all nxos bootflash:/nxos64-cs.10.2.5.M.bin (SUCCESS)
قد تتسبب بعض العيوب في إعادة تحميل غير متوقع على محولات Nexus 9000. لتأكيد ما إذا كنت قد أصبت بخطأ برمجي معروف، يرجى فتح حالة مركز المساعدة الفنية.
معرف الخطأ من Cisco | عنوان الخطأ | إصلاح الإصدار |
معرف تصحيح الأخطاء من Cisco CSCwd53591 | إعادة التحميل نظرا لانتهاء مهلة المراقبة بدون مراكز/مسارات | 9.3(13) |
معرف تصحيح الأخطاء من Cisco CSCvz65993 | تم تنزيل Tahoe0 مما أدى إلى فشل الاتصال داخل النطاق | 9.3(9) |
معرف تصحيح الأخطاء من Cisco CSCvs00400 | حالة ذعر Kernel وإعادة تحميله بسبب انتهاء مهلة المراقبة بعد سحب الارتباطات | 9.3(3) و 7.0(3)I7(8) |
معرف تصحيح الأخطاء من Cisco CSCvr57551 | يتم إعادة تحميل Cisco Nexus 9000 مع وجود ذعر Kernel - غير قادر على معالجة طلب ترحيل kernel | 7.0(3)I7(8) و 9.3(4) |
معرف تصحيح الأخطاء من Cisco CSCvo86286 | ظهور ذعر kernel على بطاقات الخط 7.0(3)i7(x) المزودة ببطاقات الخط Nexus 9500 من الجيل الأول | 7.0(3)I7(7) |
معرف تصحيح الأخطاء من Cisco CSCvx38752 | تسريب الذاكرة يتسبب في قيام Nexus 9k بإعادة تحميل "ipfib" | 7.0(3)I7(9) و 9.3(2) |
معرف تصحيح الأخطاء من Cisco CSCvh13039 | عمليات إعادة تحميل LC/FM بسبب ضربات القلب الخاصة ب EOBC حيث إن وحدة المعالجة المركزية مشغولة بخدمة جهاز التوقيت | 7.0(3)I4(8) و 7.0(3)I7(3) |
المراجعة | تاريخ النشر | التعليقات |
---|---|---|
1.0 |
07-Feb-2024 |
الإصدار الأولي |