المقدمة
يوضح هذا المستند كيفية أستكشاف أخطاء انخفاض مؤشرات الأداء الأساسية (KPI) الخاصة بالطراز S11 وإصلاحها.
نظرة عامة
S11 هي الواجهة التي تصل بين وحدة إدارة التنقل (MME) وبوابة الخدمة (SGW) في شبكة Development (LTE) طويلة المدى. تستخدم الواجهة التحكم في بروتوكول الاتصال النفقي لبروتوكول GTP-C (GTP-C).
الرسائل الموجودة في الواجهة S11
- إنشاء طلب/إستجابة جلسة العمل
- تعديل طلب/إستجابة جلسة العمل
- حذف طلب/إستجابة جلسة العمل
إنشاء جلسة EPS:
- S11 يتم ملاحظة انخفاض مؤشر الأداء الأساسي (KPI) عند مشاهدة المزيد من عمليات رفض طلبات جلسات العمل (CSR) مقارنة بمحاولات CSR الخاصة به، والتي يجب أن تكون السبب الجذري.
يمكنك معرفة الصيغة المستخدمة لقياس مؤشر الأداء الأساسي (KPI) وتقديم ملاحظة بجميع العدادات المضمنة في الصيغة وتحديد العداد المسؤول عن التدهور بدقة.
S11 ASR (SPGW) = ((tun-sent-cresessrespaccept+ggsn_tun-sent-cresessrespdeniedUserAuthFailed+tun-sent-cresessrespdeniedPrefPdnTypeUnsupported+tun-sent-cresessrespdeniedCtxtNotFound)/EGTPC-ggsn_tun-recv-cresess)*100
PDN Connectivity Success Rate (MME) : ((%esmevent-pdncon-success%) + (%esm-msgtx-pdncon-rej%))*) / (%esmevent-pdncon-attempt%) *100)
ملاحظة: يمكن أن تختلف الصيغة بناء على طريقة قياسها.
السجلات المطلوبة على المستوى الأولي:
- إتجاه مؤشر الأداء الرئيسي الذي يصف التحلل.
- صيغة KPI المستخدمة.
-
عدادات BulkStat الخام وتسبب أتجاهات التعليمات البرمجية من بداية الإصدار.
- التقط مثالين من Show Support Details (SSDs) من العقدة في فترة زمنية مدتها 30 دقيقة أثناء الفترات المليئة بالمشاكل.
- تراوحت Syslogs من ساعتين قبل حدوث التدهور حتى الوقت الحالي.
mon sub/pro traces logging monitor msid <imsi> .
تسلسل أستكشاف الأخطاء وإصلاحها
-
قم بتقييم إتجاه مؤشر الأداء الرئيسي لكل عداد مشارك في صيغة مؤشر الأداء الرئيسي S11 عن طريق تحليل مؤشرات الأداء الرئيسية.
-
قارن إتجاه مؤشر الأداء الرئيسي خلال الجداول الزمنية المثيرة للمشاكل مع الجداول الزمنية التي لا تنطوي على مشاكل.
-
راجع كيفية تعريف عداد البلاك ستات المثير للمشاكل المحدد بناء على التدفق وتأسيس أي أنماط.
-
تجميع أسباب قطع الاتصال من العقدة من خلال تكرارات متعددة في فترات تتراوح بين 3 و 5 دقائق.
يمكنك تحليل دلتا أسباب قطع الاتصال بين محركي أقراص مزودين بذاكرة مصنوعة من مكونات صلبة (SSD) تم تجميعهما في أختام زمنية مختلفة. يمكن إعتبار سبب قطع الاتصال الذي يظهر زيادة كبيرة في قيمة دلتا سبب انخفاض مؤشر الأداء الرئيسي. للحصول على أوصاف تفصيلية لجميع أسباب قطع الاتصال، ارجع إلى مرجع إحصائيات وعدادات Cisco هنا: https://www.cisco.com/c/en/us/td/docs/wireless/asr_5000/21-23/Stat-Count-Reference/21-23-show-comman...
show session disconnect-reasons verbose
5. تحقق من إحصائيات egtp استنادا إلى نوع العقدة التي يتم التعامل معها:
--- SGW end -----
show egtpc statistics interface sgw-ingress path-failure-reasons
show egtpc statistics interface sgw-ingress summary
show egtpc statistics interface sgw-ingress verbose
show egtpc statistics interface sgw-ingress sessmgr-only
show egtpc statistics interface sgw-egress path-failure-reasons
show egtpc statistics interface sgw-egress summary
show egtpc statistics interface sgw-egress verbose
show egtpc statistics interface sgw-egress sessmgr-only
---- PGW end -----
show egtpc statistics interface pgw-ingress path-failure-reasons
show egtpc statistics interface sgw-ingress summary
show egtpc statistics interface sgw-ingress verbose
show egtpc statistics interface sgw-ingress sessmgr-only
--- MME end -----
show egtpc statistics interface mme path-failure-reasons
show egtpc statistics interface mme summary
show egtpc statistics interface mme verbose
show egtpc statistics interface mme sessmgr-only
6. بمجرد التعرف على العداد المحدد الذي يسبب المشكلة، يجب التقاط آثار مكالمات Mon-sub/mon-pro لمزيد من التحليل والتعرف على تدفق المكالمات المحدد الذي يتسبب في انخفاض مؤشر الأداء الرئيسي (KPI). بالإضافة إلى ذلك، يمكنك إستخدام أدوات خارجية للحصول على آثار Wireshark للحصول على تحليل أكثر تفصيلا.
الأوامر الخاصة بالتقاط مسارات Mon الفرعية هي كما يلي:
monitor subscriber with options 19, 26,33, 34, 35, 49,A,S, X, Y, verbosity +5 during the issue.
mon-pro with options 19, 26,33, 34, 35, 49,A,S, X, Y, verbosity +5 during the issue if no mon-sub is present.
More options can be enabled depending on the protocol or call flow we need to capture specifically
في الحالات التي لا يكون فيها التقاط آثار مثل mon-sub ممكنا بسبب نسبة مئوية دنيا من انخفاض KPI، يجب التقاط سجلات تصحيح الأخطاء على مستوى النظام بدلا من ذلك. وهذا يتضمن التقاط سجلات تصحيح الأخطاء للتعيين و egptc، وإذا لزم الأمر، التقاط التدفقات الخاصة بالبوابة.
logging filter active facility sessmgr level debug
logging filter active facility egtpc level debug
logging filter active facility sgw level debug
logging filter active facility pgw level debug
logging active ----------------- to enable
no logging active ------------- to disable
Note :: Debugging logs can increase CPU utilization so need to keep a watch while executing debugging logs
7. بعد تحليل سجلات تصحيح الأخطاء، إذا قمت بتحديد سبب المشكلة، يمكنك المتابعة لالتقاط الملف الأساسي لذلك الحدث المحدد حيث تقوم بمراقبة سجلات الأخطاء.
logging enable-debug facility sessmgr instance <instance-ID> eventid 11176 line-number 3219 collect-cores 1
For example :: consider we are getting below error log in debug logs which we suspect can be a cause of issue
and we don;t have any call trace
[egtpc 141027 info] [15/0/6045 <sessmgr:93> _handler_func.c:10068] [context: INLAND_PTL_MME01, contextID: 6] [software internal user syslog] [mme-egress] Sending reject response for the message EGTP_MSG_UPDATE_BEARER_REQUEST with cause EGTP_CAUSE_NO_RESOURCES_AVAILABLE to <Host:x.x.x.x, Port:31456, seq_num:82011>
So in this error event
facility :: sessmgr
event ID = 141027
line number = 10068
تحذير: عند طلب جمع السجلات مثل سجلات تصحيح الأخطاء أو شاشة التسجيل أو mon-sub أو mon-pro، من المهم التأكد من تجميع هذه السجلات أثناء نافذة الصيانة. وبالإضافة إلى ذلك، من المهم للغاية مراقبة حمل وحدة المعالجة المركزية (CPU) خلال هذا الوقت.
تحليل الأعراض والتعرف عليها
- أولا، تحقق مما إذا كانت هناك أية أعطال متكررة قد لوحظت في النظام من محرك أقراص مزود بذاكرة مصنوعة من مكونات صلبة.
show crash list
- الرجاء التحقق من وجود أي مشاكل في الترخيص. في بعض الحالات، عند انتهاء صلاحية الترخيص الموجود في "بوابة بيانات حزمة الخدمة" (SPGW)، لن يعود بإمكان هذا الترخيص قبول مكالمات جديدة، مما يؤدي إلى فشل المكالمات ويؤدي إلى تدهور S11 أو انخفاضه.
show resource info
- الرجاء التحقق مما إذا كانت هناك مثيلات عدة لذاكرة معينة في التحذير/عبر الحالة بسبب إستخدام وحدة المعالجة المركزية أو الذاكرة عالية. إذا تم العثور على مثل هذه الحالات، فتحقق مما إذا كان يتم رفض المكالمات الجديدة بسبب هذه الشروط.
- من سجلات تصحيح الأخطاء، يمكنك التحقق من الواجهة التي تحصل على أخطاء رفض الاستدعاء.
إذا حدث عدد كبير من أخطاء رفض المكالمات لمشترك محدد في سياق "sgw-egress"، متبوعا برفض المشترك نفسه في سياق "sgw-ingress"، يمكن إستنتاج أن عمليات الرفض من بوابة بيانات الحزمة (PGW) يتم إرسالها إلى SGW-> MME في سياق S11. لتأكيد PGW واستكشاف أخطائه وإصلاحها من نهاية PGW، يمكنك الآن أخذ برنامج فرعي ل IMSI هذا.
2022-Nov-26+00:20:51.763 [egtpc 141018 unusual] [7/0/16871 <sessmgr:579> _handler_func.c:3227] [context: gwctx, contextID: 2] [software internal user syslog] [sgw-egress] For IMSI: 427021600263284, create session request is rejected by the peer with cause EGTP_CAUSE_NO_RESOURCES_AVAILABLE
2022-Nov-26+00:20:51.763 [egtpc 141018 unusual] [7/0/16871 <sessmgr:579> _handler_func.c:2505] [context: gwctx, contextID: 2] [software internal user syslog] [sgw-ingress] For IMSI: 427021600263284, create session request is rejected by the SAP user with cause EGTPC_REASON_UNKNOWN
- وفي بعض الأحيان قد تكون هناك أسباب رفض متعددة لانخفاض مؤشر الأداء الأساسي (KPI)، لذا يتعين عليك التحقق من كل سبب على حدة والمتابعة وفقا لذلك.
على سبيل المثال، يمكن أن تكون هناك no_resource_available/user_auth_failure زيادة خطأ لسلسلة دولية خاصة بهوية مشترك الهاتف المحمول (IMSI)، والتي تكون للمشتركين داخل الغرفة، وبالتالي يجب التحقق من هذه من PGW. قد يكون هناك سبب مثل remote peer not responding إنشاء طلب جلسة عمل وإنشاؤه بعد انقضاء المهلة في SGW وهذا قد يتسبب في حدوث تدهور في S11 KPI. يمكن رفض جلسة عمل الإنشاء هذه منNo_resource_available SGW إلى MME. يمكن ملاحظة أكواد سبب الرفض هذه من سجلات بروتوكول المراقبة ويمكنك التحقق من طلب إنشاء جلسة العمل وإنشاء استجابات جلسة العمل لتحديد عناوين IP المحددة من حيث يتم إرسال أكواد سبب الرفض هذه.