Einleitung
In diesem Dokument wird das Konzept der Konvergenz mit der stark fokussierten Topology Independent (TI) - Loop-Free Alternative (LFA) beschrieben. Es beschreibt den Mechanismus der Richtlinienpfad-Konvergenz von Segment Routing (SR) - Traffic Engineering (TE) mit TI-LFA-Schutz als Grundlage mit einem Topologiediagramm, das auf den Anforderungen von XYZ Networks basiert.
Erkennung von Verbindungsausfällen
Bitte beachten Sie, dass die SR-TE-Richtlinienpfad-Konvergenz und die TI-LFA-Funktionen unabhängig voneinander sind und separat funktionieren. Die TI-LFA-Funktion wurde jedoch hinzugefügt, um einen Ausfall des primären SR-TE-Richtlinienpfads und einen Datenverkehr, der unter idealen Netzwerkbedingungen innerhalb von unter 50 ms auf den vordefinierten Backup-Pfad umschaltet, schnell zu erkennen. Die SR-TE-Richtlinie würde ohne TI-LFA einwandfrei funktionieren, in diesem Szenario wäre die Konvergenzzahl jedoch nur vom Interior Gateway Protocol (IGP) abhängig und läge deutlich über 50 ms.
Beim Szenario mit Verbindungsausfällen ist es unser Ziel, die Konvergenzzeit so gering wie möglich zu halten, um den Paketverlust während des Verbindungsausfalls bzw. der Flapping-Ereignisse zu minimieren.
Die Erkennung von Ereignissen bei einem Verbindungsausfall am Headend-Knoten kann hauptsächlich mithilfe der folgenden Methoden erfolgen:
1. Erkennung auf der physischen Ebene bei unterbrochenen benachbarten Verbindungen.
2. Erkennung durch BFD über Bundle im Fall von unterbrochenen Remote-Verbindungen.
Im ersten Fall erfolgt die Erkennung schneller, und die Konvergenzzeit ist kürzer als bei der zweiten Option, bei der die Erkennung von dem konfigurierten BFD-Intervall/Dead-Timer und dem genauen Netzwerkpunkt abhängt, an dem die Verbindung unterbrochen wurde. Eine sehr schnelle Erkennung bedeutet jedoch nicht unbedingt eine schnellere Konvergenz, da das Unternehmen XYZ Org Network eine mehrschichtige Struktur mit End-to-End-Service-Datenverkehr ist, der mehrere Hops abdeckt.
Da das Netzwerk von XYZ Org in einer einzigen BGP AS- und einer einzigen IGP-Domäne enthalten ist, übertragen hier TI-LFA-vordefinierte Backup-Pfade den Failover-Datenverkehr nach einem Verbindungsausfall in allen Szenarien sofort und stellen einen minimalen Paketverlust und eine vollständige Präfix-Abdeckung unabhängig vom Topologiestatus sicher. Die Konvergenz der richtliniendefinierten primären/sekundären SR-TE-Pfade kann aufgrund des IGP eine Weile dauern und letztendlich den End-to-End-Service-Datenverkehr über den Core übernehmen, der mit den vordefinierten Pfaden von TI-LFA übereinstimmen kann oder nicht.
Detaillierte Konvergenzszenarien
Für weitere Einzelheiten sei das hier beschriebene Beispiel genannt, in dem der Datenverkehrspfad mit SR-TE-Richtlinien und TI-LFA als Konvergenzmechanismus des XYZ Org Network erläutert wird.
SR-Beispielkonfiguration in Übereinstimmung mit den Topologiediagrammen:
segment-routing
traffic-eng
!
!
segment-list PrimaryPath1
index 10 mpls adjacency 10.1.11.0 --> First Hop (P1 node) of the explicit-path
index 20 mpls adjacency 10.1.3.1 --> Second Hop (P3 node) of the explicit-path
index 30 mpls adjacency 10.3.13.1 --> Third Hop (PE3 node) of the explicit-path
!
policy POL1
source-address ipv4 11.11.11.11 --> Source Node of the explicit-path
color 10 end-point ipv4 33.33.33.33 --> Destination Node of the explicit-path
candidate-paths
preference 100 --> Secondary Path taken care of dynamically by IGP TI-LFA
dynamic
metric
type igp
!
!
!
preference 200
explicit segment-list PrimaryPath1 --> Primary Explicit-Path of the SR-TE policy
!
!
In einem normalen Szenario muss der Datenverkehr von PE1 zu PE3 über einen der beiden möglichen potenziellen Kandidatenpfade PE1 > P1 > P3 > PE3
und PE1 > P2 > P4 > PE3
der SR-TE-Richtlinie verlaufen. Dies ist der primäre explizite Pfad, der vom Administrator mit der Adjacency (Adj) - Segment Identifier (SID) List (Adjazenz (Adj) - Segment Identifier (SID) List) konfiguriert wurde, 10.1.11.0, 10.1.3.1, 10.3.13.1
oder der sekundäre dynamische Pfad, der vom jeweiligen IGP bestimmt wird. Der Administrator verwendet bevorzugt den primären Kandidatenpfad und greift nur dann auf den sekundären Pfad zurück, wenn der primäre nicht verfügbar ist. Somit wird dem primären Kandidatenpfad ein höherer Präferenzwert zugewiesen, der einen bevorzugten Pfad angibt. Der primäre Kandidatenpfad kann beispielsweise die Präferenz von 200
und der sekundäre Kandidatenpfad die Präferenz von 100
haben.
Abbildung 1: Normales Datenverkehrsszenario für primären SR-TE-Kandidaten
Jeder Kandidatenpfad wird verwendet, wenn er gültig ist, und die Erreichbarkeit der konstituierenden SIDs bestimmt das Validitätskriterium.
Wenn beide Pfade zulässig und nutzbar sind, wählt das Headend PE1 den Pfad mit der höheren Priorität aus und installiert die SID-Liste dieses Pfads 10.1.11.0, 10.1.3.1, 10.3.13.1
in der Weiterleitungstabelle. Zu jedem Zeitpunkt wird der Service-Datenverkehr, der in diese SR-Richtlinie gesteuert wird, nur über den ausgewählten Pfad gesendet. Alle anderen dynamischen Kandidatenpfade sind inaktiv.
Ein Kandidatenpfad wird ausgewählt, wenn er den höchsten Präferenzwert unter allen gültigen Kandidatenpfaden der SR-Richtlinie aufweist. Der ausgewählte Pfad wird auch als "aktiver Pfad" der SR-Richtlinie bezeichnet.
Link Failure Convergence - Primärer Pfad geht in den Zustand "Down"
An einem bestimmten Punkt kann es zu einem Verbindungsausfall im Netzwerk kommen. Bei der ausgefallenen Verbindung kann es sich um eine Verbindung zwischen zwei beliebigen Knoten handeln, z. B. P1 und P3. Sobald der Ausfall auf irgendeine Weise erkannt wird, wie zu Beginn des Abschnitts beschrieben, muss der TI-LFA-Schutz sicherstellen, dass die Datenverkehrsflüsse schnell auf den TI-LFA-Schutzpfad umgeleitet werden, idealerweise innerhalb von 50 ms.
Beachten Sie, dass sich in diesem Szenario der von TI-LFA ermittelte Backup-Pfad, wie in Abbildung 2 dargestellt, von dem letztlich vom IGP ermittelten konvergenten Backup-Richtlinienpfad in Abbildung 3 unterscheidet. Dies ist relativ normal, da der Ti-LFA-Sicherungspfad lokal vom Point Of Local Repair (PLR)-Knoten bestimmt wird, an dem ein Fehler aufgetreten ist. Der optimierte SR-TE-Richtlinien-Sicherungspfad wird jedoch durch die IGP-Konvergenz vom Headend-Knoten bestimmt, der die SR-TE-Richtlinienentscheidungen enthält.
Abbildung 2: Failover-Datenverkehrsszenario über TI-LFA-Sicherungspfad
Der Datenverkehr fließt weiterhin über den TI-LFA-Pfad, bis das Headend PE1 schließlich über IGP-Flooding erkennt, dass die SID 10.1.3.1
der ausgefallenen Verbindung ungültig geworden ist. PE1 bewertet dann die Gültigkeit der SID-Liste des Pfads 10.1.11.0, 10.1.3.1, 10.3.13.1
und macht sie ungültig, da die ungültige SID vorhanden 10.1.3.1
ist. Gleichzeitig wird der Kandidatenpfad ungültig gemacht, und der Pfadauswahlprozess der SR-TE-Richtlinie wird erneut ausgeführt. Anschließend wählt PE1 einen anderen gültigen Kandidatenpfad mit dem nächsthöheren Einstellungswert aus und installiert die SID-Liste 10.2.11.0, 10.2.4.1, 10.4.13.1
des neuen sekundären Kandidatenpfads in der Weiterleitungstabelle. Dieser sekundäre Kandidatenpfad ist jedoch dynamisch und wird von IGP Open Shortest Path First (OSPF) bestimmt. Er hat keine administrative Kontrolle. Bis zu diesem Schritt fließt der Datenverkehr über den geschützten TI-LFA-Pfad. Danach wird er jedoch in den neu bevorzugten sekundären Pfad der SR-TE-Richtlinie gesteuert.
Abbildung 3: Failover-Datenverkehrsszenario über sekundären SR-TE-Kandidatenpfad
Schritte im Überblick:
1. Fehlerpunkt:
- Layer 1/BFD signalisiert den primären Pfad nach unten zu FIB
- FIB leitet den mit TI-LFA erstellten Backup-Pfad an die HW weiter
- Erwarteter Datenverkehrsausfall:
- Verbindung unterbrochen: ~50 ms
- BFD-Peer-Verlust: BFD-Totzeit + ~50 ms
- OSPF-Peering über verlorene Verbindung fällt aus
2. Alle OSPF-Router in der Domäne erfahren von SID-Verlusten durch Link State Advertisement (LSA) Flooding
3. Am SR-TE-Headend PE1:
- OSPF konvergiert
- SR-TE-Richtlinie Primärer Pfad SID-Liste wird ungültig
- Der Pfad des primären Kandidaten geht nach unten
- Die sekundäre Kandidatenpfad-SID-Liste wird validiert und aktiviert.
- Der Datenverkehr wird über einen sekundären Pfad gesendet, ohne dass dabei ein Service-Datenverkehrsverlust auftritt.
Verbindungsausfall-Rekonvergenz - Primärer Pfad zurück zum Status "Up"
Sobald die primäre ausgefallene Verbindung wiederhergestellt ist, wird der ursprüngliche primäre Pfad mit der Präferenz (200) wieder gültig, und so führt der Headend PE1 das SR-TE Richtlinienpfad-Auswahlverfahren durch, wählt den gültigen expliziten Kandidatenpfad mit der höchsten Präferenz aus und aktualisiert seine Weiterleitungstabelle mit der SID-Liste des ursprünglichen primären Pfads. Der Service-Datenverkehr, der über diese SR-Richtlinie gesteuert wird, wird erneut über den ursprünglichen PfadPE1 > P1 > P3 > PE3
gesendet.
Abbildung 4: Szenario des rekonvergenten Datenverkehrs
Schritte im Überblick:
1. Layer 1/BFD signalisiert die Sicherung des primären Pfads und OSPF wird benachrichtigt.
2. Der Datenverkehr wird weiterhin über den Kandidatenpfad für die SR-TE-Richtlinie-Sicherung weitergeleitet.
3. Nach einer Weile wird die SID-Liste des primären Kandidatenpfads für die SR-TE-Richtlinie über OSPF-LSA-Flooding gültig.
4. Der Datenverkehr wird vom Kandidatenpfad für die SR-TE-Richtliniensicherung zum primären Kandidatenpfad für die SR-TE-Richtlinie ohne Datenverlust umgeschaltet.
Zusammenfassend lässt sich sagen, dass diese Szenarien eine theoretische Erklärung des Konvergenzprozesses und idealer Konvergenzzahlen bieten. Sie müssen jedoch die tatsächlichen Konvergenzzahlen im Labor testen, die das Produktionsnetzwerk und die Konfiguration so genau wie möglich nachahmen, und verschiedene Fehlerpunkte im Netzwerk auslösen, die vorhersehbar sind.
Achtung: Bitte beachten Sie, dass dieses Dokument nur Linkschutzszenarien erläutert, da der Knotenschutz nicht mit expliziten SR-TE-Pfaden funktioniert, wenn der definierte explizite Pfad zwischengeschaltete Knoten berührt. Der Grund hierfür ist, dass TI-LFA jeden konfigurierten Intermediate Hop als Zielknoten verwendet und das endgültige Ziel nicht auflösen kann, falls einer dieser Knoten ausfällt. Hierbei handelt es sich um eine technologische Einschränkung, die nicht auf Plattformen oder Images beschränkt ist. Die Lösung für diese Einschränkung wurde in Teil 2 dieses Dokuments erläutert und im Abschnitt "Zugehörige Informationen" beschrieben.
Verwendete Software
Die zum Testen und Validieren der Lösung verwendete Software ist Cisco IOS®XR 7.3.2.
Zugehörige Informationen