Fehlerbehebung bei Leistungsproblemen in Hyperflex-Clustern

Aktualisiert:26. Juli 2023

Dokument-ID:220651

Inklusive Sprache

In dem Dokumentationssatz für dieses Produkt wird die Verwendung inklusiver Sprache angestrebt. Für die Zwecke dieses Dokumentationssatzes wird Sprache als „inklusiv“ verstanden, wenn sie keine Diskriminierung aufgrund von Alter, körperlicher und/oder geistiger Behinderung, Geschlechtszugehörigkeit und -identität, ethnischer Identität, sexueller Orientierung, sozioökonomischem Status und Intersektionalität impliziert. Dennoch können in der Dokumentation stilistische Abweichungen von diesem Bemühen auftreten, wenn Text verwendet wird, der in Benutzeroberflächen der Produktsoftware fest codiert ist, auf RFP-Dokumentation basiert oder von einem genannten Drittanbieterprodukt verwendet wird. Hier erfahren Sie mehr darüber, wie Cisco inklusive Sprache verwendet.

Informationen zu dieser Übersetzung

Cisco hat dieses Dokument maschinell übersetzen und von einem menschlichen Übersetzer editieren und korrigieren lassen, um unseren Benutzern auf der ganzen Welt Support-Inhalte in ihrer eigenen Sprache zu bieten. Bitte beachten Sie, dass selbst die beste maschinelle Übersetzung nicht so genau ist wie eine von einem professionellen Übersetzer angefertigte. Cisco Systems, Inc. übernimmt keine Haftung für die Richtigkeit dieser Übersetzungen und empfiehlt, immer das englische Originaldokument (siehe bereitgestellter Link) heranzuziehen.

Inhalt

Einleitung

Identifizieren

Cluster-Typen

Erläuterung des Leistungsdiagramms

IOPS

Durchsatz

Latenz

Häufigkeit

Externe Faktoren

Identifizieren von Leistungsproblemen auf Gast-VM-Ebene

Windows

ESXi

PVSCSI-Prüfung

Überprüfung des Netzwerkadapters

RSS-Prüfung

Einleitung

In diesem Dokument werden die Auswirkungen auf die Leistung in einer Hyperflex-Umgebung aus der Perspektive eines virtuellen Gastrechners (VM), ESXi-Hosts und (SCVM) beschrieben.

Identifizieren

Für die Fehlerbehebung in einer Hyperflex-Umgebung ist es wichtig, den Cluster-Typ, den Betrieb, bei dem die Leistung beeinträchtigt wird, die Häufigkeit der Leistungsverschlechterung und den Grad der Auswirkungen auf die Leistung zu ermitteln, die zu einer Leistungsverschlechterung führen.

Ein Hyperflex-Cluster hat mehrere Auswirkungsstufen: auf Gast-VM-, ESXI-Host- und Storage-Controller-VM-Ebene.

Cluster-Typen

● Hybride Knoten: Verwendet SSD-Laufwerke (Solid State Drives) für das Caching und HDDs für die Kapazitätsschicht.

● All-Flash-Knoten: Verwendet SSD-Laufwerke oder Non-Volatile Memory Express (NVMe)-Speicher für das Caching und SSD-Laufwerke für die Kapazitätsschicht.

● Alle NVMe-Knoten: NVMe-Speicher wird sowohl für das Caching als auch für die Kapazitäts-Layer verwendet. Alle NVMe-Knoten bieten die höchste Leistung für die anspruchsvollsten Workloads mit Caching.

Erläuterung des Leistungsdiagramms

Die Hyperflex-Systeme verfügen über eine Funktion zum Überwachen der Leistung, die Diagramme zeigen die Lese- und Schreibleistung des Storage-Clusters an.

IOPS

Ein-/Ausgabevorgänge pro Sekunde (IOPS) ist eine gängige Leistungsmetrik zur Messung von Computerspeichergeräten, einschließlich HDDs. Diese Kennzahl wird verwendet, um die Leistung für zufällige E/A-Workloads zu bewerten.

IOPS performance chart. IOPS-Leistungsdiagramm.

Durchsatz

Das Bild zeigt die Datenübertragungsrate im Storage-Cluster in Mbit/s.

Throughput performance chart. Diagramm der Durchsatzleistung.

Latenz

Latenz ist ein Maß für die Dauer einer einzelnen E/A-Anforderung. Dabei handelt es sich um die Zeitspanne zwischen dem Ausstellen einer Anforderung und dem Empfangen einer Antwort, die in Millisekunden gemessen wird.

Latency performance chart. Leistungsdiagramm zur Latenz

Häufigkeit

Es ist wichtig, die Häufigkeit und Dauer der Auswirkungen auf die Leistung festzulegen, um die möglichen Auswirkungen auf die Umwelt zu prüfen.

Wenn die Leistung ständig beeinträchtigt wird, muss überprüft werden, an welcher Stelle damit begonnen wurde, die Leistung zu verschlechtern, und auf Konfigurationsänderungen oder Probleme zwischen den Clustern geprüft werden.

Wenn die Leistung sich zeitweilig auswirkt, muss überprüft werden, ob zu diesem Zeitpunkt ein Vorgang oder Dienst ausgeführt wird.

Externe Faktoren

Die Leistung des Clusters kann durch externe Faktoren wie Snapshots und Sicherungsvorgänge beeinflusst werden.

Weitere Informationen zu externen Faktoren finden Sie unter den folgenden Links:

VMware vSphere Snapshots: Leistung und Best Practices

Cisco HyperFlex-Systeme und Veeam Backup and Replication Whitepaper.

Identifizieren von Leistungsproblemen auf Gast-VM-Ebene

Dies ist die offensichtlichste Auswirkung in der Hyperflex-Umgebung, sie betrifft direkt die Services, die die virtuellen Systeme bereitstellen, und sie wird bei den direkt betroffenen Benutzern deutlicher.

Nachfolgend finden Sie häufige Tests, um die Leistung gängiger Betriebssysteme zu ermitteln.

Windows

Überprüfen Sie die verfügbaren Tools, um Leistungsprobleme in Windows Gast-VMs zu identifizieren:

Leistungsüberwachung

Ressourcenüberwachung

ESXi

Nachdem die Auswirkungen auf die Leistung ermittelt und die möglichen Ursachen für die Leistungseinbußen untersucht wurden, gibt es einige Leistungsprüfungen, um die Leistung zu verbessern.

Überprüfen Sie, ob eine Überprovisionierung vorliegt (die Gesamtzahl der vCPUs, die allen VMs zugewiesen sind, darf die Gesamtzahl der auf dem ESXi-Host-Rechner verfügbaren physischen Kerne nicht übersteigen).
Selbst wenn das Gastbetriebssystem einige seiner vCPUs nicht verwendet, stellt die Konfiguration von VMs mit diesen vCPUs für ESXi immer noch einen kleinen Ressourcenbedarf dar, der sich in der tatsächlichen CPU-Auslastung auf dem Host niederschlägt.
Durch die Überzuweisung von Speicher wird auch der VM-Speicheraufwand unnötig erhöht, was zu Speicherkonflikten führen kann, insbesondere wenn Reservierungen verwendet werden.
Stellen Sie sicher, dass der Ballontreiber den Speicher nicht festhält. Weitere Informationen finden Sie unter diesem Link.

Lesen Sie zur Fehlerbehebung bei Leistungsproblemen virtueller ESX/ESXi-Systeme.

PVSCSI-Prüfung

Paravirtual SCSI (PVSCSI) Adapter sind Hochleistungs-Speicheradapter, die einen höheren Durchsatz und eine geringere CPU-Auslastung für virtuelle Maschinen mit hohen Festplatten-E/A-Anforderungen zur Folge haben können. Es wird empfohlen, PVSCSI-Adapter zu verwenden. Der PVSCSI-Controller ist ein virtualisierungsfähiger, hochleistungsfähiger SCSI-Adapter, der eine möglichst niedrige Latenz und einen möglichst hohen Durchsatz bei geringstem CPU-Overhead ermöglicht.

PVSCSI adapter. PVSCSI-Adapter.

Überprüfung des Netzwerkadapters

VMXNET 3 ist eine paravirtualisierte Netzwerkkarte, die auf hohe Leistung ausgelegt ist und leistungsstarke Funktionen bietet, die in modernen Netzwerken häufig verwendet werden, wie Jumbo Frames, Unterstützung mehrerer Warteschlangen (auch als Receive Side Scaling unter Windows bekannt), IPv6-Offloads, MSI/MSI-X-Interrupt-Bereitstellung und Hardware-Offloads.

Stellen Sie sicher, dass der Adaptertyp VMXNET3 ist.

Network adapter. Netzwerkadapter.

RSS-Prüfung

Hinweis: Diese Prüfung gilt nur für die virtuellen Gastsysteme, auf denen ein Windows-Betriebssystem ausgeführt wird.

Receive Side Scaling (RSS) ist eine Netzwerktreibertechnologie, die die effiziente Verteilung der Netzwerkempfangsverarbeitung auf mehrere CPUs in Multiprozessorsystemen ermöglicht.

Windows-Server verfügen über eine Treiberkonfiguration, die die Verteilung der Netzwerkverarbeitungslast im Kernelmodus auf mehrere CPUs ermöglicht.

Überprüfen Sie, ob diese Funktion aktiviert ist, und führen Sie den folgenden Befehl auf der Windows PowerShell aus:

netsh interface tcp set global rss=enabled

Um RSS zu aktivieren, überprüfen Sie diesen Link

CPU-Hot-Plug-Prüfung

CPU-Hotplug ist eine Funktion, mit der der Administrator des virtuellen Systems CPUs hinzufügen kann, ohne es abschalten zu müssen. Auf diese Weise können CPU-Ressourcen ohne Betriebsunterbrechung sofort hinzugefügt werden. Wenn CPU-Hotplug auf einem virtuellen System aktiviert ist, ist die vNUMA-Funktion deaktiviert.

CPU hot plug disabled. CPU-Hot-Plug deaktiviert.

Gehen Sie die Best Practices für gängige Betriebssysteme und Anwendungen durch:

Windows.

Richtlinien zur Leistungsoptimierung für Windows Server 2022.

Red Hat.

3 Tipps zur Verbesserung der Linux-Prozessleistung mit Priorität und Affinität.

SQL Server

Microsoft SQL Server-Architektur auf VMware.

RedHat

Leitfaden zur Leistungsoptimierung:

Identifizieren von Leistungsproblemen auf Hostebene

Um die Auswirkungen auf die Performance auf Server-Ebene zu ermitteln, können Sie die Performance-Diagramme des ESXI-Hosts überprüfen, die in den ESXI-Hypervisor integriert sind, und überprüfen, wie viele Hosts betroffen sind.

Sie können die Leistungsdiagramme in vCenter auf der Registerkarte Monitor anzeigen, und klicken Sie auf die Registerkarte Performance.

vCenter performance charts. vCenter-Performance-Diagramme.

In diesen Diagrammen können Sie die Performance-Diagramme zu CPU, Arbeitsspeicher und Festplatte anzeigen. Unter diesem Link können Sie die Diagramme nachlesen.

Hinweis: CRC-Fehler und MTU-Diskrepanzen insbesondere im Speichernetzwerk führen zu Latenzproblemen. Der Speicherverkehr muss Jumbo Frames verwenden.

Speicher-E/A-Steuerung und Prüfung der Warteschlangentiefe

Storage I/O Control (SIOC) wird verwendet, um die E/A-Nutzung eines virtuellen Systems zu steuern und nach und nach die vordefinierten E/A-Freigabestufen durchzusetzen, damit diese Funktion in Hyperflex-Clustern deaktiviert wird.

Die Warteschlangentiefe ist die Anzahl der ausstehenden E/A-Anforderungen, die eine Speicherressource jeweils verarbeiten kann.

Mit diesen Schritten können Sie überprüfen, ob SIOC deaktiviert ist und ob die Warteschlangentiefenkonfiguration aktiviert ist.

Bestätigen Sie, dass SIOC auf ESXi und der Konfiguration der Warteschlangentiefe ausgeführt wird.

Schritt 1: SSH an einen HX ESXi-Host senden und den Befehl zum Auflisten der Datenspeicher ausgeben.

[root@] vsish -e ls /vmkModules/nfsclient/mnt
encrypted_app/
Prod/                                        <----- Datastore name 
Dev/
App/

Schritt 2: Verwenden Sie den Namen des Datenspeichers, und geben Sie den Befehl ein.

vsish -e get /vmkModules/nfsclient/mnt/
     
     
       /properties [root@] vsish -e get /vmkModules/nfsclient/mnt/Prod/properties mount point information { volume name:Prod server name:7938514614702552636-8713662604223381594 server IP:127.0.0.1 server volume:172.16.3.2:Prod UUID:63dee313-dfecdf62 client src port:641 busy:0 socketSendSize:1048576 socketReceiveSize:1048576 maxReadTransferSize:65536 maxWriteTransferSize:65536 reads:0 readsFailed:0 writes:285 writesFailed:0 readBytes:0 writeBytes:10705 readTime:0 writeTime:4778777 readSplitsIssued:0 writeSplitsIssued:285 readIssueTime:0 writeIssueTime:4766494 cancels:0 totalReqsQueued:0 metadataReqsQueued(non IO):0 reqsInFlight:0 readOnly:0 hidden:0 isPE:0 isMounted:1 isAccessible:1 unstableWrites:0 unstableNoCommit:0 maxQDepth:1024 <-------- Max Qdepth configuration iormState:0 <-------- I/O control disabled latencyThreshold:30 shares:52000 podID:0 iormInfo:0 NFS operational state: 0 -> Up enableDnlc:1 closeToOpenCache:0 highToAvgLatRatio:10 latMovingAvgSmoothingLevel:2 activeWorlds:55 inPreUnmount:0 }

Schritt 3: Suchen Sie in der Ausgabe nach der Zeile

iormState:0 0= disabled 2= enabled

Die maximaleQDepth der Leitung muss 1024 sein.

Schritt 4: Die gleichen Schritte müssen für die übrigen Datenspeicher wiederholt werden.

SIOC deaktivieren

Um das SIOC zu deaktivieren, führen Sie diese Schritte aus.

Schritt 1: Melden Sie sich mit dem HTML-Client bei vsphere an.

Schritt 2: Wählen Sie aus dem Dropdown-Menü Storage (Speicher) aus, und wählen Sie dann im linken Bereich den entsprechenden HX-Datenspeicher aus.

Select datastore. Wählen Sie einen Datenspeicher aus.

Schritt 3: Wählen Sie im oberen rechten Fensterbereich des Datenspeichers die Registerkarte configure aus.

Configure tab. Registerkarte Konfigurieren

Schritt 4: Wählen Sie im rechten Bereich des mittleren Abschnitts unter "More" (Mehr) die Option General aus, scrollen Sie auf der rechten Seite nach unten zu DataStore Capabilities, und klicken Sie auf Edit (Bearbeiten)

Edit datastore capabilities. Datenspeicherfunktionen bearbeiten.

Wenn das Optionsfeld Speichersteuerung und Statistiksammlung deaktivieren deaktiviert ist, überprüfen Sie es.

Disable storage I/O control. Speicher-E/A-Steuerung deaktivieren.

Wenn das Optionsfeld I/O-Speichersteuerung und Statistikerfassung deaktivieren aktiviert ist, wechseln Sie zwischen SpeicherI/O-Steuerung und Statistikerfassung aktivieren und SpeicherI/O-Steuerung und Statistikerfassung deaktivieren.

Storage I/O control disabled. Speicher-E/A-Steuerung deaktiviert.

Schritt 5: Wiederholen Sie die Schritte 1 bis 4 für alle anderen Datenspeicher.

MaxQDepth ändern

Um die maxQDepth zu ändern, geben Sie den nächsten Befehl für jeden Datenspeicher aus.

vsish -e set /vmkModules/nfsclient/mnt/
     
     
       /properties maxQDepth 1024

Auf Rx_no_Buff prüfen

Hyperflex-Server mit hohem Netzwerkverkehr oder Netzwerkverkehr mit Microbursts können zu Paketverlusten in Form von rx_no_bufs führen.

Um dieses Problem zu identifizieren, führen Sie diese Befehle auf dem ESXi-Host aus, um die rx_no_buf-Zähler zu überprüfen.

/usr/lib/vmware/vm-support/bin/nicinfo.sh | egrep "^NIC:|rx_no_buf"
NIC: vmnic0
rx_no_bufs: 1
NIC: vmnic1
rx_no_bufs: 2
NIC: vmnic2
rx_no_bufs: 2
NIC: vmnic3
rx_no_bufs: 71128211 <---------Very high rx_no_bufs counter
NIC: vmnic4
rx_no_bufs: 1730
NIC: vmnic5
rx_no_bufs: 897
NIC: vmnic6
rx_no_bufs: 24952
NIC: vmnic7
rx_no_bufs: 2

Warten Sie einige Minuten, und führen Sie den Befehl erneut aus, und überprüfen Sie, ob die rx_no_bufs-Zähler nicht ansteigen.

Wenn diese Leistungsindikatoren niedrig sind (< 1.000), müssen aufgrund der Standardwarteschlangenkonfiguration nur wenige Pakete verloren gehen, und es muss wahrscheinlich keine Optimierung durchgeführt werden.
Wenn diese Zähler hoch sind (> 10.000), gibt es einige Auswirkungen aufgrund dieser Warteschlangenkonfiguration und Tuning könnte ein wenig helfen.
Wenn diese Zähler sehr hoch sind (> 1.000.000), tritt ein größerer Einfluss auf, und es wird dringend empfohlen, die Anzahl der Warteschlangen zu erhöhen.
Wenn rx_no_bufs aktiv inkrementiert werden, bedeutet dies, dass das Paket den gesamten Weg durch das Netzwerk zurückgelegt hat und auf der virtualisierten Ebene ankommt, dann wird das Paket verworfen.

Wenn der Zähler für diese Werte angezeigt wird, wenden Sie sich an das Cisco TAC, um die vNIC-Konfiguration für eine bessere Leistung anzupassen.

Überprüfung der Best Practices und zusätzliche Prüfungen auf ESXI-Ebene.

Best Practices für die Leistung von VMware vSphere 7.0.

Identifizieren von Performance-Problemen auf SCVM-Ebene (Storage Controller Virtual Machine)

Cluster-Integrität

Überprüfen Sie, ob der Cluster fehlerfrei ist.

hxshell:~$ sysmtool --ns cluster --cmd healthdetail
Cluster Health Detail:
---------------------:
State: ONLINE                       <---------- State of the cluster 
HealthState: HEALTHY                <---------- Health of the cluster 
Policy Compliance: COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 19 hours, 45 mins, 51 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is healthy.
# of nodes failure tolerable for cluster to be fully available: 1
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 3
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 2
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 3
# of caching devices failures tolerable for cluster to be fully available: 2
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 3
Current ensemble size: 3
Minimum data copies available for some user data: 3
Minimum cache copies remaining: 3
Minimum metadata copies available for cluster metadata: 3
Current healing status:
Time remaining before current healing operation finishes:
# of unavailable nodes: 0

hxshell:~$

Diese Ausgabe zeigt einen fehlerhaften Cluster aufgrund eines nicht verfügbaren Knotens an.

hxshell:~$ sysmtool --ns cluster --cmd healthdetail
Cluster Health Detail:
---------------------:
State: ONLINE                   <-------State of the cluster
HealthState: UNHEALTHY          <-------Health of the cluster 
Policy Compliance: NON-COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 19 hours, 55 mins, 9 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is unhealthy.Storage node 172.16.3.9 is unavailable.                  <----------- Health state reason
# of nodes failure tolerable for cluster to be fully available: 0
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 2
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 1
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 2
# of caching devices failures tolerable for cluster to be fully available: 1
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 2
Current ensemble size: 3
Minimum data copies available for some user data: 2
Minimum cache copies remaining: 2
Minimum metadata copies available for cluster metadata: 2
Current healing status: Rebuilding/Healing is needed, but not in progress yet. Warning: Insufficient node or space resources may prevent healing. Storage Node 172.16.3.9 is either down or initializing disks.
Time remaining before current healing operation finishes:
# of unavailable nodes: 1

hxshell:~$

Diese Ausgabe zeigt einen fehlerhaften Cluster aufgrund der Neuerstellung an.

Cluster Health Detail:
---------------------:
State: ONLINE
HealthState: UNHEALTHY
Policy Compliance: NON-COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 20 hours, 2 mins, 4 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is unhealthy.
# of nodes failure tolerable for cluster to be fully available: 1
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 2
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 1
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 2
# of caching devices failures tolerable for cluster to be fully available: 1
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 2
Current ensemble size: 3
Minimum data copies available for some user data: 3
Minimum cache copies remaining: 2
Minimum metadata copies available for cluster metadata: 2
Current healing status: Rebuilding is in progress, 58% completed.
Time remaining before current healing operation finishes: 18 hr(s), 10 min(s), and 53 sec(s)
# of unavailable nodes: 0

Diese Befehle zeigen eine Gesamtübersicht über den Zustand des Clusters an und informieren Sie darüber, ob der Betrieb des Clusters beeinträchtigt wird, z. B. wenn ein Datenträger auf der Blacklist vorhanden ist, ein Offline-Knoten vorhanden ist oder wenn der Cluster repariert.

Knoten mit I/O

Die Leistung kann durch einen Knoten beeinträchtigt werden, der nicht an den Eingabe- und Ausgabevorgängen beteiligt ist. Führen Sie diese Befehle aus, um die Knoten zu überprüfen, die an den E/A-Vorgängen teilnehmen.

Tipp: In der Version 5.0(2a) steht Ihnen diag user zur Verfügung, um Benutzern mehr Rechte für die Fehlerbehebung mit Zugriff auf beschränkte Ordner und Befehle zu gewähren, auf die über die priv-Befehlszeile, die in Hyperflex 4.5.x eingeführt wurde, nicht zugegriffen werden kann.

Schritt 1: Öffnen Sie die Diag-Shell auf einer Storage-Controller-VM.

hxshell:~$ su diag
Password:
 _   _ _                      _  _             _____ _                      ___
| \ | (_)_ __   ___          | || |           |  ___(_)_   _____           / _ \ _ __   ___
|  \| | | '_ \ / _ \  _____  | || |_   _____  | |_  | \ \ / / _ \  _____  | | | | '_ \ / _ \
| |\  | | | | |  __/ |_____| |__   _| |_____| |  _| | |\ V /  __/ |_____| | |_| | | | |  __/
|_| \_|_|_| |_|\___|            |_|           |_|   |_| \_/ \___|          \___/|_| |_|\___|


Enter the output of above expression: -1
Valid captcha

Schritt 2: Führen Sie diesen Befehl aus, um die Knoten zu überprüfen, die an E/A-Vorgängen teilnehmen. Die Anzahl der IPs muss der Anzahl der konvergenten Knoten im Cluster entsprechen.

diag# nfstool -- -m | cut -f2 | sort | uniq
172.16.3.7
172.16.3.8
172.16.3.9

Interner Service-Check

Reiniger

Eines der Hauptziele von Cleaner ist es, tote und lebende Speicherblöcke im System zu identifizieren und die toten zu entfernen, um den von ihnen belegten Speicherplatz freizugeben. Es ist eine Hintergrundarbeit, und seine Aggressivität wird auf der Grundlage einer Richtlinie festgelegt.

Sie können den Cleaner-Dienst überprüfen, indem Sie den nächsten Befehl eingeben.

bash-4.2# stcli cleaner info
{ 'name': '172.16.3.7', 'id': '1f82077d-6702-214d-8814-e776ffc0f53c', 'type': 'node' }: OFFLINE                <----------- Cleaner shows as offline 
{ 'name': '172.16.3.8', 'id': 'c4a24480-e935-6942-93ee-987dc8e9b5d9', 'type': 'node' }: OFFLINE
{ 'name': '172.16.3.9', 'id': '50a5dc5d-c419-9c48-8914-d91a98d43fe7', 'type': 'node' }: OFFLINE

Führen Sie diesen Befehl aus, um den Cleaner-Prozess zu starten.

bash-4.2# stcli cleaner start                                                                                  
WARNING: This command should be executed ONLY by Cisco TAC support as it may have very severe consequences. Do you want to proceed ? (y/n): y
bash-4.2# stcli cleaner info
{ 'type': 'node', 'id': '1f82077d-6702-214d-8814-e776ffc0f53c', 'name': '172.16.3.7' }: ONLINE
{ 'type': 'node', 'id': 'c4a24480-e935-6942-93ee-987dc8e9b5d9', 'name': '172.16.3.8' }: ONLINE
{ 'type': 'node', 'id': '50a5dc5d-c419-9c48-8914-d91a98d43fe7', 'name': '172.16.3.9' }: ONLINE           <---------All nodes need to be online
bash-4.2#

Vorsicht: Dieser Befehl muss mit Genehmigung des Cisco TAC ausgeführt werden.

Neugewichtung

Das Storage-Cluster wird regelmäßig neu verteilt. Es wird verwendet, um die Verteilung gespeicherter Daten über Änderungen im verfügbaren Speicher neu zu ordnen und den Zustand des Storage-Clusters wiederherzustellen.

Rebalance wird aus verschiedenen Gründen in Clustern ausgeführt:

Eine physische Ressource (Knoten/Festplatte) ist ausgefallen, und HX verlagert diese Vnodes auf eine andere physische Ressource im Cluster.
Die einzelnen Festplatten im Cluster sind nicht alle vergleichbar ausgelastet und es sind daher einige Hotspots hinsichtlich der Datenverfügbarkeit innerhalb des HX-Clusters (Data Collocation) entstanden.
Rebalance kann auch ausgeführt werden, wenn die Zonenkonformität nicht gegeben ist, selbst wenn der Cluster fehlerfrei ist.
Wenn dem vorhandenen Cluster ein neuer Knoten hinzugefügt wird, übernehmen die hinzugefügten Knoten neue Schreibvorgänge, sobald sie dem vorhandenen Cluster beitreten.

Überprüfen Sie, ob die Neuausrichtung des Clusters aktiviert ist.

hxshell:~$ stcli rebalance status
rebalanceStatus:
    percentComplete: 0
    rebalanceState: cluster_rebalance_not_running
rebalanceEnabled: True     <---------Rebalance should be enabled 
hxshell:~$

Vorsicht: Alle Vorgänge im Zusammenhang mit der Wiederherstellung des Gleichgewichts müssen mit Genehmigung des Cisco TAC durchgeführt werden.

Festplattenfehler

Für einen ordnungsgemäßen Betrieb darf der Cluster keine Festplatten oder Offline-Ressourcen mit Blacklists aufweisen.

Sie müssen überprüfen, ob auf dem Cluster in der HX Connect-Schnittstelle ein Datenträger vorhanden ist, der auf der Blacklist steht.

Blacklisted disk. Auf der Blacklist befindlicher Datenträger.

Überprüfen Sie in der CLI, ob Offlineressourcen in jedem Konvergenzknoten vorhanden sind.

sysmtool --ns cluster --cmd offlineresources 
UUID                                Type         State      InUse      Last modified            
----                                ----         -----      -----      -------------            
000cca0b019b4a80:0000000000000000   DISK         DELETED    YES          <------- Offline disk                       
5002538c405e0bd1:0000000000000000   DISK         BLOCKLISTED NO          <------- Blacklisted disk                         
5002538c405e299e:0000000000000000   DISK         DELETED    NO                                  
Total offline resources: 3, Nodes: 0, Disks: 3

Überprüfen Sie, ob Ressourcen auf der Blacklist sind.

hxshell:~$ sysmtool --ns disk --cmd list | grep -i blacklist
Blacklist Count: 0
Blacklist Count: 0
Blacklist Count: 0
Blacklist Count: 0
State: BLACKLISTED
Blacklist Count: 5
Blacklist Count: 0
Blacklist Count: 0

Mit diesem Befehl müssen Sie überprüfen, ob in jedem Konvergenzknoten ein fehlerhaftes Laufwerk vorhanden ist.

admin:~$ cat /var/log/springpath/diskslotmap-v2.txt
0.0.1:5002538e000d59a3:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302248:HXT76F3Q:SATA:SSD:3662830:Inactive:/dev/sdj    <---------Inactive disk
1.0.2:5002538c40be79ac:Samsung:SAMSUNG_MZ7LM240HMHQ-00003:S4EGNX0KC04551:GXT51F3Q:SATA:SSD:228936:Active:/dev/sdb
1.0.3:5002538e000d599e:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302243:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdc
1.0.4:5002538e000d59a0:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302245:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdd
1.0.5:5002538e000eb00b:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302480:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdi
1.0.6:5002538e000d599b:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302240:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdf
1.0.7:5002538e000d57f6:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M301819:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdh
1.0.8:5002538e000d59ab:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302256:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sde
1.0.9:5002538e000d59a1:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302246:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdg
1.0.10:5002538e0008c68f:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M200500:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdj
0.1.192:000cca0b01c83180:HGST:UCSC-NVMEHW-H1600:SDM000026904:KNCCD111:NVMe:SSD:1526185:Active:/dev/nvme0n1
admin:~$

Beispiel für einen Knoten ohne Festplattenausfall.

hxshell:~$ sysmtool --ns cluster --cmd offlineresources
No offline resources found              <-------- No offline resources 

hxshell:~$ sysmtool --ns disk --cmd list | grep -i blacklist
hxshell:~$                              <-------- No blacklisted disks
hxshell:~$ cat /var/log/springpath/diskslotmap-v2.txt
1.14.1:55cd2e404c234bf9:Intel:INTEL_SSDSC2BX016T4K:BTHC618505B51P6PGN:G201CS01:SATA:SSD:1526185:Active:/dev/sdc
1.14.2:5000c5008547c543:SEAGATE:ST1200MM0088:Z4009D7Y0000R637KMU7:N0A4:SAS:10500:1144641:Active:/dev/sdd
1.14.3:5000c5008547be1b:SEAGATE:ST1200MM0088:Z4009G0B0000R635L4D3:N0A4:SAS:10500:1144641:Active:/dev/sde
1.14.4:5000c5008547ca6b:SEAGATE:ST1200MM0088:Z4009F9N0000R637JZRF:N0A4:SAS:10500:1144641:Active:/dev/sdf
1.14.5:5000c5008547b373:SEAGATE:ST1200MM0088:Z4009GPM0000R634ZJHB:N0A4:SAS:10500:1144641:Active:/dev/sdg
1.14.6:5000c500854310fb:SEAGATE:ST1200MM0088:Z4008XFJ0000R6374ZE8:N0A4:SAS:10500:1144641:Active:/dev/sdh
1.14.7:5000c50085424b53:SEAGATE:ST1200MM0088:Z4008D2S0000R635M4VF:N0A4:SAS:10500:1144641:Active:/dev/sdi
1.14.8:5000c5008547bcfb:SEAGATE:ST1200MM0088:Z4009G3W0000R637K1R8:N0A4:SAS:10500:1144641:Active:/dev/sdj
1.14.9:5000c50085479abf:SEAGATE:ST1200MM0088:Z4009J510000R637KL1V:N0A4:SAS:10500:1144641:Active:/dev/sdk
1.14.11:5000c5008547c2c7:SEAGATE:ST1200MM0088:Z4009FR00000R637JPEQ:N0A4:SAS:10500:1144641:Active:/dev/sdl
1.14.13:5000c5008547ba93:SEAGATE:ST1200MM0088:Z4009G8V0000R634ZKLX:N0A4:SAS:10500:1144641:Active:/dev/sdm
1.14.14:5000c5008547b69f:SEAGATE:ST1200MM0088:Z4009GG80000R637KM30:N0A4:SAS:10500:1144641:Active:/dev/sdn
1.14.15:5000c5008547b753:SEAGATE:ST1200MM0088:Z4009GH90000R635L5F6:N0A4:SAS:10500:1144641:Active:/dev/sdo
1.14.16:5000c5008547ab7b:SEAGATE:ST1200MM0088:Z4009H3P0000R634ZK8T:N0A4:SAS:10500:1144641:Active:/dev/sdp  <------All disks are active
hxshell:~$

Freier Speicher

Überprüfen Sie den freien Speicher mit diesem Befehl, der freie Speicher muss mehr als 2048 MB (freier +Cache).

hxshell:~$ free –m                       
              total        used        free      shared  buff/cache   available
Mem:       74225624    32194300    38893712        1672     3137612    41304336
Swap:             0           0           0
hxshell:~$

wenn der freie + Cache-Speicher kleiner als 2048 ist, ist erforderlich, um den Prozess zu identifizieren, der die Out Of Memory-Bedingung erzeugt.

Hinweis: Sie können den obersten Befehl verwenden, um Prozesse zu identifizieren, die viel Speicher benötigen. Alle Änderungen müssen jedoch mit Genehmigung des TAC durchgeführt werden. Wenden Sie sich an das Cisco TAC, um Probleme mit den OOM-Bedingungen zu beheben.

Bedingung Ende des Speicherplatzes

Die Best Practice bei der Speichernutzung von Cluster-Speicherplatz besteht darin, in der HX Connect-Kapazitätsansicht nicht über 76 Prozent hinauszugehen. Bei mehr als 76 Prozent führt die Nutzung der HX Connect-Kapazitätsanzeige zu Leistungseinbußen.

Wenn im Storage-Cluster eine ENOSPC-Bedingung auftritt, wird der Cleaner automatisch mit hoher Priorität ausgeführt, was zu Leistungsproblemen im Cluster führen kann. Die Priorität wird durch die Nutzung des Cluster-Speicherplatzes bestimmt.

Wenn das Storage-Cluster einen ENOSPC-WARN-Zustand erreicht, erhöht der Cleaner seine Intensität, indem er die Anzahl der E/A-Vorgänge erhöht, um mit einem ENOSPC-Setzustand Müll zu sammeln. Er wird mit der höchsten Priorität ausgeführt.

Mit diesem Befehl können Sie den ENOSPCINFO-Status auf dem Cluster überprüfen.

hxshell:~$ sysmtool --ns cluster --cmd enospcinfo
Cluster Space Details:
---------------------:
Cluster state: ONLINE
Health state: HEALTHY
Raw capacity: 42.57T
Usable capacity: 13.06T
Used capacity: 163.08G
Free capacity: 12.90T
Enospc state: ENOSPACE_CLEAR    <--------End of space status
Space reclaimable: 0.00
Minimum free capacity
required to resume operation: 687.12G
Space required to clear
ENOSPC warning: 2.80T           <--------Free space until the end of space warning appears 
Rebalance In Progress: NO
Flusher in progress: NO
Cleaner in progress: YES
Disk Enospace: NO

hxshell:~$

Lesen Sie das Whitepaper zum Kapazitäts-Management von Cisco HyperFlex, um Best Practices für die Verwaltung des Speicherplatzes auf Ihrem Hyperflex-Cluster zu finden.

Fehlerbehebung in Performance-Diagrammen

Manchmal werden in den Hyperflex-Leistungsdiagrammen keine Informationen angezeigt.

Hyperflex performance charts. Hyperflex-Performance-Diagramme.

Bei diesem Verhalten müssen Sie überprüfen, ob die Statistikdienste im Cluster ausgeführt werden.

hxshell:~$ priv service carbon-cache status
carbon-cache stop/waiting

hxshell:~$ priv service carbon-aggregator status
carbon-aggregator stop/waiting

hxshell:~$ priv service statsd status
statsd stop/waiting

Wenn die Prozesse nicht ausgeführt werden, starten Sie die Dienste manuell.

hxshell:~$ priv service carbon-cache start
carbon-cache start/running, process 15750

hxshell:~$ priv service carbon-aggregator start
carbon-aggregator start/running, process 15799

hxshell:~$ priv service statsd start
statsd start/running, process 15855

Zugehörige Informationen

Revisionsverlauf

Überarbeitung	Veröffentlichungsdatum	Kommentare
1.0	27-Jul-2023	Erstveröffentlichung

Beiträge von Cisco Ingenieuren

Alan Medrano
Cisco TAC Engineer
Ana Montenegro
CX Technical Leader

Fehlerbehebung bei Leistungsproblemen in Hyperflex-Clustern

Inklusive Sprache

Informationen zu dieser Übersetzung

Inhalt

Einleitung

Identifizieren

Cluster-Typen

Erläuterung des Leistungsdiagramms

IOPS

Durchsatz

Latenz

Häufigkeit

Externe Faktoren

Identifizieren von Leistungsproblemen auf Gast-VM-Ebene

Windows

ESXi

PVSCSI-Prüfung

Überprüfung des Netzwerkadapters

RSS-Prüfung

CPU-Hot-Plug-Prüfung

Identifizieren von Leistungsproblemen auf Hostebene

Speicher-E/A-Steuerung und Prüfung der Warteschlangentiefe

Bestätigen Sie, dass SIOC auf ESXi und der Konfiguration der Warteschlangentiefe ausgeführt wird.

SIOC deaktivieren

MaxQDepth ändern

Auf Rx_no_Buff prüfen

Identifizieren von Performance-Problemen auf SCVM-Ebene (Storage Controller Virtual Machine)

Cluster-Integrität

Knoten mit I/O

Interner Service-Check

Reiniger

Neugewichtung

Festplattenfehler

Freier Speicher

Bedingung Ende des Speicherplatzes

Fehlerbehebung in Performance-Diagrammen

Zugehörige Informationen

Revisionsverlauf

Beiträge von Cisco Ingenieuren

War dieses Dokument hilfreich?

Cisco kontaktieren

Dieses Dokument gilt für folgende Produkte.