In dem Dokumentationssatz für dieses Produkt wird die Verwendung inklusiver Sprache angestrebt. Für die Zwecke dieses Dokumentationssatzes wird Sprache als „inklusiv“ verstanden, wenn sie keine Diskriminierung aufgrund von Alter, körperlicher und/oder geistiger Behinderung, Geschlechtszugehörigkeit und -identität, ethnischer Identität, sexueller Orientierung, sozioökonomischem Status und Intersektionalität impliziert. Dennoch können in der Dokumentation stilistische Abweichungen von diesem Bemühen auftreten, wenn Text verwendet wird, der in Benutzeroberflächen der Produktsoftware fest codiert ist, auf RFP-Dokumentation basiert oder von einem genannten Drittanbieterprodukt verwendet wird. Hier erfahren Sie mehr darüber, wie Cisco inklusive Sprache verwendet.
Cisco hat dieses Dokument maschinell übersetzen und von einem menschlichen Übersetzer editieren und korrigieren lassen, um unseren Benutzern auf der ganzen Welt Support-Inhalte in ihrer eigenen Sprache zu bieten. Bitte beachten Sie, dass selbst die beste maschinelle Übersetzung nicht so genau ist wie eine von einem professionellen Übersetzer angefertigte. Cisco Systems, Inc. übernimmt keine Haftung für die Richtigkeit dieser Übersetzungen und empfiehlt, immer das englische Originaldokument (siehe bereitgestellter Link) heranzuziehen.
In diesem Dokument werden die Auswirkungen auf die Leistung in einer Hyperflex-Umgebung aus der Perspektive eines virtuellen Gastrechners (VM), ESXi-Hosts und (SCVM) beschrieben.
Für die Fehlerbehebung in einer Hyperflex-Umgebung ist es wichtig, den Cluster-Typ, den Betrieb, bei dem die Leistung beeinträchtigt wird, die Häufigkeit der Leistungsverschlechterung und den Grad der Auswirkungen auf die Leistung zu ermitteln, die zu einer Leistungsverschlechterung führen.
Ein Hyperflex-Cluster hat mehrere Auswirkungsstufen: auf Gast-VM-, ESXI-Host- und Storage-Controller-VM-Ebene.
● Hybride Knoten: Verwendet SSD-Laufwerke (Solid State Drives) für das Caching und HDDs für die Kapazitätsschicht.
● All-Flash-Knoten: Verwendet SSD-Laufwerke oder Non-Volatile Memory Express (NVMe)-Speicher für das Caching und SSD-Laufwerke für die Kapazitätsschicht.
● Alle NVMe-Knoten: NVMe-Speicher wird sowohl für das Caching als auch für die Kapazitäts-Layer verwendet. Alle NVMe-Knoten bieten die höchste Leistung für die anspruchsvollsten Workloads mit Caching.
Die Hyperflex-Systeme verfügen über eine Funktion zum Überwachen der Leistung, die Diagramme zeigen die Lese- und Schreibleistung des Storage-Clusters an.
Ein-/Ausgabevorgänge pro Sekunde (IOPS) ist eine gängige Leistungsmetrik zur Messung von Computerspeichergeräten, einschließlich HDDs. Diese Kennzahl wird verwendet, um die Leistung für zufällige E/A-Workloads zu bewerten.
Das Bild zeigt die Datenübertragungsrate im Storage-Cluster in Mbit/s.
Latenz ist ein Maß für die Dauer einer einzelnen E/A-Anforderung. Dabei handelt es sich um die Zeitspanne zwischen dem Ausstellen einer Anforderung und dem Empfangen einer Antwort, die in Millisekunden gemessen wird.
Es ist wichtig, die Häufigkeit und Dauer der Auswirkungen auf die Leistung festzulegen, um die möglichen Auswirkungen auf die Umwelt zu prüfen.
Wenn die Leistung ständig beeinträchtigt wird, muss überprüft werden, an welcher Stelle damit begonnen wurde, die Leistung zu verschlechtern, und auf Konfigurationsänderungen oder Probleme zwischen den Clustern geprüft werden.
Wenn die Leistung sich zeitweilig auswirkt, muss überprüft werden, ob zu diesem Zeitpunkt ein Vorgang oder Dienst ausgeführt wird.
Die Leistung des Clusters kann durch externe Faktoren wie Snapshots und Sicherungsvorgänge beeinflusst werden.
Weitere Informationen zu externen Faktoren finden Sie unter den folgenden Links:
VMware vSphere Snapshots: Leistung und Best Practices
Cisco HyperFlex-Systeme und Veeam Backup and Replication Whitepaper.
Dies ist die offensichtlichste Auswirkung in der Hyperflex-Umgebung, sie betrifft direkt die Services, die die virtuellen Systeme bereitstellen, und sie wird bei den direkt betroffenen Benutzern deutlicher.
Nachfolgend finden Sie häufige Tests, um die Leistung gängiger Betriebssysteme zu ermitteln.
Überprüfen Sie die verfügbaren Tools, um Leistungsprobleme in Windows Gast-VMs zu identifizieren:
Nachdem die Auswirkungen auf die Leistung ermittelt und die möglichen Ursachen für die Leistungseinbußen untersucht wurden, gibt es einige Leistungsprüfungen, um die Leistung zu verbessern.
Lesen Sie zur Fehlerbehebung bei Leistungsproblemen virtueller ESX/ESXi-Systeme.
Paravirtual SCSI (PVSCSI) Adapter sind Hochleistungs-Speicheradapter, die einen höheren Durchsatz und eine geringere CPU-Auslastung für virtuelle Maschinen mit hohen Festplatten-E/A-Anforderungen zur Folge haben können. Es wird empfohlen, PVSCSI-Adapter zu verwenden. Der PVSCSI-Controller ist ein virtualisierungsfähiger, hochleistungsfähiger SCSI-Adapter, der eine möglichst niedrige Latenz und einen möglichst hohen Durchsatz bei geringstem CPU-Overhead ermöglicht.
VMXNET 3 ist eine paravirtualisierte Netzwerkkarte, die auf hohe Leistung ausgelegt ist und leistungsstarke Funktionen bietet, die in modernen Netzwerken häufig verwendet werden, wie Jumbo Frames, Unterstützung mehrerer Warteschlangen (auch als Receive Side Scaling unter Windows bekannt), IPv6-Offloads, MSI/MSI-X-Interrupt-Bereitstellung und Hardware-Offloads.
Stellen Sie sicher, dass der Adaptertyp VMXNET3 ist.
Hinweis: Diese Prüfung gilt nur für die virtuellen Gastsysteme, auf denen ein Windows-Betriebssystem ausgeführt wird.
Receive Side Scaling (RSS) ist eine Netzwerktreibertechnologie, die die effiziente Verteilung der Netzwerkempfangsverarbeitung auf mehrere CPUs in Multiprozessorsystemen ermöglicht.
Windows-Server verfügen über eine Treiberkonfiguration, die die Verteilung der Netzwerkverarbeitungslast im Kernelmodus auf mehrere CPUs ermöglicht.
Überprüfen Sie, ob diese Funktion aktiviert ist, und führen Sie den folgenden Befehl auf der Windows PowerShell aus:
netsh interface tcp set global rss=enabled
Um RSS zu aktivieren, überprüfen Sie diesen Link
CPU-Hotplug ist eine Funktion, mit der der Administrator des virtuellen Systems CPUs hinzufügen kann, ohne es abschalten zu müssen. Auf diese Weise können CPU-Ressourcen ohne Betriebsunterbrechung sofort hinzugefügt werden. Wenn CPU-Hotplug auf einem virtuellen System aktiviert ist, ist die vNUMA-Funktion deaktiviert.
Gehen Sie die Best Practices für gängige Betriebssysteme und Anwendungen durch:
Windows.
Richtlinien zur Leistungsoptimierung für Windows Server 2022.
Red Hat.
3 Tipps zur Verbesserung der Linux-Prozessleistung mit Priorität und Affinität.
SQL Server
Microsoft SQL Server-Architektur auf VMware.
RedHat
Leitfaden zur Leistungsoptimierung:
Um die Auswirkungen auf die Performance auf Server-Ebene zu ermitteln, können Sie die Performance-Diagramme des ESXI-Hosts überprüfen, die in den ESXI-Hypervisor integriert sind, und überprüfen, wie viele Hosts betroffen sind.
Sie können die Leistungsdiagramme in vCenter auf der Registerkarte Monitor anzeigen, und klicken Sie auf die Registerkarte Performance.
In diesen Diagrammen können Sie die Performance-Diagramme zu CPU, Arbeitsspeicher und Festplatte anzeigen. Unter diesem Link können Sie die Diagramme nachlesen.
Hinweis: CRC-Fehler und MTU-Diskrepanzen insbesondere im Speichernetzwerk führen zu Latenzproblemen. Der Speicherverkehr muss Jumbo Frames verwenden.
Storage I/O Control (SIOC) wird verwendet, um die E/A-Nutzung eines virtuellen Systems zu steuern und nach und nach die vordefinierten E/A-Freigabestufen durchzusetzen, damit diese Funktion in Hyperflex-Clustern deaktiviert wird.
Die Warteschlangentiefe ist die Anzahl der ausstehenden E/A-Anforderungen, die eine Speicherressource jeweils verarbeiten kann.
Mit diesen Schritten können Sie überprüfen, ob SIOC deaktiviert ist und ob die Warteschlangentiefenkonfiguration aktiviert ist.
Schritt 1: SSH an einen HX ESXi-Host senden und den Befehl zum Auflisten der Datenspeicher ausgeben.
[root@] vsish -e ls /vmkModules/nfsclient/mnt
encrypted_app/
Prod/ <----- Datastore name
Dev/
App/
Schritt 2: Verwenden Sie den Namen des Datenspeichers, und geben Sie den Befehl ein.
vsish -e get /vmkModules/nfsclient/mnt/
/properties [root@] vsish -e get /vmkModules/nfsclient/mnt/Prod/properties mount point information { volume name:Prod server name:7938514614702552636-8713662604223381594 server IP:127.0.0.1 server volume:172.16.3.2:Prod UUID:63dee313-dfecdf62 client src port:641 busy:0 socketSendSize:1048576 socketReceiveSize:1048576 maxReadTransferSize:65536 maxWriteTransferSize:65536 reads:0 readsFailed:0 writes:285 writesFailed:0 readBytes:0 writeBytes:10705 readTime:0 writeTime:4778777 readSplitsIssued:0 writeSplitsIssued:285 readIssueTime:0 writeIssueTime:4766494 cancels:0 totalReqsQueued:0 metadataReqsQueued(non IO):0 reqsInFlight:0 readOnly:0 hidden:0 isPE:0 isMounted:1 isAccessible:1 unstableWrites:0 unstableNoCommit:0 maxQDepth:1024 <-------- Max Qdepth configuration iormState:0 <-------- I/O control disabled latencyThreshold:30 shares:52000 podID:0 iormInfo:0 NFS operational state: 0 -> Up enableDnlc:1 closeToOpenCache:0 highToAvgLatRatio:10 latMovingAvgSmoothingLevel:2 activeWorlds:55 inPreUnmount:0 }
Schritt 3: Suchen Sie in der Ausgabe nach der Zeile
iormState:0 0= disabled 2= enabled
Die maximaleQDepth der Leitung muss 1024 sein.
Schritt 4: Die gleichen Schritte müssen für die übrigen Datenspeicher wiederholt werden.
Um das SIOC zu deaktivieren, führen Sie diese Schritte aus.
Schritt 1: Melden Sie sich mit dem HTML-Client bei vsphere an.
Schritt 2: Wählen Sie aus dem Dropdown-Menü Storage (Speicher) aus, und wählen Sie dann im linken Bereich den entsprechenden HX-Datenspeicher aus.
Schritt 3: Wählen Sie im oberen rechten Fensterbereich des Datenspeichers die Registerkarte configure aus.
Schritt 4: Wählen Sie im rechten Bereich des mittleren Abschnitts unter "More" (Mehr) die Option General aus, scrollen Sie auf der rechten Seite nach unten zu DataStore Capabilities, und klicken Sie auf Edit (Bearbeiten)
Wenn das Optionsfeld Speichersteuerung und Statistiksammlung deaktivieren deaktiviert ist, überprüfen Sie es.
Wenn das Optionsfeld I/O-Speichersteuerung und Statistikerfassung deaktivieren aktiviert ist, wechseln Sie zwischen SpeicherI/O-Steuerung und Statistikerfassung aktivieren und SpeicherI/O-Steuerung und Statistikerfassung deaktivieren.
Schritt 5: Wiederholen Sie die Schritte 1 bis 4 für alle anderen Datenspeicher.
Um die maxQDepth zu ändern, geben Sie den nächsten Befehl für jeden Datenspeicher aus.
vsish -e set /vmkModules/nfsclient/mnt/
/properties maxQDepth 1024
Hyperflex-Server mit hohem Netzwerkverkehr oder Netzwerkverkehr mit Microbursts können zu Paketverlusten in Form von rx_no_bufs führen.
Um dieses Problem zu identifizieren, führen Sie diese Befehle auf dem ESXi-Host aus, um die rx_no_buf-Zähler zu überprüfen.
/usr/lib/vmware/vm-support/bin/nicinfo.sh | egrep "^NIC:|rx_no_buf"
NIC: vmnic0
rx_no_bufs: 1
NIC: vmnic1
rx_no_bufs: 2
NIC: vmnic2
rx_no_bufs: 2
NIC: vmnic3
rx_no_bufs: 71128211 <---------Very high rx_no_bufs counter
NIC: vmnic4
rx_no_bufs: 1730
NIC: vmnic5
rx_no_bufs: 897
NIC: vmnic6
rx_no_bufs: 24952
NIC: vmnic7
rx_no_bufs: 2
Warten Sie einige Minuten, und führen Sie den Befehl erneut aus, und überprüfen Sie, ob die rx_no_bufs-Zähler nicht ansteigen.
Wenn der Zähler für diese Werte angezeigt wird, wenden Sie sich an das Cisco TAC, um die vNIC-Konfiguration für eine bessere Leistung anzupassen.
Überprüfung der Best Practices und zusätzliche Prüfungen auf ESXI-Ebene.
Best Practices für die Leistung von VMware vSphere 7.0.
Überprüfen Sie, ob der Cluster fehlerfrei ist.
hxshell:~$ sysmtool --ns cluster --cmd healthdetail
Cluster Health Detail:
---------------------:
State: ONLINE <---------- State of the cluster
HealthState: HEALTHY <---------- Health of the cluster
Policy Compliance: COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 19 hours, 45 mins, 51 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is healthy.
# of nodes failure tolerable for cluster to be fully available: 1
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 3
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 2
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 3
# of caching devices failures tolerable for cluster to be fully available: 2
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 3
Current ensemble size: 3
Minimum data copies available for some user data: 3
Minimum cache copies remaining: 3
Minimum metadata copies available for cluster metadata: 3
Current healing status:
Time remaining before current healing operation finishes:
# of unavailable nodes: 0
hxshell:~$
Diese Ausgabe zeigt einen fehlerhaften Cluster aufgrund eines nicht verfügbaren Knotens an.
hxshell:~$ sysmtool --ns cluster --cmd healthdetail
Cluster Health Detail:
---------------------:
State: ONLINE <-------State of the cluster
HealthState: UNHEALTHY <-------Health of the cluster
Policy Compliance: NON-COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 19 hours, 55 mins, 9 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is unhealthy.Storage node 172.16.3.9 is unavailable. <----------- Health state reason
# of nodes failure tolerable for cluster to be fully available: 0
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 2
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 1
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 2
# of caching devices failures tolerable for cluster to be fully available: 1
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 2
Current ensemble size: 3
Minimum data copies available for some user data: 2
Minimum cache copies remaining: 2
Minimum metadata copies available for cluster metadata: 2
Current healing status: Rebuilding/Healing is needed, but not in progress yet. Warning: Insufficient node or space resources may prevent healing. Storage Node 172.16.3.9 is either down or initializing disks.
Time remaining before current healing operation finishes:
# of unavailable nodes: 1
hxshell:~$
Diese Ausgabe zeigt einen fehlerhaften Cluster aufgrund der Neuerstellung an.
Cluster Health Detail:
---------------------:
State: ONLINE
HealthState: UNHEALTHY
Policy Compliance: NON-COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 20 hours, 2 mins, 4 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is unhealthy.
# of nodes failure tolerable for cluster to be fully available: 1
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 2
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 1
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 2
# of caching devices failures tolerable for cluster to be fully available: 1
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 2
Current ensemble size: 3
Minimum data copies available for some user data: 3
Minimum cache copies remaining: 2
Minimum metadata copies available for cluster metadata: 2
Current healing status: Rebuilding is in progress, 58% completed.
Time remaining before current healing operation finishes: 18 hr(s), 10 min(s), and 53 sec(s)
# of unavailable nodes: 0
Diese Befehle zeigen eine Gesamtübersicht über den Zustand des Clusters an und informieren Sie darüber, ob der Betrieb des Clusters beeinträchtigt wird, z. B. wenn ein Datenträger auf der Blacklist vorhanden ist, ein Offline-Knoten vorhanden ist oder wenn der Cluster repariert.
Die Leistung kann durch einen Knoten beeinträchtigt werden, der nicht an den Eingabe- und Ausgabevorgängen beteiligt ist. Führen Sie diese Befehle aus, um die Knoten zu überprüfen, die an den E/A-Vorgängen teilnehmen.
Tipp: In der Version 5.0(2a) steht Ihnen diag user zur Verfügung, um Benutzern mehr Rechte für die Fehlerbehebung mit Zugriff auf beschränkte Ordner und Befehle zu gewähren, auf die über die priv-Befehlszeile, die in Hyperflex 4.5.x eingeführt wurde, nicht zugegriffen werden kann.
Schritt 1: Öffnen Sie die Diag-Shell auf einer Storage-Controller-VM.
hxshell:~$ su diag
Password:
_ _ _ _ _ _____ _ ___
| \ | (_)_ __ ___ | || | | ___(_)_ _____ / _ \ _ __ ___
| \| | | '_ \ / _ \ _____ | || |_ _____ | |_ | \ \ / / _ \ _____ | | | | '_ \ / _ \
| |\ | | | | | __/ |_____| |__ _| |_____| | _| | |\ V / __/ |_____| | |_| | | | | __/
|_| \_|_|_| |_|\___| |_| |_| |_| \_/ \___| \___/|_| |_|\___|
Enter the output of above expression: -1
Valid captcha
Schritt 2: Führen Sie diesen Befehl aus, um die Knoten zu überprüfen, die an E/A-Vorgängen teilnehmen. Die Anzahl der IPs muss der Anzahl der konvergenten Knoten im Cluster entsprechen.
diag# nfstool -- -m | cut -f2 | sort | uniq
172.16.3.7
172.16.3.8
172.16.3.9
Eines der Hauptziele von Cleaner ist es, tote und lebende Speicherblöcke im System zu identifizieren und die toten zu entfernen, um den von ihnen belegten Speicherplatz freizugeben. Es ist eine Hintergrundarbeit, und seine Aggressivität wird auf der Grundlage einer Richtlinie festgelegt.
Sie können den Cleaner-Dienst überprüfen, indem Sie den nächsten Befehl eingeben.
bash-4.2# stcli cleaner info
{ 'name': '172.16.3.7', 'id': '1f82077d-6702-214d-8814-e776ffc0f53c', 'type': 'node' }: OFFLINE <----------- Cleaner shows as offline
{ 'name': '172.16.3.8', 'id': 'c4a24480-e935-6942-93ee-987dc8e9b5d9', 'type': 'node' }: OFFLINE
{ 'name': '172.16.3.9', 'id': '50a5dc5d-c419-9c48-8914-d91a98d43fe7', 'type': 'node' }: OFFLINE
Führen Sie diesen Befehl aus, um den Cleaner-Prozess zu starten.
bash-4.2# stcli cleaner start
WARNING: This command should be executed ONLY by Cisco TAC support as it may have very severe consequences. Do you want to proceed ? (y/n): y
bash-4.2# stcli cleaner info
{ 'type': 'node', 'id': '1f82077d-6702-214d-8814-e776ffc0f53c', 'name': '172.16.3.7' }: ONLINE
{ 'type': 'node', 'id': 'c4a24480-e935-6942-93ee-987dc8e9b5d9', 'name': '172.16.3.8' }: ONLINE
{ 'type': 'node', 'id': '50a5dc5d-c419-9c48-8914-d91a98d43fe7', 'name': '172.16.3.9' }: ONLINE <---------All nodes need to be online
bash-4.2#
Vorsicht: Dieser Befehl muss mit Genehmigung des Cisco TAC ausgeführt werden.
Das Storage-Cluster wird regelmäßig neu verteilt. Es wird verwendet, um die Verteilung gespeicherter Daten über Änderungen im verfügbaren Speicher neu zu ordnen und den Zustand des Storage-Clusters wiederherzustellen.
Rebalance wird aus verschiedenen Gründen in Clustern ausgeführt:
Überprüfen Sie, ob die Neuausrichtung des Clusters aktiviert ist.
hxshell:~$ stcli rebalance status
rebalanceStatus:
percentComplete: 0
rebalanceState: cluster_rebalance_not_running
rebalanceEnabled: True <---------Rebalance should be enabled
hxshell:~$
Vorsicht: Alle Vorgänge im Zusammenhang mit der Wiederherstellung des Gleichgewichts müssen mit Genehmigung des Cisco TAC durchgeführt werden.
Für einen ordnungsgemäßen Betrieb darf der Cluster keine Festplatten oder Offline-Ressourcen mit Blacklists aufweisen.
Sie müssen überprüfen, ob auf dem Cluster in der HX Connect-Schnittstelle ein Datenträger vorhanden ist, der auf der Blacklist steht.
Überprüfen Sie in der CLI, ob Offlineressourcen in jedem Konvergenzknoten vorhanden sind.
sysmtool --ns cluster --cmd offlineresources
UUID Type State InUse Last modified
---- ---- ----- ----- -------------
000cca0b019b4a80:0000000000000000 DISK DELETED YES <------- Offline disk
5002538c405e0bd1:0000000000000000 DISK BLOCKLISTED NO <------- Blacklisted disk
5002538c405e299e:0000000000000000 DISK DELETED NO
Total offline resources: 3, Nodes: 0, Disks: 3
Überprüfen Sie, ob Ressourcen auf der Blacklist sind.
hxshell:~$ sysmtool --ns disk --cmd list | grep -i blacklist
Blacklist Count: 0
Blacklist Count: 0
Blacklist Count: 0
Blacklist Count: 0
State: BLACKLISTED
Blacklist Count: 5
Blacklist Count: 0
Blacklist Count: 0
Mit diesem Befehl müssen Sie überprüfen, ob in jedem Konvergenzknoten ein fehlerhaftes Laufwerk vorhanden ist.
admin:~$ cat /var/log/springpath/diskslotmap-v2.txt
0.0.1:5002538e000d59a3:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302248:HXT76F3Q:SATA:SSD:3662830:Inactive:/dev/sdj <---------Inactive disk
1.0.2:5002538c40be79ac:Samsung:SAMSUNG_MZ7LM240HMHQ-00003:S4EGNX0KC04551:GXT51F3Q:SATA:SSD:228936:Active:/dev/sdb
1.0.3:5002538e000d599e:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302243:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdc
1.0.4:5002538e000d59a0:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302245:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdd
1.0.5:5002538e000eb00b:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302480:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdi
1.0.6:5002538e000d599b:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302240:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdf
1.0.7:5002538e000d57f6:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M301819:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdh
1.0.8:5002538e000d59ab:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302256:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sde
1.0.9:5002538e000d59a1:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302246:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdg
1.0.10:5002538e0008c68f:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M200500:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdj
0.1.192:000cca0b01c83180:HGST:UCSC-NVMEHW-H1600:SDM000026904:KNCCD111:NVMe:SSD:1526185:Active:/dev/nvme0n1
admin:~$
Beispiel für einen Knoten ohne Festplattenausfall.
hxshell:~$ sysmtool --ns cluster --cmd offlineresources
No offline resources found <-------- No offline resources
hxshell:~$ sysmtool --ns disk --cmd list | grep -i blacklist
hxshell:~$ <-------- No blacklisted disks
hxshell:~$ cat /var/log/springpath/diskslotmap-v2.txt
1.14.1:55cd2e404c234bf9:Intel:INTEL_SSDSC2BX016T4K:BTHC618505B51P6PGN:G201CS01:SATA:SSD:1526185:Active:/dev/sdc
1.14.2:5000c5008547c543:SEAGATE:ST1200MM0088:Z4009D7Y0000R637KMU7:N0A4:SAS:10500:1144641:Active:/dev/sdd
1.14.3:5000c5008547be1b:SEAGATE:ST1200MM0088:Z4009G0B0000R635L4D3:N0A4:SAS:10500:1144641:Active:/dev/sde
1.14.4:5000c5008547ca6b:SEAGATE:ST1200MM0088:Z4009F9N0000R637JZRF:N0A4:SAS:10500:1144641:Active:/dev/sdf
1.14.5:5000c5008547b373:SEAGATE:ST1200MM0088:Z4009GPM0000R634ZJHB:N0A4:SAS:10500:1144641:Active:/dev/sdg
1.14.6:5000c500854310fb:SEAGATE:ST1200MM0088:Z4008XFJ0000R6374ZE8:N0A4:SAS:10500:1144641:Active:/dev/sdh
1.14.7:5000c50085424b53:SEAGATE:ST1200MM0088:Z4008D2S0000R635M4VF:N0A4:SAS:10500:1144641:Active:/dev/sdi
1.14.8:5000c5008547bcfb:SEAGATE:ST1200MM0088:Z4009G3W0000R637K1R8:N0A4:SAS:10500:1144641:Active:/dev/sdj
1.14.9:5000c50085479abf:SEAGATE:ST1200MM0088:Z4009J510000R637KL1V:N0A4:SAS:10500:1144641:Active:/dev/sdk
1.14.11:5000c5008547c2c7:SEAGATE:ST1200MM0088:Z4009FR00000R637JPEQ:N0A4:SAS:10500:1144641:Active:/dev/sdl
1.14.13:5000c5008547ba93:SEAGATE:ST1200MM0088:Z4009G8V0000R634ZKLX:N0A4:SAS:10500:1144641:Active:/dev/sdm
1.14.14:5000c5008547b69f:SEAGATE:ST1200MM0088:Z4009GG80000R637KM30:N0A4:SAS:10500:1144641:Active:/dev/sdn
1.14.15:5000c5008547b753:SEAGATE:ST1200MM0088:Z4009GH90000R635L5F6:N0A4:SAS:10500:1144641:Active:/dev/sdo
1.14.16:5000c5008547ab7b:SEAGATE:ST1200MM0088:Z4009H3P0000R634ZK8T:N0A4:SAS:10500:1144641:Active:/dev/sdp <------All disks are active
hxshell:~$
Überprüfen Sie den freien Speicher mit diesem Befehl, der freie Speicher muss mehr als 2048 MB (freier +Cache).
hxshell:~$ free –m
total used free shared buff/cache available
Mem: 74225624 32194300 38893712 1672 3137612 41304336
Swap: 0 0 0
hxshell:~$
wenn der freie + Cache-Speicher kleiner als 2048 ist, ist erforderlich, um den Prozess zu identifizieren, der die Out Of Memory-Bedingung erzeugt.
Hinweis: Sie können den obersten Befehl verwenden, um Prozesse zu identifizieren, die viel Speicher benötigen. Alle Änderungen müssen jedoch mit Genehmigung des TAC durchgeführt werden. Wenden Sie sich an das Cisco TAC, um Probleme mit den OOM-Bedingungen zu beheben.
Die Best Practice bei der Speichernutzung von Cluster-Speicherplatz besteht darin, in der HX Connect-Kapazitätsansicht nicht über 76 Prozent hinauszugehen. Bei mehr als 76 Prozent führt die Nutzung der HX Connect-Kapazitätsanzeige zu Leistungseinbußen.
Wenn im Storage-Cluster eine ENOSPC-Bedingung auftritt, wird der Cleaner automatisch mit hoher Priorität ausgeführt, was zu Leistungsproblemen im Cluster führen kann. Die Priorität wird durch die Nutzung des Cluster-Speicherplatzes bestimmt.
Wenn das Storage-Cluster einen ENOSPC-WARN-Zustand erreicht, erhöht der Cleaner seine Intensität, indem er die Anzahl der E/A-Vorgänge erhöht, um mit einem ENOSPC-Setzustand Müll zu sammeln. Er wird mit der höchsten Priorität ausgeführt.
Mit diesem Befehl können Sie den ENOSPCINFO-Status auf dem Cluster überprüfen.
hxshell:~$ sysmtool --ns cluster --cmd enospcinfo
Cluster Space Details:
---------------------:
Cluster state: ONLINE
Health state: HEALTHY
Raw capacity: 42.57T
Usable capacity: 13.06T
Used capacity: 163.08G
Free capacity: 12.90T
Enospc state: ENOSPACE_CLEAR <--------End of space status
Space reclaimable: 0.00
Minimum free capacity
required to resume operation: 687.12G
Space required to clear
ENOSPC warning: 2.80T <--------Free space until the end of space warning appears
Rebalance In Progress: NO
Flusher in progress: NO
Cleaner in progress: YES
Disk Enospace: NO
hxshell:~$
Lesen Sie das Whitepaper zum Kapazitäts-Management von Cisco HyperFlex, um Best Practices für die Verwaltung des Speicherplatzes auf Ihrem Hyperflex-Cluster zu finden.
Manchmal werden in den Hyperflex-Leistungsdiagrammen keine Informationen angezeigt.
Bei diesem Verhalten müssen Sie überprüfen, ob die Statistikdienste im Cluster ausgeführt werden.
hxshell:~$ priv service carbon-cache status
carbon-cache stop/waiting
hxshell:~$ priv service carbon-aggregator status
carbon-aggregator stop/waiting
hxshell:~$ priv service statsd status
statsd stop/waiting
Wenn die Prozesse nicht ausgeführt werden, starten Sie die Dienste manuell.
hxshell:~$ priv service carbon-cache start
carbon-cache start/running, process 15750
hxshell:~$ priv service carbon-aggregator start
carbon-aggregator start/running, process 15799
hxshell:~$ priv service statsd start
statsd start/running, process 15855
Überarbeitung | Veröffentlichungsdatum | Kommentare |
---|---|---|
1.0 |
27-Jul-2023 |
Erstveröffentlichung |