Résolution des problèmes de performances dans les clusters Hyperflex

Mis à jour:26 juillet 2023

ID du document:220651

Langage exempt de préjugés

Dans le cadre de la documentation associée à ce produit, nous nous efforçons d’utiliser un langage exempt de préjugés. Dans cet ensemble de documents, le langage exempt de discrimination renvoie à une langue qui exclut la discrimination en fonction de l’âge, des handicaps, du genre, de l’appartenance raciale de l’identité ethnique, de l’orientation sexuelle, de la situation socio-économique et de l’intersectionnalité. Des exceptions peuvent s’appliquer dans les documents si le langage est codé en dur dans les interfaces utilisateurs du produit logiciel, si le langage utilisé est basé sur la documentation RFP ou si le langage utilisé provient d’un produit tiers référencé. Découvrez comment Cisco utilise le langage inclusif.

À propos de cette traduction

Cisco a traduit ce document en traduction automatisée vérifiée par une personne dans le cadre d’un service mondial permettant à nos utilisateurs d’obtenir le contenu d’assistance dans leur propre langue. Il convient cependant de noter que même la meilleure traduction automatisée ne sera pas aussi précise que celle fournie par un traducteur professionnel.

Table des matières

Introduction

Identifier

Types de cluster

Explication du tableau des performances

IOPS

Débit

Latence

Fréquence

Facteurs externes

Identifier les problèmes de performances au niveau de la machine virtuelle invitée

Fenêtres

ESXi

Vérification PVSCSI

Vérification de la carte réseau

Vérification RSS

Introduction

Ce document décrit l'impact sur les performances dans un environnement hyperflex, du point de vue d'une machine virtuelle invitée (VM), d'un hôte ESXi et d'une machine virtuelle invitée (SCVM)

Identifier

Afin de dépanner les performances dans un environnement Hyperflex, il est important d'identifier le type de cluster, l'opération où les performances sont dégradées, la fréquence de la dégradation des performances et le niveau d'impact sur les performances qui entraîne la dégradation des performances.

Il existe plusieurs niveaux d'impact dans un cluster hyperflex, au niveau de la VM invitée, au niveau de l'hôte ESXI et au niveau de la VM du contrôleur de stockage.

Types de cluster

● Noeuds hybrides : utilise des disques SSD (Solid State Drive) pour la mise en cache et des disques durs pour la couche de capacité.

● Noeuds All-Flash : utilise des disques SSD ou un stockage Non-Volatile Memory Express (NVMe) pour la mise en cache et des disques SSD pour la couche de capacité.

● Noeuds NVMe : utilise le stockage NVMe pour la mise en cache et la couche de capacité. Les noeuds NVMe fournissent les performances les plus élevées pour les charges de travail les plus exigeantes avec mise en cache

Explication du tableau des performances

Les systèmes hyperflex disposent d'une fonction permettant de surveiller les performances. Les graphiques affichent les performances en lecture et en écriture du cluster de stockage.

IOPS

Les opérations d'entrée/sortie par seconde (IOPS) sont une mesure de performances couramment utilisée pour mesurer les périphériques de stockage des ordinateurs, y compris les disques durs. Cette mesure est utilisée pour évaluer les performances des charges de travail E/S aléatoires.

IOPS performance chart. Graphique des performances IOPS.

Débit

L'image montre le taux de transfert de données dans le cluster de stockage, mesuré en Mbits/s.

Throughput performance chart. Graphique des performances de débit.

Latence

La latence est une mesure du temps nécessaire à l'exécution d'une seule demande d'E/S. Il s'agit de la durée entre l'émission d'une requête et la réception d'une réponse, mesurée en millisecondes.

Latency performance chart. Graphique des performances de latence.

Fréquence

Il est important de définir la fréquence et la durée de l'impact sur les performances afin d'examiner l'impact possible sur l'environnement.

Si les performances sont constamment affectées, il est nécessaire de vérifier l'endroit où il a commencé à les dégrader et de rechercher les éventuels changements ou problèmes de configuration entre le cluster.

Si les performances ont un impact intermittent, il est nécessaire de vérifier si une opération ou un service est en cours d'exécution à ce moment-là.

Facteurs externes

Les performances du cluster peuvent être affectées par des facteurs externes tels que les instantanés et les opérations de sauvegarde.

Consultez ces liens pour obtenir de plus amples renseignements sur les facteurs externes :

Instantanés VMware vSphere : performances et meilleures pratiques.

Livre blanc de Cisco HyperFlex Systems et Veeam Backup and Replication.

Identifier les problèmes de performances au niveau de la machine virtuelle invitée

Il s'agit du niveau d'impact le plus visible dans l'environnement hyperflex, il affecte directement les services fournis par les machines virtuelles et il est plus évident avec les utilisateurs directement affectés.

Voici les tests courants permettant d'identifier les performances sur les systèmes d'exploitation courants.

Fenêtres

Passez en revue les outils disponibles pour identifier les problèmes de performances dans les machines virtuelles invitées Windows :

Analyseur de performances

Moniteur de ressources

ESXi

Après avoir identifié l'impact sur les performances et passé en revue les causes possibles de la dégradation des performances, des contrôles de performances sont effectués pour améliorer les performances.

Recherchez un surprovisionnement (le nombre total de vCPU attribués à toutes les VM ne doit pas dépasser le nombre total de coeurs physiques disponibles sur la machine hôte ESXi).
Même si le système d'exploitation invité n'utilise pas certains de ses vCPU, la configuration des machines virtuelles avec ces vCPU impose toujours de petites exigences de ressources sur ESXi qui se traduisent par une consommation réelle du CPU sur l'hôte.
La surallocation de mémoire augmente également inutilement la surcharge de la mémoire de la machine virtuelle et peut entraîner des conflits de mémoire, en particulier si des réservations sont utilisées.
Vérifiez que le pilote de la bulle ne conserve pas une attente sur la mémoire. Pour plus d'informations, reportez-vous à ce lien.

Reportez-vous à la section Dépannage des problèmes de performances des machines virtuelles ESX/ESXi.

Vérification PVSCSI

Les adaptateurs SCSI paravirtuels (PVSCSI) sont des adaptateurs de stockage hautes performances qui peuvent entraîner un débit plus élevé et une utilisation CPU plus faible pour les machines virtuelles ayant des besoins élevés en E/S disque. Il est recommandé d'utiliser des adaptateurs PVSCSI. Le contrôleur PVSCSI est une carte SCSI hautes performances sensible à la virtualisation qui offre la latence la plus faible possible et le débit le plus élevé avec la plus faible surcharge du processeur.

PVSCSI adapter. Carte PVSCSI.

Vérification de la carte réseau

VMXNET 3 est une carte réseau paravirtualisée conçue pour les performances et fournit des fonctionnalités hautes performances couramment utilisées sur les réseaux modernes, telles que les trames jumbo, la prise en charge de files d'attente multiples (également appelée mise à l'échelle côté réception sous Windows), les déchargements IPv6, la livraison d'interruptions MSI/MSI-X et les déchargements matériels.

Assurez-vous que le type de carte est VMXNET3.

Network adapter. Carte réseau.

Vérification RSS

Remarque : cette vérification s'applique uniquement aux ordinateurs virtuels invités qui exécutent un système d'exploitation Windows.

L'évolutivité côté réception (RSS) est une technologie de pilote réseau qui permet la distribution efficace du traitement de réception réseau sur plusieurs processeurs dans des systèmes multiprocesseurs.

Les serveurs Windows disposent d'une configuration de pilote qui permet la distribution de la charge de traitement réseau en mode noyau sur plusieurs processeurs.

Vérifiez s'il est activé et exécutez cette commande sur Windows PowerShell :

netsh interface tcp set global rss=enabled

Afin d'activer RSS, consultez ce lien

Vérification de l'enfichage à chaud du processeur

La connexion à chaud du processeur est une fonctionnalité qui permet à l'administrateur de la machine virtuelle d'ajouter des processeurs à la machine virtuelle sans avoir à la mettre hors tension. Cela permet d'ajouter des ressources CPU à la volée sans interruption de service. Lorsque la connexion à chaud du processeur est activée sur une machine virtuelle, la fonctionnalité vNUMA est désactivée.

CPU hot plug disabled. Enfichage à chaud du processeur désactivé.

Passez en revue les meilleures pratiques pour les systèmes d'exploitation et les applications courants :

Fenêtres.

Instructions de réglage des performances pour Windows Server 2022.

Red Hat.

3 conseils pour améliorer les performances des processus Linux avec priorité et affinité.

SQL Server.

L'architecture de Microsoft SQL Server sur VMware.

RedHat.

Guide de réglage des performances.

Identification des problèmes de performances au niveau de l'hôte

Pour identifier l'impact sur les performances au niveau de l'hôte, vous pouvez consulter les graphiques de performances que l'hôte ESXI a intégrés dans l'hyperviseur ESXI et vérifier combien d'hôtes sont affectés.

Vous pouvez afficher les graphiques de performances dans vCenter dans l'onglet Surveillance, puis cliquer sur l'onglet Performances.

vCenter performance charts. Graphiques de performances vCenter.

Dans ces graphiques, vous pouvez afficher les graphiques de performances relatifs au processeur, à la mémoire et au disque. Reportez-vous à ce lien pour comprendre les graphiques.

Remarque : les erreurs CRC et les incohérences de MTU, en particulier dans le réseau de stockage, génèrent des problèmes de latence. Le trafic de stockage doit utiliser des trames Jumbo.

Contrôle des E/S de stockage et contrôle de la profondeur de la file

Le contrôle d'E/S de stockage (SIOC) est utilisé pour contrôler l'utilisation des E/S d'une machine virtuelle et pour appliquer progressivement les niveaux de partage d'E/S prédéfinis. Cette fonction doit être désactivée dans Hyperflex Clusters.

La profondeur de file d'attente est le nombre de demandes d'entrée/sortie (E/S) en attente qu'une ressource de stockage peut traiter à tout moment.

Vous pouvez utiliser ces étapes pour vérifier que SIOC est désactivé et que la configuration de la profondeur de la file d'attente est correcte.

Vérifiez que SIOC est en cours d'exécution sur ESXi et la configuration de la profondeur de la file d'attente

Étape 1. Établissez une connexion SSH avec un hôte HX ESXi et exécutez la commande permettant de répertorier les data stores.

[root@] vsish -e ls /vmkModules/nfsclient/mnt
encrypted_app/
Prod/                                        <----- Datastore name 
Dev/
App/

Étape 2. Utilisez le nom du magasin de données et exécutez la commande.

vsish -e get /vmkModules/nfsclient/mnt/
     
     
       /properties [root@] vsish -e get /vmkModules/nfsclient/mnt/Prod/properties mount point information { volume name:Prod server name:7938514614702552636-8713662604223381594 server IP:127.0.0.1 server volume:172.16.3.2:Prod UUID:63dee313-dfecdf62 client src port:641 busy:0 socketSendSize:1048576 socketReceiveSize:1048576 maxReadTransferSize:65536 maxWriteTransferSize:65536 reads:0 readsFailed:0 writes:285 writesFailed:0 readBytes:0 writeBytes:10705 readTime:0 writeTime:4778777 readSplitsIssued:0 writeSplitsIssued:285 readIssueTime:0 writeIssueTime:4766494 cancels:0 totalReqsQueued:0 metadataReqsQueued(non IO):0 reqsInFlight:0 readOnly:0 hidden:0 isPE:0 isMounted:1 isAccessible:1 unstableWrites:0 unstableNoCommit:0 maxQDepth:1024 <-------- Max Qdepth configuration iormState:0 <-------- I/O control disabled latencyThreshold:30 shares:52000 podID:0 iormInfo:0 NFS operational state: 0 -> Up enableDnlc:1 closeToOpenCache:0 highToAvgLatRatio:10 latMovingAvgSmoothingLevel:2 activeWorlds:55 inPreUnmount:0 }

Étape 3. Dans la sortie, recherchez la ligne

iormState:0 0= disabled 2= enabled

La valeur maxQDepth de la ligne doit être 1024

Étape 4. Les mêmes étapes doivent être répétées pour le reste des data stores

Désactiver SIOC

Afin de désactiver le SIOC, exécutez ces étapes.

Étape 1. Connectez-vous à vsphere en utilisant le client HTML.

Étape 2. Dans le menu déroulant, sélectionnez Stockage, puis le data store HX approprié dans le volet gauche.

Select datastore. Sélectionnez le data store.

Étape 3. Dans la section supérieure du volet droit du data store, sélectionnez l'onglet configure.

Configure tab. Onglet Configurer.

Étape 4. Dans la section centrale du volet de droite, sous More (Plus), sélectionnez General (Général), puis, sur le côté droit, faites défiler jusqu'à DataStore Capabilities (Fonctionnalités DataStore) et cliquez sur Edit (Modifier)

Edit datastore capabilities. Modifiez les fonctionnalités du data store.

Si la case d'option Disable Storage I/O Control and Statistics collection n'est pas cochée, cochez-la.

Disable storage I/O control. Désactivez le contrôle des E/S de stockage.

Si la case d'option Désactiver le contrôle d'E/S de stockage et la collecte de statistiques est cochée, basculez entre Activer le contrôle d'E/S de stockage et la collecte de statistiques et Désactiver le contrôle d'E/S de stockage et la collecte de statistiques.

Storage I/O control disabled. Contrôle des E/S de stockage désactivé.

Étape 5. Répétez les étapes 1 à 4 pour tous les autres data stores.

Modifier la profondeurQDmax

Afin de modifier la valeur maxQDepth, émettez la commande suivante pour chaque data store.

vsish -e set /vmkModules/nfsclient/mnt/
     
     
       /properties maxQDepth 1024

Rechercher Rx_no_Buff

Les serveurs Hyperflex avec un trafic réseau dense ou un trafic réseau avec des microrafales peuvent entraîner une perte de paquets sous la forme de rx_no_bufs.

Pour identifier ce problème, exécutez ces commandes sur l'hôte ESXi pour vérifier les compteurs rx_no_buf.

/usr/lib/vmware/vm-support/bin/nicinfo.sh | egrep "^NIC:|rx_no_buf"
NIC: vmnic0
rx_no_bufs: 1
NIC: vmnic1
rx_no_bufs: 2
NIC: vmnic2
rx_no_bufs: 2
NIC: vmnic3
rx_no_bufs: 71128211 <---------Very high rx_no_bufs counter
NIC: vmnic4
rx_no_bufs: 1730
NIC: vmnic5
rx_no_bufs: 897
NIC: vmnic6
rx_no_bufs: 24952
NIC: vmnic7
rx_no_bufs: 2

Patientez quelques minutes et exécutez à nouveau la commande et vérifiez si les compteurs rx_no_bufs n'augmentent pas.

Si ces compteurs sont faibles (< 1 000), la perte de paquets est faible en raison de la configuration de file d'attente par défaut et aucun réglage n'est probablement nécessaire.
Si ces compteurs sont élevés (> 10 000), cette configuration de file d'attente a un impact et le réglage peut s'avérer un peu utile.
Si ces compteurs sont très élevés (> 1 000 000), l'impact est plus important, il est fortement recommandé d'augmenter les files d'attente.
Si rx_no_bufs s'incrémente activement, cela signifie que le paquet a traversé tout le réseau et arrive à la couche virtualisée, puis le paquet est abandonné.

Si vous voyez le compteur sur ces valeurs, contactez le TAC Cisco pour régler la configuration de la vNIC afin d'améliorer les performances.

Examiner les meilleures pratiques et les vérifications supplémentaires au niveau ESXI.

Meilleures pratiques de performances pour VMware vSphere 7.0.

Identification des problèmes de performances Niveau de la machine virtuelle du contrôleur de stockage (SCVM)

État des clusters

Vérifiez que le cluster est sain.

hxshell:~$ sysmtool --ns cluster --cmd healthdetail
Cluster Health Detail:
---------------------:
State: ONLINE                       <---------- State of the cluster 
HealthState: HEALTHY                <---------- Health of the cluster 
Policy Compliance: COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 19 hours, 45 mins, 51 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is healthy.
# of nodes failure tolerable for cluster to be fully available: 1
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 3
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 2
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 3
# of caching devices failures tolerable for cluster to be fully available: 2
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 3
Current ensemble size: 3
Minimum data copies available for some user data: 3
Minimum cache copies remaining: 3
Minimum metadata copies available for cluster metadata: 3
Current healing status:
Time remaining before current healing operation finishes:
# of unavailable nodes: 0

hxshell:~$

Ce résultat montre un cluster défectueux en raison d'un noeud indisponible.

hxshell:~$ sysmtool --ns cluster --cmd healthdetail
Cluster Health Detail:
---------------------:
State: ONLINE                   <-------State of the cluster
HealthState: UNHEALTHY          <-------Health of the cluster 
Policy Compliance: NON-COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 19 hours, 55 mins, 9 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is unhealthy.Storage node 172.16.3.9 is unavailable.                  <----------- Health state reason
# of nodes failure tolerable for cluster to be fully available: 0
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 2
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 1
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 2
# of caching devices failures tolerable for cluster to be fully available: 1
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 2
Current ensemble size: 3
Minimum data copies available for some user data: 2
Minimum cache copies remaining: 2
Minimum metadata copies available for cluster metadata: 2
Current healing status: Rebuilding/Healing is needed, but not in progress yet. Warning: Insufficient node or space resources may prevent healing. Storage Node 172.16.3.9 is either down or initializing disks.
Time remaining before current healing operation finishes:
# of unavailable nodes: 1

hxshell:~$

Ce résultat montre un cluster défectueux en raison de la reconstruction.

Cluster Health Detail:
---------------------:
State: ONLINE
HealthState: UNHEALTHY
Policy Compliance: NON-COMPLIANT
Creation Time: Tue May 30 04:48:45 2023
Uptime: 7 weeks, 20 hours, 2 mins, 4 secs
Cluster Resiliency Detail:
-------------------------:
Health State Reason: Storage cluster is unhealthy.
# of nodes failure tolerable for cluster to be fully available: 1
# of node failures before cluster goes into readonly: NA
# of node failures before cluster goes to be crticial and partially available: 2
# of node failures before cluster goes to enospace warn trying to move the existing data: NA
# of persistent devices failures tolerable for cluster to be fully available: 1
# of persistent devices failures before cluster goes into readonly: NA
# of persistent devices failures before cluster goes to be critical and partially available: 2
# of caching devices failures tolerable for cluster to be fully available: 1
# of caching failures before cluster goes into readonly: NA
# of caching failures before cluster goes to be critical and partially available: 2
Current ensemble size: 3
Minimum data copies available for some user data: 3
Minimum cache copies remaining: 2
Minimum metadata copies available for cluster metadata: 2
Current healing status: Rebuilding is in progress, 58% completed.
Time remaining before current healing operation finishes: 18 hr(s), 10 min(s), and 53 sec(s)
# of unavailable nodes: 0

Ces commandes affichent un résumé global de l'état de santé du cluster et vous indiquent si quelque chose affecte le fonctionnement du cluster, par exemple, s'il existe un disque sur liste noire, un noeud hors connexion ou si le cluster est en cours de rétablissement.

Noeuds Participant Aux E/S

Les performances peuvent être affectées par un noeud ne participant pas aux opérations d'entrée et de sortie. Pour vérifier les noeuds qui participent aux E/S, émettez ces commandes.

Conseil : à partir de la version 5.0(2a), diag user est disponible pour permettre aux utilisateurs d'avoir plus de privilèges pour dépanner avec l'accès aux dossiers restreints et aux commandes qui ne sont pas accessibles via la ligne de commande priv qui a été introduite dans Hyperflex version 4.5.x.

Étape 1. Accédez à l'interpréteur de commandes diag sur une machine virtuelle de contrôleur de stockage.

hxshell:~$ su diag
Password:
 _   _ _                      _  _             _____ _                      ___
| \ | (_)_ __   ___          | || |           |  ___(_)_   _____           / _ \ _ __   ___
|  \| | | '_ \ / _ \  _____  | || |_   _____  | |_  | \ \ / / _ \  _____  | | | | '_ \ / _ \
| |\  | | | | |  __/ |_____| |__   _| |_____| |  _| | |\ V /  __/ |_____| | |_| | | | |  __/
|_| \_|_|_| |_|\___|            |_|           |_|   |_| \_/ \___|          \___/|_| |_|\___|


Enter the output of above expression: -1
Valid captcha

Étape 2 : exécution de cette commande pour vérifier les noeuds qui participent aux opérations d’E/S. Le nombre d’adresses IP doit être égal au nombre de noeuds convergents sur le cluster.

diag# nfstool -- -m | cut -f2 | sort | uniq
172.16.3.7
172.16.3.8
172.16.3.9

Vérification des services internes

Nettoyeur

L'un des principaux objectifs de Cleaner est d'identifier les blocs de stockage morts et vivants dans le système et d'enlever les blocs morts, libérant l'espace de stockage occupé par eux Il s'agit d'un travail de fond, et son agressivité est définie sur la base d'une politique.

Vous pouvez vérifier le service de nettoyage en exécutant la commande suivante.

bash-4.2# stcli cleaner info
{ 'name': '172.16.3.7', 'id': '1f82077d-6702-214d-8814-e776ffc0f53c', 'type': 'node' }: OFFLINE                <----------- Cleaner shows as offline 
{ 'name': '172.16.3.8', 'id': 'c4a24480-e935-6942-93ee-987dc8e9b5d9', 'type': 'node' }: OFFLINE
{ 'name': '172.16.3.9', 'id': '50a5dc5d-c419-9c48-8914-d91a98d43fe7', 'type': 'node' }: OFFLINE

Afin de démarrer le processus de nettoyage, émettez cette commande.

bash-4.2# stcli cleaner start                                                                                  
WARNING: This command should be executed ONLY by Cisco TAC support as it may have very severe consequences. Do you want to proceed ? (y/n): y
bash-4.2# stcli cleaner info
{ 'type': 'node', 'id': '1f82077d-6702-214d-8814-e776ffc0f53c', 'name': '172.16.3.7' }: ONLINE
{ 'type': 'node', 'id': 'c4a24480-e935-6942-93ee-987dc8e9b5d9', 'name': '172.16.3.8' }: ONLINE
{ 'type': 'node', 'id': '50a5dc5d-c419-9c48-8914-d91a98d43fe7', 'name': '172.16.3.9' }: ONLINE           <---------All nodes need to be online
bash-4.2#

Attention : cette commande doit être exécutée avec l'approbation du TAC Cisco.

Rééquilibrer

Le cluster de stockage est rééquilibré selon un calendrier régulier. Il est utilisé pour réaligner la distribution des données stockées sur les modifications apportées au stockage disponible et pour restaurer l'intégrité du cluster de stockage.

Le rééquilibrage s'exécute en clusters pour différentes raisons :

Une ressource physique (noeud/disque) est désactivée et HX transfère ces noeuds virtuels vers une autre ressource physique dans le cluster.
Les disques individuels de la grappe ne sont pas tous utilisés de manière comparable et certains points d'accès ont donc été créés en termes de disponibilité des données au sein de la grappe HX (colocalisation des données).
Le rééquilibrage peut également s'exécuter si la conformité de la zone n'est pas présente, même si le cluster est sain.
Lorsqu'un nouveau noeud est ajouté au cluster existant, le ou les noeuds ajoutés prennent de nouvelles écritures dès qu'ils rejoignent le cluster existant.

Vérifiez que le rééquilibrage du cluster est activé.

hxshell:~$ stcli rebalance status
rebalanceStatus:
    percentComplete: 0
    rebalanceState: cluster_rebalance_not_running
rebalanceEnabled: True     <---------Rebalance should be enabled 
hxshell:~$

Attention : toute opération liée au rééquilibrage doit être effectuée avec l'approbation du TAC Cisco.

Défaillance du disque

Pour un fonctionnement correct, le cluster ne doit pas avoir de disques sur liste noire ou de ressources hors connexion.

Vous devez vérifier s'il y a un disque sur liste noire sur le cluster dans l'interface HX Connect.

Blacklisted disk. Disque sur liste noire.

Vérifiez dans l'interface de ligne de commande toutes les ressources hors connexion sur chaque noeud de convergence.

sysmtool --ns cluster --cmd offlineresources 
UUID                                Type         State      InUse      Last modified            
----                                ----         -----      -----      -------------            
000cca0b019b4a80:0000000000000000   DISK         DELETED    YES          <------- Offline disk                       
5002538c405e0bd1:0000000000000000   DISK         BLOCKLISTED NO          <------- Blacklisted disk                         
5002538c405e299e:0000000000000000   DISK         DELETED    NO                                  
Total offline resources: 3, Nodes: 0, Disks: 3

Vérifiez s'il existe des ressources sur liste noire.

hxshell:~$ sysmtool --ns disk --cmd list | grep -i blacklist
Blacklist Count: 0
Blacklist Count: 0
Blacklist Count: 0
Blacklist Count: 0
State: BLACKLISTED
Blacklist Count: 5
Blacklist Count: 0
Blacklist Count: 0

Cette commande vous permet de vérifier si un disque est défaillant dans chaque noeud de convergence.

admin:~$ cat /var/log/springpath/diskslotmap-v2.txt
0.0.1:5002538e000d59a3:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302248:HXT76F3Q:SATA:SSD:3662830:Inactive:/dev/sdj    <---------Inactive disk
1.0.2:5002538c40be79ac:Samsung:SAMSUNG_MZ7LM240HMHQ-00003:S4EGNX0KC04551:GXT51F3Q:SATA:SSD:228936:Active:/dev/sdb
1.0.3:5002538e000d599e:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302243:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdc
1.0.4:5002538e000d59a0:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302245:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdd
1.0.5:5002538e000eb00b:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302480:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdi
1.0.6:5002538e000d599b:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302240:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdf
1.0.7:5002538e000d57f6:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M301819:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdh
1.0.8:5002538e000d59ab:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302256:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sde
1.0.9:5002538e000d59a1:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M302246:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdg
1.0.10:5002538e0008c68f:Samsung:SAMSUNG_MZ7LH3T8HMLT-00003:S4F3NY0M200500:HXT76F3Q:SATA:SSD:3662830:Active:/dev/sdj
0.1.192:000cca0b01c83180:HGST:UCSC-NVMEHW-H1600:SDM000026904:KNCCD111:NVMe:SSD:1526185:Active:/dev/nvme0n1
admin:~$

Exemple de noeud sans défaillance de disque.

hxshell:~$ sysmtool --ns cluster --cmd offlineresources
No offline resources found              <-------- No offline resources 

hxshell:~$ sysmtool --ns disk --cmd list | grep -i blacklist
hxshell:~$                              <-------- No blacklisted disks
hxshell:~$ cat /var/log/springpath/diskslotmap-v2.txt
1.14.1:55cd2e404c234bf9:Intel:INTEL_SSDSC2BX016T4K:BTHC618505B51P6PGN:G201CS01:SATA:SSD:1526185:Active:/dev/sdc
1.14.2:5000c5008547c543:SEAGATE:ST1200MM0088:Z4009D7Y0000R637KMU7:N0A4:SAS:10500:1144641:Active:/dev/sdd
1.14.3:5000c5008547be1b:SEAGATE:ST1200MM0088:Z4009G0B0000R635L4D3:N0A4:SAS:10500:1144641:Active:/dev/sde
1.14.4:5000c5008547ca6b:SEAGATE:ST1200MM0088:Z4009F9N0000R637JZRF:N0A4:SAS:10500:1144641:Active:/dev/sdf
1.14.5:5000c5008547b373:SEAGATE:ST1200MM0088:Z4009GPM0000R634ZJHB:N0A4:SAS:10500:1144641:Active:/dev/sdg
1.14.6:5000c500854310fb:SEAGATE:ST1200MM0088:Z4008XFJ0000R6374ZE8:N0A4:SAS:10500:1144641:Active:/dev/sdh
1.14.7:5000c50085424b53:SEAGATE:ST1200MM0088:Z4008D2S0000R635M4VF:N0A4:SAS:10500:1144641:Active:/dev/sdi
1.14.8:5000c5008547bcfb:SEAGATE:ST1200MM0088:Z4009G3W0000R637K1R8:N0A4:SAS:10500:1144641:Active:/dev/sdj
1.14.9:5000c50085479abf:SEAGATE:ST1200MM0088:Z4009J510000R637KL1V:N0A4:SAS:10500:1144641:Active:/dev/sdk
1.14.11:5000c5008547c2c7:SEAGATE:ST1200MM0088:Z4009FR00000R637JPEQ:N0A4:SAS:10500:1144641:Active:/dev/sdl
1.14.13:5000c5008547ba93:SEAGATE:ST1200MM0088:Z4009G8V0000R634ZKLX:N0A4:SAS:10500:1144641:Active:/dev/sdm
1.14.14:5000c5008547b69f:SEAGATE:ST1200MM0088:Z4009GG80000R637KM30:N0A4:SAS:10500:1144641:Active:/dev/sdn
1.14.15:5000c5008547b753:SEAGATE:ST1200MM0088:Z4009GH90000R635L5F6:N0A4:SAS:10500:1144641:Active:/dev/sdo
1.14.16:5000c5008547ab7b:SEAGATE:ST1200MM0088:Z4009H3P0000R634ZK8T:N0A4:SAS:10500:1144641:Active:/dev/sdp  <------All disks are active
hxshell:~$

Mémoire libre

Vérifiez la mémoire libre avec cette commande, la mémoire libre doit être supérieure à 2048 Mo (libre + cache).

hxshell:~$ free –m                       
              total        used        free      shared  buff/cache   available
Mem:       74225624    32194300    38893712        1672     3137612    41304336
Swap:             0           0           0
hxshell:~$

si la mémoire cache libre + est inférieure à 2048, est nécessaire pour identifier le processus qui génère la condition de mémoire insuffisante.

Remarque : vous pouvez utiliser la commande top pour identifier les processus qui consomment beaucoup de mémoire. Cependant, toute modification doit être effectuée avec l'approbation du TAC. Contactez le TAC Cisco pour résoudre les problèmes liés à l'OEM.

Condition De Fin D'Espace

La meilleure pratique d'utilisation de l'espace de cluster de stockage consiste à ne pas dépasser 76 % dans la vue de capacité HX Connect. Au-delà de 76 %, l'utilisation de la vue de capacité HX Connect entraîne une dégradation des performances.

Si le cluster de stockage est dans un état ENOSPC, le nettoyeur s'exécute automatiquement avec une priorité élevée, ce qui peut entraîner des problèmes de performances dans le cluster. La priorité est déterminée par l'utilisation de l'espace du cluster.

Si le cluster de stockage atteint une condition ENOSPC WARN, le nettoyeur augmente son intensité en augmentant le nombre d'E/S pour collecter les données inutiles avec une condition ENOSPC set, il s'exécute avec la priorité la plus élevée.

Vous pouvez vérifier l'état ENOSPCINFO sur le cluster avec cette commande.

hxshell:~$ sysmtool --ns cluster --cmd enospcinfo
Cluster Space Details:
---------------------:
Cluster state: ONLINE
Health state: HEALTHY
Raw capacity: 42.57T
Usable capacity: 13.06T
Used capacity: 163.08G
Free capacity: 12.90T
Enospc state: ENOSPACE_CLEAR    <--------End of space status
Space reclaimable: 0.00
Minimum free capacity
required to resume operation: 687.12G
Space required to clear
ENOSPC warning: 2.80T           <--------Free space until the end of space warning appears 
Rebalance In Progress: NO
Flusher in progress: NO
Cleaner in progress: YES
Disk Enospace: NO

hxshell:~$

Consultez le livre blanc sur la gestion des capacités dans Cisco HyperFlex pour identifier les meilleures pratiques de gestion de l'espace sur votre cluster Hyperflex.

Graphiques de performances de dépannage

Parfois, les graphiques de performances hyperflex n'affichent pas d'informations.

Hyperflex performance charts. Graphiques de performances Hyperflex.

Si vous êtes confronté à ce comportement, vous devez vérifier si les services d'état s'exécutent dans le cluster.

hxshell:~$ priv service carbon-cache status
carbon-cache stop/waiting

hxshell:~$ priv service carbon-aggregator status
carbon-aggregator stop/waiting

hxshell:~$ priv service statsd status
statsd stop/waiting

Si les processus ne sont pas en cours d'exécution, démarrez manuellement les services.

hxshell:~$ priv service carbon-cache start
carbon-cache start/running, process 15750

hxshell:~$ priv service carbon-aggregator start
carbon-aggregator start/running, process 15799

hxshell:~$ priv service statsd start
statsd start/running, process 15855

Informations connexes

Historique de révision

Révision	Date de publication	Commentaires
1.0	27-Jul-2023	Première publication

Contribution d’experts de Cisco

Alan Medrano
Ingénieur TAC Cisco
Ana Montenegro
Chef technique CX

Résolution des problèmes de performances dans les clusters Hyperflex

Langage exempt de préjugés

À propos de cette traduction

Table des matières

Introduction

Identifier

Types de cluster

Explication du tableau des performances

IOPS

Débit

Latence

Fréquence

Facteurs externes

Identifier les problèmes de performances au niveau de la machine virtuelle invitée

Fenêtres

ESXi

Vérification PVSCSI

Vérification de la carte réseau

Vérification RSS

Vérification de l'enfichage à chaud du processeur

Identification des problèmes de performances au niveau de l'hôte

Contrôle des E/S de stockage et contrôle de la profondeur de la file

Vérifiez que SIOC est en cours d'exécution sur ESXi et la configuration de la profondeur de la file d'attente

Désactiver SIOC

Modifier la profondeurQDmax

Rechercher Rx_no_Buff

Identification des problèmes de performances Niveau de la machine virtuelle du contrôleur de stockage (SCVM)

État des clusters

Noeuds Participant Aux E/S

Vérification des services internes

Nettoyeur

Rééquilibrer

Défaillance du disque

Mémoire libre

Condition De Fin D'Espace

Graphiques de performances de dépannage

Informations connexes

Historique de révision

Contribution d’experts de Cisco

Ce document vous est-il utile?

Contacter Cisco

Ce document s’applique à ces produits