Bien que l’homme soit bien équipé pour les communications analogiques, la transmission analogique n’est pas particulièrement efficace. Quand les signaux analogiques deviennent faibles suite à une perte de transmission, il est difficile de séparer la structure analogique complexe de la structure du bruit de transmission aléatoire. Si vous amplifiez des signaux analogiques, cela amplifie également le bruit, et les connexions analogiques deviennent alors trop bruyantes pour pouvoir être utilisées. Les signaux numériques, constitués uniquement de bits 0 et 1, sont plus facilement séparables du bruit. Ils peuvent être amplifiés sans corruption. Le codage numérique est moins sensible à la corruption par le bruit sur les connexions longue distance. En outre, les systèmes de communication mondiaux sont passés à un format de transmission numérique appelé modulation par impulsions et codage (PCM). Le PCM est un type de codage qu’on appelle codage de « forme d’onde », parce qu’il crée une forme codée de la forme d’onde originale de la voix. Ce document décrit de manière très détaillée le processus de conversion des signaux vocaux analogiques en signaux numériques.
Aucune spécification déterminée n'est requise pour ce document.
Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.
For more information on document conventions, refer to the Cisco Technical Tips Conventions.
PCM est une méthode de codage de forme d'onde définie dans la spécification ITU-T G.711.
La première étape pour convertir le signal analogique en signal numérique consiste à filtrer le composant de fréquence supérieure du signal. Cela facilite la conversion de ce signal en aval. La majeure partie de l'énergie de la langue parlée se situe entre 200 ou 300 hertz et environ 2700 ou 2800 hertz. Une bande passante d'environ 3 000 hertz est établie pour les communications vocales standard et vocales standard. Par conséquent, ils n'ont pas besoin de filtres précis (c'est très cher). Une bande passante de 4000 hertz est créée à partir d'un point d'équipement si vue. Ce filtre de limitation de bande est utilisé pour empêcher l'aliasing (antialiasing). Cela se produit lorsque le signal vocal analogique d'entrée est sous-échantillonné, défini par le critère Nyquist comme Fs < 2(BW). La fréquence d'échantillonnage est inférieure à la fréquence la plus élevée du signal analogique d'entrée. Cela crée un chevauchement entre le spectre de fréquences des échantillons et le signal analogique d'entrée. Le filtre de sortie à faible passe, utilisé pour reconstruire le signal d'entrée d'origine, n'est pas assez intelligent pour détecter ce chevauchement. Par conséquent, il crée un nouveau signal qui ne provient pas de la source. Cette création d'un signal faux lors de l'échantillonnage est appelée aliasing.
La deuxième étape pour convertir un signal vocal analogique en signal vocal numérique consiste à échantillonner le signal d'entrée filtré à une fréquence d'échantillonnage constante. Pour ce faire, on utilise un processus appelé modulation d'amplitude d'impulsion (PAM). Cette étape utilise le signal analogique d'origine pour moduler l'amplitude d'un train d'impulsions qui a une amplitude et une fréquence constantes. (Voir la figure 2.)
Le train d'impulsions se déplace à une fréquence constante, appelée fréquence d'échantillonnage. Le signal vocal analogique peut être échantillonné un million de fois par seconde ou deux à trois fois par seconde. Comment la fréquence d'échantillonnage est-elle déterminée ? Un scientifique du nom de Harry Nyquist a découvert que le signal analogique d'origine peut être reconstruit si suffisamment d'échantillons sont prélevés. Il a déterminé que si la fréquence d'échantillonnage est au moins deux fois la plus haute fréquence du signal vocal analogique d'entrée d'origine, ce signal peut être reconstruit par un filtre à faible passage à destination. Le critère de Nyquist est énoncé comme suit :
Fs > 2(BW) Fs = Sampling frequency BW = Bandwidth of original analog voice signal
Figure 1 : Échantillonnage analogique
Après avoir filtré et échantillonné (à l'aide de PAM) un signal vocal analogique d'entrée, l'étape suivante consiste à numériser ces échantillons en vue de leur transmission sur un réseau de téléphonie. Le processus de numérisation des signaux vocaux analogiques est appelé PCM. La seule différence entre PAM et PCM est que PCM va plus loin dans le processus. PCM décode chaque exemple analogique à l'aide de mots de code binaires. PCM est équipé d'un convertisseur analogique-numérique côté source et d'un convertisseur numérique-analogique côté destination. PCM utilise une technique appelée quantification pour coder ces échantillons.
Figure 2 : Modulation du code pulsé - Théorème Nyquist
La quantification est le processus de conversion de chaque valeur d'échantillon analogique en une valeur discrète pouvant être affectée à un mot de code numérique unique.
Lorsque les échantillons de signal d'entrée entrent dans la phase de quantification, ils sont affectés à un intervalle de quantification. Tous les intervalles de quantification sont également espacés (quantification uniforme) dans toute la plage dynamique du signal analogique d’entrée. Chaque intervalle de quantification se voit attribuer une valeur discrète sous la forme d'un mot de code binaire. La taille de mot standard utilisée est de huit bits. Si un signal analogique d'entrée est échantillonné 8 000 fois par seconde et que chaque échantillon reçoit un mot de code de huit bits de longueur, le débit de transmission maximal pour les systèmes de téléphonie utilisant PCM est de 64 000 bits par seconde. La Figure 2 illustre comment le débit binaire est calculé pour un système PCM.
Chaque échantillon d'entrée se voit attribuer un intervalle de quantification le plus proche de sa hauteur d'amplitude. Si aucun intervalle de quantification correspondant à sa hauteur réelle n'est attribué à un échantillon d'entrée, une erreur est introduite dans le processus PCM. Cette erreur s'appelle le bruit de quantification. Le bruit de quantification est équivalent au bruit aléatoire qui affecte le rapport signal/bruit (SNR) d'un signal vocal. SNR est une mesure de la puissance du signal par rapport au bruit de fond. Le rapport est habituellement mesuré en décibels (dB). Si la puissance du signal entrant en microvolts est Vs et que le niveau de bruit, également en microvolts, est Vn, le rapport signal/bruit, S/N, en décibels est donné par la formule S/N = 20 log10(Vs/Vn). Le SNR est mesuré en décibels (dB). Plus le SNR est élevé, meilleure est la qualité de la voix. Le bruit de quantification réduit le NUJ d’un signal. Par conséquent, une augmentation du bruit de quantification dégrade la qualité d’un signal vocal. La Figure 3 montre comment le bruit de quantification est généré. À des fins de codage, un mot de bit N donne des étiquettes de quantification 2N.
Figure 3 : Conversion analogique/numérique
Une façon de réduire le bruit de quantification est d'augmenter la quantité d'intervalles de quantification. La différence entre la hauteur d'amplitude du signal d'entrée et l'intervalle de quantification diminue à mesure que les intervalles de quantification sont augmentés (les augmentations des intervalles diminuent le bruit de quantification). Cependant, il faut également augmenter la quantité de mots de code en proportion de l'augmentation des intervalles de quantification. Ce processus introduit des problèmes supplémentaires qui concernent la capacité d'un système PCM à gérer davantage de mots de code.
SNR (y compris le bruit de quantification) est le facteur le plus important qui affecte la qualité vocale dans une quantification uniforme. La quantification uniforme utilise des niveaux de quantification égaux dans toute la plage dynamique d’un signal analogique d’entrée. Par conséquent, les signaux faibles ont un petit SNR (qualité vocale de faible niveau de signal) et les signaux élevés un grand SNR (qualité vocale de haut niveau de signal). Comme la plupart des signaux vocaux générés sont de faible qualité, une meilleure qualité de la voix à des niveaux de signal plus élevés est un moyen très inefficace de numériser les signaux vocaux. Pour améliorer la qualité vocale à des niveaux de signal inférieurs, une quantification uniforme (PCM uniforme) est remplacée par un processus de quantification non uniforme appelé companding.
La compression désigne le processus consistant à compresser d’abord un signal analogique à la source, puis à étendre ce signal à sa taille d’origine lorsqu’il atteint sa destination. Le terme companding est créé en combinant les deux termes, compresse et élargit, en un seul mot. Au moment du processus de compression, les échantillons de signaux analogiques d'entrée sont compressés en segments logarithmiques. Chaque segment est ensuite quantifié et codé en utilisant une quantification uniforme. Le processus de compression est logarithmique. La compression augmente à mesure que les signaux d'échantillonnage augmentent. En d'autres termes, les signaux d'échantillon plus importants sont compressés plus que les signaux d'échantillon plus petits. Cela entraîne une augmentation du bruit de quantification au fur et à mesure que le signal de l'échantillon augmente. Une augmentation logarithmique du bruit de quantification dans toute la plage dynamique d'un signal d'échantillon d'entrée maintient la constante SNR dans toute cette plage dynamique. Les normes de l'UIT-T pour la compression sont appelées loi A et loi U.
La loi A et la loi U sont des systèmes de compression audio (codecs) définis par le Comité consultatif pour la téléphonie et la télégraphie internationales (CCITT) G.711 qui compressent des données PCM linéaires de 16 bits jusqu'à huit bits de données logarithmiques.
Compteur de loi A
Limitant les valeurs d'échantillon linéaire à douze bits de magnitude, la compression A-law est définie par cette équation, où A est le paramètre de compression (A=87,7 en Europe), et x est l'entier normalisé à compresser.
Compandre de droit
Limitant les valeurs d'échantillon linéaire à treize bits de magnitude, la compression u-law (loi u et loi Mu sont utilisées de manière interchangeable dans ce document) est définie par cette équation, où m est le paramètre de compression (m =255 aux États-Unis et au Japon) et x est l'entier normalisé à compresser.
La norme A-law est principalement utilisée par l'Europe et le reste du monde. u-law est utilisé par l'Amérique du Nord et le Japon.
Les deux sont des approximations linéaires de la relation entrée/sortie logarithmique.
Les deux sont implémentés à l'aide de mots de code huit bits (256 niveaux, un pour chaque intervalle de quantification). Les mots de code huit bits permettent un débit binaire de 64 kilobits par seconde (Kbits/s). Ceci est calculé en multipliant le taux d'échantillonnage (deux fois la fréquence d'entrée) par la taille du mot de code (2 x 4 kHz x 8 bits = 64 kbits/s).
Les deux divisent une plage dynamique en un total de 16 segments :
Huit segments positifs et huit segments négatifs.
Chaque segment est deux fois plus long que le segment précédent.
La quantification uniforme est utilisée dans chaque segment.
Tous deux utilisent une approche similaire pour coder le mot à huit bits :
First (MSB) identifie la polarité.
Les bits deux, trois et quatre identifient le segment.
Les quatre derniers bits quantifient le segment en indiquant les niveaux de signal inférieurs à ceux de la loi A.
Différentes approximations linéaires conduisent à des longueurs et des pentes différentes.
L'affectation numérique des positions binaires dans le mot de code huit bits aux segments et les niveaux de quantification dans les segments sont différents.
La loi A offre une plage dynamique supérieure à la loi U.
u-law offre de meilleures performances de signal/distorsion pour les signaux de faible niveau que la loi A.
La loi A requiert 13 bits pour un équivalent PCM uniforme. u-law nécessite 14 bits pour un équivalent PCM uniforme.
Une connexion internationale doit utiliser une loi A, u à conversion A est la responsabilité du pays u-law.
Au moment du processus PCM, les différences entre les signaux d'échantillonnage d'entrée sont minimes. Le PCM différentiel (DPCM) est conçu pour calculer cette différence, puis transmettre ce petit signal de différence au lieu du signal d'échantillon d'entrée entier. Comme la différence entre les échantillons d'entrée est inférieure à un échantillon d'entrée entier, le nombre de bits requis pour la transmission est réduit. Cela permet de réduire le débit nécessaire à la transmission des signaux vocaux. L'utilisation de DPCM peut réduire le débit de transmission vocale à 48 kbits/s.
Comment DPCM calcule-t-il la différence entre le signal d'échantillon actuel et un échantillon précédent ? La première partie de DPCM fonctionne exactement comme PCM (c'est pourquoi on l'appelle PCM différentiel). Le signal d'entrée est échantillonné à une fréquence d'échantillonnage constante (deux fois la fréquence d'entrée). Ensuite, ces échantillons sont modulés à l'aide du processus PAM. À ce stade, le processus DPCM prend le relais. Le signal d'entrée échantillonné est stocké dans ce qu'on appelle un prédicteur. Le prédicteur prend le signal de l'échantillon stocké et l'envoie via un différenciateur. Le différenciateur compare le signal d'échantillon précédent au signal d'échantillon actuel et envoie cette différence à la phase de quantification et de codage de PCM (cette phase peut être uniforme de quantification ou de compandage avec la loi A ou la loi U). Après quantification et codage, le signal de différence est transmis à sa destination finale. À l’extrémité de réception du réseau, tout est inversé. D'abord, le signal de différence est déquantifié. Ensuite, ce signal de différence est ajouté à un exemple de signal stocké dans un prédicteur et envoyé à un filtre de passage bas qui reconstruit le signal d'entrée d'origine.
DPCM est un bon moyen de réduire le débit binaire pour la transmission vocale. Cependant, elle entraîne d'autres problèmes liés à la qualité de la voix. DPCM quantifie et code la différence entre un signal d'entrée d'échantillon précédent et un signal d'entrée d'échantillon actuel. DPCM quantifie le signal de différence en utilisant une quantification uniforme. La quantification uniforme génère un SNR qui est petit pour les petits signaux d'échantillon d'entrée et grand pour les grands signaux d'échantillon d'entrée. Par conséquent, la qualité vocale est meilleure pour les signaux plus élevés. Ce scénario est très inefficace, puisque la plupart des signaux générés par la voix humaine sont petits. La qualité vocale doit se concentrer sur les petits signaux. Pour résoudre ce problème, DPCM adaptatif est développé.
Adaptive DPCM (ADPCM) est une méthode de codage de forme d'onde définie dans la spécification ITU-T G.726.
ADPCM adapte les niveaux de quantification du signal de différence généré au moment du processus DPCM. Comment ADPCM adapte-t-il ces niveaux de quantification ? Si le signal de différence est faible, ADPCM augmente la taille des niveaux de quantification. Si le signal de différence est élevé, ADPCM diminue la taille des niveaux de quantification. ADPCM adapte donc le niveau de quantification à la taille du signal de différence d'entrée. Ceci génère un SNR qui est uniforme dans toute la plage dynamique du signal de différence. L'utilisation d'ADPCM réduit le débit binaire de transmission vocale à 32 kbits/s, soit la moitié du débit binaire du PCM de droit A ou de droit U. ADPCM produit une voix de « qualité pédestre », tout comme le PCM de loi A ou de loi U. Le codeur doit avoir une boucle de rétroaction, en utilisant les bits de sortie de l'encodeur pour recalibrer le quantificateur.
Applicable en tant que normes ITU G.726.
Transformer les échantillons de PCM de loi A ou de loi Mu en un échantillon de PCM linéaire.
Calculez la valeur prévue de l'échantillon suivant.
Mesurer la différence entre l'échantillon réel et la valeur prévue.
Différence de code en quatre bits, envoyez ces bits.
Renvoyez quatre bits au prédicteur.
Renvoyez quatre bits au quantificateur.