Sebbene gli esseri umani siano ben attrezzati per le comunicazioni analogiche, la trasmissione analogica non è particolarmente efficiente. Quando i segnali analogici diventano deboli a causa della perdita di trasmissione, è difficile separare la complessa struttura analogica dalla struttura dei disturbi di trasmissione casuali. Se amplificate i segnali analogici, amplifica anche il rumore, e alla fine le connessioni analogiche diventano troppo rumorose da usare. I segnali digitali, che hanno solo stati di "un bit" e "zero bit", sono più facilmente separati dal rumore. Possono essere amplificati senza corruzione. La codifica digitale è più immune al danneggiamento del rumore nelle connessioni a lunga distanza. Inoltre, i sistemi di comunicazione di tutto il mondo sono stati convertiti in un formato di trasmissione digitale chiamato pulse code modulation (PCM). PCM è un tipo di codifica chiamato codifica "forma d'onda" in quanto crea una forma codificata della forma d'onda vocale originale. Questo documento descrive ad alto livello il processo di conversione dei segnali vocali analogici in segnali digitali.
Nessun requisito specifico previsto per questo documento.
Il documento può essere consultato per tutte le versioni software o hardware.
Per ulteriori informazioni sulle convenzioni usate, consultare il documento Cisco sulle convenzioni nei suggerimenti tecnici.
PCM è un metodo di codifica della forma d'onda definito nella specifica ITU-T G.711.
Il primo passo per convertire il segnale da analogico a digitale è filtrare il componente di frequenza più alta del segnale. La conversione del segnale risulta quindi più semplice. La maggior parte dell'energia della lingua parlata va da 200 o 300 hertz a circa 2700 o 2800 hertz. Larghezza di banda di circa 3000 hertz per comunicazioni vocali standard e standard. Pertanto, non devono avere filtri precisi (è molto costoso). Una larghezza di banda di 4000 hertz viene realizzata dal punto di vista delle apparecchiature. Questo filtro di limitazione della banda viene usato per prevenire l'aliasing (antialiasing). Ciò si verifica quando il segnale vocale analogico di input viene sottoposto a sottocampionamento, definito dal criterio Nyquist come Fs < 2(BW). La frequenza di campionamento è inferiore alla frequenza più alta del segnale di ingresso analogico. Questo crea una sovrapposizione tra lo spettro di frequenza dei campioni e il segnale analogico di ingresso. Il filtro di uscita low-pass, usato per ricostruire il segnale di ingresso originale, non è abbastanza intelligente da rilevare questa sovrapposizione. Pertanto, crea un nuovo segnale che non proviene dalla sorgente. Questa creazione di un falso segnale quando il campionamento è chiamato aliasing.
Il secondo passaggio per convertire un segnale vocale analogico in un segnale vocale digitale consiste nel campionare il segnale di ingresso filtrato a una frequenza di campionamento costante. Viene realizzata utilizzando un processo denominato modulazione di ampiezza dell'impulso (PAM). Questo passo utilizza il segnale analogico originale per modulare l'ampiezza di un pulse train che ha un'ampiezza e una frequenza costanti. (vedere Figura 2).
Il pulse train si muove a una frequenza costante, chiamata frequenza di campionamento. Il segnale vocale analogico può essere campionato a un milione di volte al secondo o a due o tre volte al secondo. Come viene determinata la frequenza di campionamento? Uno scienziato di nome Harry Nyquist scoprì che il segnale analogico originale può essere ricostruito se si prelevano abbastanza campioni. Ha determinato che se la frequenza di campionamento è almeno il doppio della frequenza più alta del segnale vocale analogico di ingresso originale, questo segnale può essere ricostruito da un filtro passa-basso a destinazione. Il criterio Nyquist è descritto così:
Fs > 2(BW) Fs = Sampling frequency BW = Bandwidth of original analog voice signal
Figura 1: Campionamento analogico
Dopo aver filtrato e campionato (utilizzando PAM) un segnale vocale analogico di input, il passaggio successivo è digitalizzare questi campioni in preparazione alla trasmissione su una rete Telefonica. Il processo di digitalizzazione dei segnali vocali analogici è denominato PCM. L'unica differenza tra PAM e PCM è che PCM fa un ulteriore passo avanti nel processo. PCM decodifica ogni campione analogico utilizzando parole di codice binario. Il PCM ha un convertitore analogico-digitale sul lato sorgente e un convertitore digitale-analogico sul lato destinazione. PCM utilizza una tecnica chiamata quantizzazione per codificare questi campioni.
Figura 2: Modulazione Pulse Code - Teorema Nyquist
La quantizzazione è il processo di conversione di ogni valore di campione analogico in un valore discreto a cui è possibile assegnare una parola in codice digitale univoca.
Quando i campioni del segnale di input entrano nella fase di quantizzazione, vengono assegnati a un intervallo di quantizzazione. Tutti gli intervalli di quantizzazione sono equidistanti (quantizzazione uniforme) in tutta la gamma dinamica del segnale analogico di ingresso. A ogni intervallo di quantizzazione viene assegnato un valore discreto sotto forma di parola di codice binario. La dimensione standard della parola è di otto bit. Se un segnale di ingresso analogico viene campionato 8000 volte al secondo e a ogni campione viene assegnata una parola in codice lunga otto bit, la velocità di trasmissione massima per i sistemi di telefonia che utilizzano PCM è 64.000 bit al secondo. Nella Figura 2 viene illustrato come la velocità in bit viene derivata per un sistema PCM.
A ogni campione di input viene assegnato un intervallo di quantizzazione il più vicino alla sua altezza di ampiezza. Se a un campione di input non viene assegnato un intervallo di quantizzazione corrispondente all'altezza effettiva, nel processo PCM viene introdotto un errore. Questo errore si chiama rumore di quantizzazione. La quantizzazione del rumore equivale al rumore casuale che influisce sul rapporto segnale/rumore (SNR, Signal-to-Noise Ratio) di un segnale vocale. L'SNR è una misura della forza del segnale relativa al rumore di fondo. Il rapporto è generalmente misurato in decibel (dB). Se l'intensità del segnale in ingresso in microvolt è Vs e il livello di rumore, anche in microvolt, è Vn, allora il rapporto S/N, in decibel, è dato dalla formula S/N = 20 log10(Vs/Vn). L'SNR è misurato in decibel (dB). Più alto è il valore SNR, migliore sarà la qualità della voce. La quantizzazione riduce il rumore SNR di un segnale. Pertanto, un aumento del rumore di quantizzazione degrada la qualità di un segnale vocale. La Figura 3 mostra come viene generato il rumore di quantizzazione. Ai fini della codifica, una parola in bit N produce etichette di quantizzazione 2N.
Figura 3: Conversione da analogico a digitale
Un modo per ridurre il disturbo di quantizzazione è aumentare la quantità di intervalli di quantizzazione. La differenza tra l'altezza dell'ampiezza del segnale di input e l'intervallo di quantizzazione diminuisce man mano che gli intervalli di quantizzazione aumentano (gli incrementi degli intervalli riducono il rumore di quantizzazione). Tuttavia, anche la quantità di parole in codice deve essere aumentata in proporzione all'aumento degli intervalli di quantizzazione. Questo processo introduce ulteriori problemi relativi alla capacità di un sistema PCM di gestire più parole di codice.
L'SNR (incluso il rumore di quantizzazione) è il singolo fattore più importante che influisce sulla qualità della voce in una quantizzazione uniforme. La quantizzazione uniforme utilizza livelli di quantizzazione uguali in tutto l'intervallo dinamico di un segnale di ingresso analogico. Pertanto, i segnali bassi hanno un SNR piccolo (bassa qualità vocale del segnale) e i segnali alti hanno un SNR grande (alta qualità vocale del segnale). Poiché la maggior parte dei segnali vocali generati sono di tipo basso, avere una migliore qualità della voce a livelli di segnale più alti è un modo molto inefficiente di digitalizzare i segnali vocali. Per migliorare la qualità della voce a livelli di segnale inferiori, la quantizzazione uniforme (PCM uniforme) viene sostituita da un processo di quantizzazione non uniforme chiamato companding.
La compattazione si riferisce al processo di compressione di un segnale analogico all'origine, per poi espandere questo segnale alle sue dimensioni originali quando raggiunge la destinazione. Il termine companding viene creato combinando i due termini, compressione ed espansione, in un'unica parola. Al momento del processo di compressione, i campioni di segnali analogici in ingresso vengono compressi in segmenti logaritmici. Ogni segmento viene quindi quantizzato e codificato utilizzando una quantizzazione uniforme. Il processo di compressione è logaritmico. La compressione aumenta con l'aumentare dei segnali campione. In altre parole, i segnali campione più grandi vengono compressi più dei segnali campione più piccoli. In questo modo il rumore di quantizzazione aumenta all'aumentare del segnale campione. Un aumento logaritmico del disturbo di quantizzazione in tutta la gamma dinamica di un segnale campione di input mantiene la costante SNR in tutta questa gamma dinamica. Gli standard ITU-T per la compilazione sono chiamati A-law and u-law.
A-law e u-law sono schemi di compressione audio (codec) definiti dal Comitato Consultivo per la Telefonia Internazionale (CCITT) G.711 che comprimono dati PCM lineari a 16 bit fino a otto bit di dati logaritmici.
A-law Compander
Limitando i valori del campione lineare a dodici bit di grandezza, la compressione A-law è definita da questa equazione, dove A è il parametro di compressione (A=87,7 in Europa) e x è l'intero normalizzato da comprimere.
u-law Compander
Limitando i valori di campionamento lineari a tredici bit di grandezza, la compressione u-law (u-law e Mu-law sono utilizzati in modo intercambiabile in questo documento) è definita da questa equazione, dove m è il parametro di compressione (m =255 negli Stati Uniti e in Giappone) e x è l'intero normalizzato da comprimere.
Lo standard A-law viene utilizzato principalmente dall'Europa e dal resto del mondo. L'u-law viene utilizzato in Nord America e Giappone.
Entrambe sono approssimazioni lineari della relazione logaritmica in entrata/uscita.
Entrambe sono implementate utilizzando parole in codice a otto bit (256 livelli, uno per ogni intervallo di quantizzazione). Le parole di codice a otto bit consentono una velocità di trasmissione di 64 kilobit al secondo (kbps). Questo valore viene calcolato moltiplicando la frequenza di campionamento (due volte la frequenza di ingresso) per le dimensioni della parola in codice (2 x 4 kHz x 8 bit = 64 kbps).
Entrambi dividono un intervallo dinamico in un totale di 16 segmenti:
Otto segmenti positivi e otto negativi.
Ogni segmento ha una lunghezza doppia rispetto al segmento precedente.
All'interno di ciascun segmento viene utilizzata la quantizzazione uniforme.
Entrambi utilizzano un approccio simile alla codifica della parola a otto bit:
First (MSB) identifica la polarità.
I bit due, tre e quattro identificano il segmento.
Gli ultimi quattro bit che quantizzano il segmento sono i livelli di segnale più bassi di A-law.
Diverse approssimazioni lineari portano a lunghezze e pendenze diverse.
L'assegnazione numerica delle posizioni dei bit nel codice a otto bit della parola chiave ai segmenti e i livelli di quantizzazione all'interno dei segmenti sono diversi.
La A-law offre un range dinamico maggiore rispetto alla u-law.
u-law fornisce migliori prestazioni di segnale/distorsione per segnali di basso livello rispetto a A-law.
A-law richiede 13 bit per un equivalente PCM uniforme. u-law richiede 14 bit per un equivalente PCM uniforme.
Una connessione internazionale deve usare la A-law, fino alla A conversione è responsabilità del paese di u-law.
Al momento del processo PCM, le differenze tra i segnali di ingresso campione sono minime. Il Differential PCM (DPCM) è progettato per calcolare questa differenza e trasmettere quindi questo piccolo segnale di differenza invece dell'intero segnale campione di ingresso. Poiché la differenza tra i campioni di input è inferiore a un intero campione di input, il numero di bit necessari per la trasmissione viene ridotto. Ciò consente una riduzione della velocità di trasmissione dei segnali vocali. Utilizzando DPCM è possibile ridurre la velocità di trasmissione della voce a 48 kbps.
In che modo DPCM calcola la differenza tra il segnale campione corrente e un campione precedente? La prima parte di DPCM funziona esattamente come PCM (per questo motivo viene chiamato PCM differenziale). Il segnale di ingresso viene campionato a una frequenza di campionamento costante (due volte la frequenza di ingresso). Questi campioni vengono quindi modulati utilizzando il processo PAM. A questo punto, subentra il processo DPCM. Il segnale di ingresso campionato viene memorizzato in quello che viene chiamato predittore. Il predittore prende il segnale campione memorizzato e lo invia tramite un differenziatore. Il differenziatore confronta il segnale campione precedente con il segnale campione corrente e invia questa differenza alla fase di quantizzazione e codifica di PCM (questa fase può essere uniformata nella quantizzazione o in combinazione con A-law o u-law). Dopo la quantizzazione e la codifica, il segnale della differenza viene trasmesso alla destinazione finale. All'estremità di ricezione della rete, tutto viene invertito. Per prima cosa, il segnale di differenza viene dequantizzato. Questo segnale di differenza viene quindi aggiunto a un segnale campione memorizzato in un predittore e inviato a un filtro passa-basso che ricostruisce il segnale di ingresso originale.
DPCM è un buon modo per ridurre la velocità di trasmissione della voce. Tuttavia, causa altri problemi relativi alla qualità della voce. DPCM quantifica e codifica la differenza tra un segnale di ingresso campione precedente e un segnale di ingresso campione corrente. DPCM quantifica il segnale di differenza utilizzando una quantizzazione uniforme. La quantizzazione uniforme genera un SNR che è piccolo per i piccoli segnali di input campione e grande per i grandi segnali di input campione. Pertanto, la qualità della voce risulta migliore in presenza di segnali più elevati. Questo scenario è molto inefficiente, poiché la maggior parte dei segnali generati dalla voce umana sono piccoli. La qualità della voce deve concentrarsi su piccoli segnali. Per risolvere questo problema, viene sviluppato il DPCM adattivo.
Adaptive DPCM (ADPCM) è un metodo di codifica della forma d'onda definito nella specifica ITU-T G.726.
ADPCM adatta i livelli di quantizzazione del segnale di differenza generato al momento del processo DPCM. In che modo ADPCM adatta questi livelli di quantizzazione? Se il segnale di differenza è basso, ADPCM aumenta le dimensioni dei livelli di quantizzazione. Se il segnale di differenza è elevato, ADPCM riduce le dimensioni dei livelli di quantizzazione. L'ADPCM adatta il livello di quantizzazione alle dimensioni del segnale di differenza in ingresso. Questo genera un SNR uniforme in tutto il range dinamico del segnale di differenza. L'utilizzo di ADPCM riduce la velocità di trasmissione della voce a 32 kbps, metà della velocità di trasmissione di A-law o u-law PCM. ADPCM produce una voce di "qualità pedaggio" proprio come A-law o u-law PCM. Il codificatore deve avere un loop di feedback, utilizzando i bit di output del codificatore per ricalibrare il quantizzatore.
Applicabile come standard ITU G.726.
Trasformare i campioni di A-law o Mu-law PCM in un campione lineare di PCM.
Calcolare il valore previsto del campione successivo.
Misurare la differenza tra il campione effettivo e il valore previsto.
Differenza di codice in quattro bit, invia quei bit.
Feedback di quattro bit al predittore.
Feedback di quattro bit al quantizzatore.