Hoewel mensen goed uitgerust zijn voor analoge communicatie, is analoge transmissie niet bijzonder efficiënt. Als analoge signalen door transmissieverlies zwak worden, is het moeilijk om de complexe analoge structuur te scheiden van de structuur van het willekeurige transmissieverkeer. Als u analoge signalen versterkt, wordt het ook ruis versterkt en uiteindelijk worden de analoge verbindingen te ruis om te gebruiken. Digitale signalen met slechts één bits en "nul bits" staten zijn gemakkelijker van ruis te scheiden. Zonder corruptie kunnen ze worden versterkt. Digitale codering is immuun voor ruis corruptie bij lange-afstandsverbindingen. Bovendien hebben de communicatiesystemen van de wereld geconverteerd naar een digitaal transmissieformulering (PCM). PCM is een type codering dat "golfvorm"-codering wordt genoemd omdat het een gecodeerde vorm van de oorspronkelijke spraakgolf creëert. Dit document beschrijft op hoog niveau het conversieproces van analoge spraaksignalen naar digitale signalen.
Er zijn geen specifieke vereisten van toepassing op dit document.
Dit document is niet beperkt tot specifieke software- en hardware-versies.
Raadpleeg Cisco Technical Tips Conventions (Conventies voor technische tips van Cisco) voor meer informatie over documentconventies.
PCM is een golfvormcodemethode die is gedefinieerd in de specificatie ITU-T G.711.
De eerste stap om het signaal van analoog naar digitaal te converteren is het uitfilteren van de hogere frequentiecomponent van het signaal. Dit maakt dingen stroomafwaarts makkelijker om dit signaal te converteren. De meeste energie van gesproken taal ligt tussen 200 of 300 hertz en ongeveer 2700 of 2800 hertz. Ruwweg 3000 hertz bandbreedte voor standaardspraak en standaardspraakcommunicatie wordt gevestigd. Daarom hoeven zij geen precieze filters te hebben (deze zijn erg duur). Een bandbreedte van 4000 hertz wordt gemaakt van een apparatuurpunt als weergave. Dit bandenbeperkende filter wordt gebruikt om aliasing (anti-aliasing) te voorkomen. Dit gebeurt wanneer het analoge invoersignaal wordt onderbemonsterd, gedefinieerd door het Nyquist-criterium als Fs < 2(BW). De bemonsteringsfrequentie is minder dan de hoogste frequentie van het analoge invoersignaal. Hierdoor ontstaat een overlapping tussen het frequentiespectrum van de monsters en het analoge invoersignaal. Het low-pass uitvoerfilter, dat wordt gebruikt om het oorspronkelijke invoersignaal te reconstrueren, is niet slim genoeg om deze overlap te detecteren. Daarom maakt het een nieuw signaal dat niet van de bron afkomstig is. Deze creatie van een vals signaal als bemonstering aliasing wordt genoemd.
De tweede stap om een analoog stemsignaal om te zetten naar een digitaal spraaksignaal is het monster van het Filterinvoersignaal te nemen met een constante bemonsteringsfrequentie. Het wordt bereikt door gebruik te maken van een proces dat pulsamplitude-modulatie (PAM) wordt genoemd. Deze stap gebruikt het oorspronkelijke analoge signaal om de amplitude van een pulstrein die een constante amplitude en frequentie heeft, te moduleren. (Zie afbeelding 2.)
De pulstrein beweegt met een constante frequentie, de bemonsteringsfrequentie genoemd. Het analoge spraaksignaal kan worden bemonsterd op een miljoen keer per seconde of op twee tot drie keer per seconde. Hoe wordt de bemonsteringsfrequentie bepaald? Een wetenschapper onder de naam Harry Nyquist ontdekte dat het oorspronkelijke analoge signaal kan worden gereconstrueerd als er genoeg monsters worden genomen. Hij stelde vast dat indien de bemonsteringsfrequentie ten minste tweemaal de hoogste frequentie van het originele analoge invoersignaal is, dit signaal op de bestemming kan worden gereconstrueerd met een laagdoorlaatfilter. Het Nyquist-criterium luidt als volgt:
Fs > 2(BW) Fs = Sampling frequency BW = Bandwidth of original analog voice signal
Afbeelding 1: Analoge steekproef
Nadat u een filter hebt gefilterd en een monster hebt genomen (met behulp van PAM) en een ingangsanaloog spraaksignaal, is de volgende stap het digitaliseren van deze beeldsamples ter voorbereiding van transmissie via een Telephony-netwerk. Het digitaliseringsproces van analoge spraaksignalen wordt PCM genoemd. Het enige verschil tussen PAM en PCM is dat PCM het proces nog een stap verder zet. PCM decodeert elk analoog monster met behulp van binaire codewoorden. PCM heeft een analoge-digitale converter aan de bronzijde en een digitale-naar-analoge converter aan de doelzijde. PCM gebruikt een meettechniek om deze monsters te coderen.
Afbeelding 2: Pulse Code Modules - Nyquist Theorem
Kwantitatie is het proces waarbij elke analoge steekproefwaarde wordt omgezet in een afzonderlijke waarde waaraan een uniek digitaal codewoord kan worden toegewezen.
Aangezien de monsters van het invoersignaal de kwantificeringsfase ingaan, worden zij toegewezen aan een kwantificeringsinterval. Alle kwantificeringsintervallen zijn gelijk verdeeld (uniforme kwantificering) over het dynamische bereik van het analoge invoersignaal. Elk kwantificeringsinterval wordt een afzonderlijke waarde toegewezen in de vorm van een binair codewoord. De standaard woordgrootte is acht bits. Als een analoog invoersignaal 8000 keer per seconde wordt bemonsterd en aan elke steekproef een codewoord wordt gegeven dat acht bits lang is, dan is de maximale transmissiebit rate voor telefoniesystemen die PCM gebruiken 64.000 bits per seconde. Afbeelding 2 illustreert hoe de bit rate wordt afgeleid voor een PCM-systeem.
Aan elk invoermonster wordt een kwantificeringsinterval toegekend dat het dichtst bij de amplitudehoogte staat. Als een invoermonster geen kwantificeringsinterval krijgt dat overeenkomt met zijn werkelijke hoogte, wordt een fout in het PCM-proces geïntroduceerd. Deze fout wordt "kwantificeringsruis" genoemd. Kwantitatie-ruis is gelijk aan het willekeurige lawaai dat invloed heeft op de signaal-ruisverhouding (SNR) van een spraaksignaal. SNR is een maat voor de signaalsterkte in verhouding tot het achtergrondgeluid. De verhouding wordt gewoonlijk gemeten in decibel (dB). Als de inkomende signaalsterkte in microvolt Vs is en het geluidsniveau, ook in microvolt, Vn is, dan wordt de signaal-ruisverhouding, S/N, in decibels gegeven door de formule S/N = 20 log10(Vs/Vn). SNR wordt gemeten in decibel (dB). Hoe hoger de SNR, hoe beter de spraakkwaliteit. Het kwantitatieve lawaai vermindert de SNR van een signaal. Een toename van het kwantificeringslawaai vermindert daarom de kwaliteit van een spraaksignaal. Afbeelding 3 toont hoe het kwantificeringslawaai wordt gegenereerd. Voor coderingsdoeleinden levert een N bit woord 2N kwantification labels op.
Afbeelding 3: Analoge op digitale conversie
Een manier om het kwantificeringslawaai terug te dringen is het verhogen van de kwantificeringsintervallen. Het verschil tussen de amplitude van het invoersignaal en het kwantificeringsinterval neemt af naarmate de kwantificeringsintervallen worden verhoogd (toename van de intervallen vermindert het kwantificeringslawaai). De hoeveelheid codewoorden moet echter ook worden verhoogd in verhouding tot de toename van de kwantificeringsintervallen. Dit proces brengt extra problemen met zich mee die te maken hebben met de capaciteit van een PCM-systeem om meer codewoorden te verwerken.
SNR (met inbegrip van kwantificeringsruis) is de belangrijkste factor die de spraakkwaliteit in uniforme kwantificering beïnvloedt. Uniforme kwantificering maakt gebruik van gelijke kwantificeringsniveaus voor het gehele dynamische bereik van een analoog invoersignaal. Daarom hebben lage signalen een kleine SNR (laag-signaal-niveau stemkwaliteit) en hoge signalen hebben een grote SNR (hoog-signaal-niveau stemkwaliteit). Aangezien de meeste gegenereerde spraaksignalen van lage kwaliteit zijn, is het hebben van betere spraakkwaliteit op hogere signaalniveaus een zeer inefficiënte manier om spraaksignalen te digitaliseren. Om de spraakkwaliteit op lagere signaalniveaus te verbeteren, wordt uniforme kwantificering (uniform PCM) vervangen door een niet-uniform kwantificeringsproces dat "compileren" wordt genoemd.
Compaceren verwijst naar het proces van eerst het comprimeren van een analoog signaal aan de bron, en dan het uitbreiden van dit signaal terug naar zijn oorspronkelijke formaat wanneer het zijn bestemming bereikt. Het begrip samenstellen wordt gecreëerd door de twee termen te combineren, te samentrekken en uit te breiden, in één woord. Op het moment van het samenstellen van het proces worden de invoer-analoge signaalmonsters gecomprimeerd in logaritmische segmenten. Elk segment wordt dan gekwantificeerd en gecodeerd aan de hand van een uniforme kwantificering. Het compressieproces is logaritmisch. De compressie neemt toe naarmate de voorbeeldsignalen toenemen. Met andere woorden, de grotere steekproefsignalen worden meer gecomprimeerd dan de kleinere steekproefsignalen. Dit zorgt ervoor dat het kwantificeringsgeluid toeneemt naarmate het monstersignaal toeneemt. Een logaritmische toename in kwantificeringsruis door het dynamische bereik van een invoervoorbeeldsignaal houdt de SNR constant door dit dynamische bereik. De ITU-T standaarden voor het samenstellen worden A-law en U-wet genoemd.
A-law en u-law zijn audio compressiesystemen (codecs) gedefinieerd door het Adviescomité voor Internationale Telephonie en Telegraphy (CCITT) G.711 die 16-bits lineaire PCM-gegevens tot acht bits logaritmische gegevens comprimeren.
A-handcomputer
Door de lineaire steekproefwaarden te beperken tot twaalf magnitude-bits wordt de A-law-compressie gedefinieerd door deze vergelijking, waarbij A de compressieparameter is (A=87.7 in Europa), en x het genormaliseerde integergetal dat gecomprimeerd moet worden.
UW-wet compander
Door de lineaire steekproefwaarden te beperken tot dertien magnitude bits wordt de U-law (u-law en Mu-wet worden onderling verwisselbaar in dit document) compressie gedefinieerd door deze vergelijking, waarbij m de compressiemethode is (m=255 in de V.S. en Japan) en x het genormaliseerde integergetal dat gecomprimeerd moet worden.
Een rechtsstaat wordt in de eerste plaats door Europa en de rest van de wereld gebruikt. Noord-Amerika en Japan maken gebruik van uw wet.
Beide zijn lineaire benaderingen van de logaritmische input/output relatie.
Beide worden geïmplementeerd met behulp van achtbits codewoorden (256 niveaus, één voor elk kwantificeringsinterval). Met acht-bits codewoorden kan een bit rate of 64 kilobits per seconde (kbps) worden gebruikt. Dit wordt berekend door de bemonsteringssnelheid (tweemaal de invoerfrequentie) te vermenigvuldigen met de grootte van het codewoord (2 x 4 kHz x 8 bits = 64 kbps).
Beide indelen een dynamisch bereik in een totaal van 16 segmenten:
Acht positieve en acht negatieve segmenten.
Elk segment is twee keer de lengte van het vorige segment.
Binnen elk segment wordt een uniforme kwantificering toegepast.
Beide gebruiken een soortgelijke benadering voor het coderen van het achtbits woord:
Eerst (MSB) identificeert polariteit.
Bits 2, 3 en 4 herkennen segment.
De laatste vier bits kwantificeren het segment zijn de lagere signaalniveaus dan A-law.
Verschillende lineaire benaderingen leiden tot verschillende lengtes en hellingen.
De numerieke toewijzing van de bit posities in het acht-bits codewoord aan segmenten en de kwantificeringsniveaus binnen segmenten zijn verschillend.
Een wet biedt een dynamischer bereik dan u.
U-wet biedt betere signaal-/vervormingsprestaties voor signalen van een laag niveau dan A-wet.
Een wet vereist 13 bits voor een uniform PCM-equivalent. De EU-wetgeving vereist 14 bits voor een uniform PCM-equivalent.
Een internationale connectie moet A-wet gebruiken, tot Een conversie is de verantwoordelijkheid van het u-rechtsland.
Ten tijde van het PCM-proces zijn de verschillen tussen de invoervoorbeeldsignalen minimaal. Differentiële PCM (DPCM) is ontworpen om dit verschil te berekenen en dan dit kleine verschilsignaal te verzenden in plaats van het gehele invoermonstersignaal. Aangezien het verschil tussen invoermonsters kleiner is dan een volledig invoermonster, wordt het aantal bits dat vereist is voor transmissie verminderd. Dit maakt een vermindering van de doorvoersnelheid mogelijk die nodig is om spraaksignalen te verzenden. Gebruik van DPCM kan de bit rate of voice-transmission beperken tot 48 kbps.
Hoe berekent DPCM het verschil tussen het huidige monstersignaal en een vorige steekproef? Het eerste deel van DPCM werkt precies als PCM (daarom wordt het differentiële PCM genoemd). Het invoersignaal wordt bemonsterd met een constante bemonsteringsfrequentie (tweemaal de invoerfrequentie). Vervolgens worden deze monsters gemoduleerd met behulp van het PAM-proces. Op dit moment wordt het DPCM-proces overgenomen. Het bemonsterde invoersignaal wordt opgeslagen in wat een voorspeller wordt genoemd. De voorspeller neemt het opgeslagen voorbeeldsignaal en stuurt het door een differentiator. De differentiator vergelijkt het vorige monstersignaal met het huidige monstersignaal en stuurt dit verschil naar de kwantificerings- en coderingsfase van PCM (deze fase kan uniform kwantificeren of samenstellen met A-wet of U-wet). Na kwantificering en codering wordt het verschilsignaal naar de eindbestemming verzonden. Aan het ontvangende eind van het netwerk, wordt alles omgekeerd. Eerst wordt het verschilsignaal gedevalueerd. Vervolgens wordt dit verschilsignaal toegevoegd aan een voorbeeldsignaal dat opgeslagen is in een voorspelling en wordt het verzonden naar een filter dat het oorspronkelijke invoersignaal reconstrueert.
DPCM is een goede manier om de bit rate for voice-transmission te verminderen. Maar het veroorzaakt ook andere problemen die te maken hebben met de kwaliteit van de stem. DPCM kwantificeert en codeert het verschil tussen een eerder invoersignaal van het monster en een bestaand invoersignaal. DPCM kwantificeert het verschilsignaal met behulp van uniforme kwantificering. Uniforme kwantificering genereert een SNR die klein is voor kleine signalen van invoermonsters en groot voor grote signalen van invoermonsters. Daarom is de spraakkwaliteit beter bij hogere signalen. Dit scenario is zeer inefficiënt, aangezien de meeste signalen die door de menselijke stem worden gegenereerd klein zijn. Spraakkwaliteit moet zich concentreren op kleine signalen. Om dit probleem op te lossen wordt een adaptief DPCM ontwikkeld.
Adaptieve DPCM (ADPCM) is een golfvormcoderingsmethode die is gedefinieerd in de specificatie ITU-T G.726.
ADPCM past de kwantificeringsniveaus van het verschilsignaal aan dat ten tijde van het DPCM-proces wordt gegenereerd. Hoe past ADPCM deze kwantitatieve niveaus aan? Als het verschilsignaal laag is, verhoogt ADPCM de grootte van de kwantificeringsniveaus. Als het verschilsignaal hoog is, vermindert ADPCM de grootte van de kwantificeringsniveaus. ADPCM past het kwantificeringsniveau dus aan op de grootte van het invoerverschilsignaal. Dit genereert een SNR die uniform is binnen het dynamische bereik van het verschilsignaal. Het gebruik van ADPCM vermindert de bit rate of voice-transmission tot 32 kbps, de helft van de bit rate of A-law of u-law PCM. ADPCM produceert "tolkwaliteit"-spraak net als A-wet of UW-wet PCM. De coder moet feedback loop hebben, waarbij de encoder-uitvoerbits worden gebruikt om de kwantificator opnieuw te calibreren.
Toepasselijk als ITU Standards G.726.
Draai een A-wet- of Mu-wet PCM-monster in een lineair PCM-monster.
Bereken de voorspelde waarde van het volgende monster.
Meet het verschil tussen de werkelijke steekproef en de voorspelde waarde.
Codeverschil als vier bits, stuur die bits.
Geef vier bits om te voorspellen.
Geef vier bits terug naar kwanzer.