quote:
Op woensdag 13 februari 2013 17:55 schreef Bram_van_Loon het volgende:[..]
Voor een CD hebben ze niet voor niets gekozen voor een X aantal bits voor het betrouwbaar reproduceren van geluid, dat is gebaseerd op het frequentiesbereik van het menselijk gehoor, op frequentiesverschillen die wij nog kunnen waarnemen en op het terug een analoog signaal (sinusoïdes) vormen na digitalisaties. Het immense analoge bereik van de frequenties wordt verdeeld over een beperkt aantal stappen. Op basis hiervan wordt bepaald hoeveel bits er nodig zijn om alle frequenties weer te kunnen geven.
Daar is een hoop op af te dingen hoor. Philips wilde oorspronkelijk een 14 bits lineaire kwantisatie omdat ze dat mooi genoeg vonden, maar Sony wist toen zijn 16 bits systeem door te drukken waarmee ze al wat ervaring hadden in de vorm van losse converters (de legendarische PCM-F1). Er bestonden destijds (eind jaren '70) helemaal geen bruikbare harddisks en ook geen andere opslagmedia met voldoende capaciteit om pakweg een uurtje digitale audio in hoge kwaliteit op te kunnen slaan. De enig werkbare optie was om het digitale audiosignaal om te zetten naar een analoog (!) videosignaal dat met een videorecorder kon worden opgenomen. Dat kon dan zowel een (semi-)professionele machine zijn (destijds bijvoorbeeld een U-Matic), alsook een consumentenrecorder met het Betamax of het VHS systeem, want ook die hadden voldoende bandbreedte. Iets later leidde het idee om een LPCM signaal om te zetten naar een (pseudo-)videosignaal tot de ontwikkeling van de DAT recorders, die evenals videorecorders met een roterende koppentrommel moesten werken om de noodzakelijke bandbreedte te realiseren, met alle mechanische ellende van dien.
Het feit dat er verschillende (analoge) televisiesystemen bestonden dicteerde toen min of meer de keuze voor de samplefrequentie, want het moest ook nog eens zo zijn dat je per analoge beeldlijn een geheel aantal samples moest kunnen opslaan. Welnu, de dominante analoge televisiesystemen eind jaren '70 werkten met 30 Hz frame rate (60 Hz field rate interlaced) en nominaal 525 lijnen (lijnfrequentie 30*525 Hz = 15750 Hz, VS en Japan) of met 25 Hz frame rate (50 Hz field rate interlaced) en nominaal 625 lijnen (lijnfrequentie 25*625 Hz = 15625 Hz, Europa), waarbij je moet bedenken dat daarvan effectief ca. 490 resp. ca. 590 lijnen overbleven omdat er tijd nodig is voor de verticale retrace van een elektronenstraal in een kathodestraalbuis. Als je nu uitgaat van 3 samples per beeldlijn per audiokanaal, dan levert een eenvoudig rekensommetje op dat je hebt:
Voor NTSC:
490 * 30 * 3 = 44100 Hz
Voor PAL:
588 * 25 * 3 = 44100 Hz
En daarmee was de zaak beklonken, het
moest dus wel
44,1 kHz zijn gezien de technische beperkingen van destijds en de eis om zowel PAL als NTSC videoapparatuur voor mastering te kunnen gebruiken. Achteraf (en trouwens ook toen al) is dat sterk te betreuren, want er bestond ook vóór de komst van de CD al wel digitale opname-apparatuur die in bijvoorbeeld platenstudio's werd ingezet en die met 48 kHz werkte. Het album
The Visitors van Abba bijvoorbeeld (uit 1981) is digitaal opgenomen met 48 kHz, hoewel er toen nog geen CD bestond. Later, met de komst van de DVD Video (en DVD Audio), is men zo verstandig geweest om te kiezen voor 48 kHz (en, optioneel, 96 kHz en 192 kHz), maar voor de CD was het te laat om er nog iets aan te veranderen. Een consequentie daarvan is bijvoorbeeld dat geluidskaarten in computers tot op de dag van vandaag zowel 48 als 44,1 kHz samplefrequentie moeten ondersteunen, wat de kaarten complexer en duurder maakt dan nodig en kwalitatief niet optimaal is omdat een verliesvrije conversie van 48 naar 44,1 kHz samplefrequentie of omgekeerd onmogelijk is.
Sony wilde het destijds trouwens nog bonter maken qua samplefrequentie. Omdat al in de jaren '50 de field rate voor NTSC iets omlaag was gebracht van 60 Hz naar 59,94 Hz (een noodzakelijke aanpassing bij NTSC om daar met kleur te kunnen werken) wilde Sony eigenlijk een sample frequentie van 44,056 kHz voor de CD, maar dat zagen ze bij Philips niet zitten omdat het niet helemaal compatibel was met PAL videoapparatuur. Na wat getouwtrek kreeg Philips zijn zin met 44,1 kHz in ruil voor het toegeven aan de 16 bits eis van Sony. Gevolg was wel dat je bij NTSC eigenlijk van
zwart-wit video apparatuur gebruik moest maken voor een correcte mastering met 44,1 kHz, maar daar werd ook wel eens tegen gezondigd zodat sommige opnamen of analoge transfers uit die beginperiode ietsje te snel lopen ...
Sommige bronnen beweren dat Sony Philips mogelijk een commerciële hak heeft willen zetten bij de onderhandelingen over de standaards omdat ze wisten dat Philips al heel veel geld had geïnvesteerd in een 14 bits DAC (de TDA1540 om precies te zijn), die werd ontwikkeld en geproduceerd in de toenmalige chipsfabriek in Nijmegen. Philips kon onmogelijk nog op tijd voor de introductie van de CD een 16 bits D/A converter ontwikkelen, en dus was de gedachte dat de eerste Philips modellen bij introductie meteen al een achterstand zouden hebben op de spelers van Sony, die immers wel met 16 bits converters werkten (overigens ingekocht bij Burr-Brown, dus niet door Sony zelf ontwikkeld).
Maar dit pakte toch even anders uit. De Japanners hadden buiten de creativiteit van de Philips technici gerekend, die een bijzondere truc bedachten:
oversampling. Door de 14 bits converter niet met 44,1 kHz te laten werken, maar met het viervoudige hiervan, dus 176,4 kHz, kon men de twee minst significante databits (bit 15 en bit 16) gebruiken om vier 14 bits samples gemaakt van één oorspronkelijk 16 bits sample ieder apart in de laatste (14de) bit aan te passen, zodat je na conversie naar analoog en middeling (i.e. filtering) daadwerkelijk een echte 16 bits resolutie hebt. En dat niet alleen, de low level lineariteit was ook nog eens stukken beter dan bij de toenmalige 16 bits converters van Burr-Brown. En zo klonken de eerste Philips spelers duidelijk beter dan de eerste Japanse producten. Dat had overigens ook te maken met de filtering: door de viervoudige samplefrequentie in de speler waren veel minder steile filters nodig die o.a. minder fasevervorming en ringing opleverden bij frequenties tot 20 kHz.
quote:
De frequentie is gekozen omdat het bekend is dat wanneer je een analoog signaal digitaliseert dat je dan minstens 2 keer de maximale frequenties (20 kHz) nodig hebt om van dat digitale signaal terug hetzelfde analoge signaal te maken. Als je wat informatie opzoekt op de Engelstalige Wikipedia dan zal je de naam van die theorie wel tegenkomen.
Jaja, na lezing van het bovenstaande zul je daar wel iets genuanceerder over denken. Trouwens, over het theorema van Shannon gesproken (want daar doel je op): dat is eigenlijk niet van toepassing bij digitale audio. Shannon gaat er namelijk van uit dat je de waarden van al je samples
exact kent, maar dit is niet zo: door de kwantisatie krijg je afrondingsfouten, en dan heb ik het nog even niet gehad over zaken als thermische drift en niet-lineariteiten in PCM converters. Door de digitalisering krijg je zo kwantisatieruis. In het begin werden de gevolgen daarvan niet goed begrepen, maar na enige tijd leerde men dat je de nadelige effecten hiervan kunt verminderen door het toevoegen van wat ruis, de zogeheten dither.
Eigenlijk zijn 16 bits niet voldoende voor hoogwaardige audio met lineaire pulscodemodulatie. Het gangbare argument (ook in reclame-uitingen) was destijds dat elke bit ca. 6 dB aan signaal-ruis verhouding opleverde, en dat je dus met een 16 bits systeem een signaal-ruis verhouding van zo'n 96 dB zou kunnen krijgen, en dat zou veruit superieur zijn aan wat er met analoge systemen mogelijk was en meer dan voldoende. Dat is ook wel zo, maar het gaat niet
alleen om die signaal-ruis verhouding. Bij een lineaire kwantisatie wordt de resolutie effectief
slechter naarmate het signaalniveau lager wordt, omdat de stapgrootte in dB uitgedrukt bij lagere signaalniveaux steeds groter wordt. En dat is niet in overeenstemming met de manier waarop ons gehoor werkt. Bij hoge signaalniveaux is er een grote overkill aan resolutie die we niet waar kunnen nemen, en bij lage signaalniveaux komt het systeem resolutie tekort. En dat gaat ten koste van de subtiliteit van de weergave en van de ruimtelijke informatie.
Eigenlijk zou je geen lineaire maar een logaritmische kwantisatie moeten hebben, maar dat was - en is - technisch niet goed te realiseren, en zeker niet in een consumentenproduct. Blijft dus over om te gaan werken met meer dan 16 bits als je tenminste bij lineaire pulscodemodulatie wil blijven (maar: SACD gebruikt een vorm van deltamodulatie). Ik heb er destijds bij de introductie van de audio CD al op gewezen dat 16 bits niet voldoende zijn en dat je minimaal 24 bits zou moeten hebben voor een niet te bekritiseren audiosysteem maar dat was toen een volstrekt onhaalbare kaart en werd geloof ik ook niet serieus genomen. Maar inmiddels zijn we 30 jaar verder, en is het volkomen geaccepteerd dat 24 bits wenselijk zijn. Het medium DVD Video kan bijvoorbeeld gebruik maken van LPCM audio met 16 óf 24 bits resolutie en met een samplefrequentie van 48 of 96 kHz. Jammer genoeg wordt daar weinig gebruik van gemaakt uitgezonderd op sommige muziek DVD's. Bij DVD Audio (nooit echt doorgebroken mede door de
format war met SACD) zijn (alleen voor stereo) zelfs 176,4 kHz en 192 kHz samplefrequentie mogelijk, ook met 24 bits resolutie.
Over het nut van hogere samplefrequenties is ook een hoop te zeggen, maar ik moet het kort houden omdat ik merk dat deze post al weer veel langer is geworden dan eigenlijk de bedoeling was. Er is uiteraard niets mis met het theorema van Shannon, maar net zo min als een exacte signaalreconstructie mogelijk is door de kwantisatie is een oneindig steil filter met een perfecte doorlaatkarakteristiek te realiseren, en dat betekent dat de praktijk toch stukken weerbarstiger is dan de theorie. Je zult om te beginnen een flinke marge moeten nemen met de samplefrequentie om de nadelige effecten van de (analoge dan wel digitale) filtering in de doorlaatband binnen de perken te houden, en verder is het twijfelachtig of een beperking van de doorlaatband tot 20 kHz überhaupt wel verstandig is. Het is inderdaad zo dat mensen (uitgezonderd wellicht heel jonge kinderen) geen sinustonen boven 20 kHz kunnen waarnemen, maar het is een denkfout om daaraan de conclusie te verbinden dat een doorlaatband tot 20 kHz dan ook voldoende is. Er zijn namelijk aanwijzingen dat het menselijk gehoor snellere stijgtijden kan waarnemen dan je op grond van die 20 kHz zou verwachten, en ook is het zo dat het niet-lineaire gedrag van ons gehoor maakt dat boventonen met een frequentie boven 20 kHz in combinatie met grondtonen met een (veel) lagere frequentie aanleiding geven tot intermodulatieproducten die erin resulteren dat die
an sich onhoorbare boventonen wel degelijk een bijdrage leveren aan onze geluidsperceptie, en dus feitelijk onmisbaar zijn in een high-end audiosysteem. En inderdaad hadden goede analoge audiosystemen vroeger een doorlaatband die verder doorliep dan die 20 kHz. Voor studiorecorders, snijtafels, high-end elementen en versterkers en sommige speakersystemen (elektrostaten) was een min of meer vlakke karakteristiek tot 30 of 40 kHz helemaal niet ongewoon.
Van de - naïeve - veronderstellingen die destijds (naast hetgeen commercieel en technisch haalbaar was) hebben geleid tot de CD audio standaard met een 16 bits lineaire kwantisatie en een samplefrequentie van 44,1 kHz is dus inmiddels weinig meer over, maar intussen zitten we wel nog steeds met die standaard opgescheept voor diverse vormen van digitale audio, en dus niet alleen bij weergave van een audio CD. En hoewel er al lang superieure standaards zijn is helaas te verwachten dat die niet meer echt door zullen breken. Er is inmiddels door allerlei oorzaken (loudness wars, dynamiekcompressie, personal audio, lossy codecs), een hele generatie op aan het groeien die nog nooit echt goede audioweergave heeft gehoord en daar deels waarschijnlijk ook niet eens meer toe in staat is omdat gehoorschade onder jongeren de laatste jaren dramatische vormen heeft aangenomen. Sic transit gloria sonitus.