...zoals ikzelf.

Ik heb wat waardevolle informatie om te delen met anderen die ook lokaal AI draaien of willen draaien maar moeite hebben met de begrippen.
Quantization
Wat is quantization?Quantization (in het Nederlands soms "kwantisatie") is het comprimeren van een AI-model door de getallen waaruit het bestaat met minder precisie op te slaan. Het is dé techniek die het mogelijk maakt om grote modellen op gewone consumentenhardware te draaien.
Waar het om gaat: het model is een berg getallen. Een taalmodel is letterlijk een verzameling van miljarden getallen — de weights of gewichten. Tijdens het trainen worden die getallen opgeslagen als 16-bits of 32-bits drijvendekommagetallen (FP16/FP32), wat betekent dat elk getal een hoge precisie heeft, met veel decimalen. Dat is mooi voor de nauwkeurigheid, maar het kost veel geheugen: bij FP16 neemt elk parameter 2 bytes in beslag. Een model van 13 miljard parameters is dus zo'n 26 GB groot — te groot voor de meeste GPU's.
Wat quantization doet. Het zet die nauwkeurige getallen om naar een grovere voorstelling met minder bits per parameter. In plaats van bijvoorbeeld het getal 0,4738291 op te slaan met 16 bits, slaat een 4-bits quantization het op als één van slechts 16 mogelijke waardes — zoiets als 0,47. Je verliest een beetje detail, maar het bestand wordt vier keer kleiner.
Een ruwe vuistregel:• FP16 (origineel): ~2 bytes per parameter
• Q8 (8-bits): ~1 byte per parameter
• Q4 (4-bits): ~0,5 byte per parameter
• Q2 (2-bits): ~0,25 byte per parameter
Een 13B-model dat in FP16 zo'n 26 GB inneemt, past in Q4 in ongeveer 7 GB — ineens past hij op een gewone gaming-GPU.
Waarom dit verrassend goed werkt. Je zou denken dat het afronden van miljarden getallen het model totaal kapot maakt, maar in de praktijk valt dat enorm mee. Neurale netwerken blijken redelijk robuust tegen kleine afrondingsfouten — er zit veel redundantie in. Bovendien zijn moderne quantization-methoden slim: ze ronden niet zomaar overal even hard af, maar gebruiken meer precisie voor belangrijke gewichten en minder voor onbelangrijke. Dat is wat de "K" in Q4_K_M betekent: K-quants, een verbeterd schema waarbij verschillende delen van het model verschillend worden behandeld.
De afweging. Hoe agressiever je quantizeert, hoe meer kwaliteit je verliest:
• Q8 is praktisch niet te onderscheiden van het origineel.
• Q5 en Q6 zijn nog uitstekend, met een minimaal verschil.
• Q4 is de gulden middenweg waar de meeste mensen op uitkomen — duidelijk kleiner, met slechts een klein kwaliteitsverlies.
• Q3 begint merkbaar zwakker te worden.
• Q2 is alleen zinvol als laatste redmiddel; het model wordt duidelijk dommer.
Het belangrijkste om te onthouden. Quantization comprimeert het model na het trainen — de oorspronkelijke maker traint in hoge precisie, en dan wordt het bestand achteraf "ingekrompen" zodat normale mensen het kunnen draaien. Zonder deze techniek zou lokale AI op een
laptop of een enkele GPU vrijwel onmogelijk zijn. Dit is in feite de doorbraak die de hele lokale-AI-beweging mogelijk heeft gemaakt.
Een handige analogie: stel je voor dat je een hogeresolutiefoto opslaat als JPEG met verschillende compressieniveaus. Bij lichte compressie zie je geen verschil, maar het bestand is veel kleiner. Bij zware compressie zie je artefacten en verlies je detail. Quantization is precies dat, maar dan voor de "foto" die het AI-model is.