abonnement Unibet Coolblue Bitvavo
pi_220209804
Ik heb sinds deze week een nieuwe laptop (HP Victus 15-fb3872nd, 24gb/8gb, 512gb -> wordt straks 1tb) en ben zelf aan het spelen met LLM's door gebruik te maken van of Ollama of Jan, beide programma's waarmee je taalmodellen kunt gebruiken zoals je chatgpt/copilot gebruikt.

Best leuk om te zien wat een LLM lokaal allemaal kan, erg divers. Van een gewone chatbot tot een applicatie die doet wat jij vraagt. (zelfs via de commandline te gebruiken).

Zelf ben ik de laatste tijd met m'n esp's aan het spelen, en dus aan het programmeren in c. Daar heb ik nog een hoop te leren dus gebruik vaak een LLM om mij verder te helpen binnen bepaalde projecten en loop dan vaak tegen beperkingen aan die ik een stuk minder heb als ik ze lokaal draai.

Dus de vragen; draaien jullie ze ook lokaal en welke modellen draai je?

Ik draai zelf no gpt-oss:20b, is niet de snelste maar wel qua scripten het beste. Heb een aantal andere geprobeerd maar die waren stukken minder.

-edit-
Toevoeging: heb zelf ook al even wat LMM's geprobeerd als ComfyUI maar dat was nog niet zo succesvol..
The people who lost my respect will never get a capital letter for their name again.
Like trump...
pi_220209820
ComfyUI met Wan 2.2
Draait vlot op een RTX4090



[ Bericht 75% gewijzigd door TheFreshPrince op 26-02-2026 23:06:57 ]
pi_220210210
ComfyUI met RTX5090, en Ollama met Visual Studio/Continue, het laatste loop ik nog beetje mee te stoeien, vooral de settings voor agent mode krijg ik niet helemaal correct met betrekking tot automatisch maken van files en context van hele solution.

Dit is trouwens ook verdomd interessant: https://github.com/p-e-w/heretic/
🕰️₿🕰️₿🕰️₿🕰️₿🕰️₿🕰️ TikTok next Block
pi_220210476
quote:
0s.gif Op donderdag 26 februari 2026 22:42 schreef TheFreshPrince het volgende:
ComfyUI met Wan 2.2
Draait vlot op een RTX4090

[ afbeelding ]
Vet ja, ik krijg het maar niet lopend op mijn nieuwe lappie, continue 'problemen'.

Maar LLM's wel en dat is al super leuk! Al verbaasd het mij dat het vaak maar 80% van het geheugen gebruikt en amper GPU/CPU... gpu vaak maar een 20% bij 'denken' en CPU max 45%

quote:
0s.gif Op vrijdag 27 februari 2026 05:12 schreef raptorix het volgende:
ComfyUI met RTX5090, en Ollama met Visual Studio/Continue, het laatste loop ik nog beetje mee te stoeien, vooral de settings voor agent mode krijg ik niet helemaal correct met betrekking tot automatisch maken van files en context van hele solution.

Dit is trouwens ook verdomd interessant: https://github.com/p-e-w/heretic/
Heb je last van beperkingen bij modellen dan? ik ben tot nog geen beperkingen aangelopen......

[ Bericht 35% gewijzigd door Chandler op 27-02-2026 08:06:49 ]
The people who lost my respect will never get a capital letter for their name again.
Like trump...
  vrijdag 27 februari 2026 @ 08:11:09 #5
459912 FlippingCoin
Weer zo'n kut millennial.
pi_220210524

Voor wat side projects, niet allemaal LLM's maar ook embedding models.

Vanuit mijn werk heb ik gewoon toegang tot Claude Opus/Sonnet 4.6 dus ik draai geen modellen om software mee te ontwikkelen.
I think that it’s extraordinarily important that we in computer science keep fun in computing
For all who deny the struggle, the triumphant overcome
Met zwijgen kruist men de duivel
pi_220210536
quote:
0s.gif Op vrijdag 27 februari 2026 07:56 schreef Chandler het volgende:

[..]
Vet ja, ik krijg het maar niet lopend op mijn nieuwe lappie, continue 'problemen'.

Maar LLM's wel en dat is al super leuk! Al verbaasd het mij dat het vaak maar 80% van het geheugen gebruikt en amper GPU/CPU... gpu vaak maar een 20% bij 'denken' en CPU max 45%
[..]
Heb je last van beperkingen bij modellen dan? ik ben tot nog geen beperkingen aangelopen......
Niet vaak, maar af en toe wel, bijvoorbeeld toen ik de hackerstext van Odido door ChatGTP wilde laten analyseren wilde hij geen uitspraak doen over ethniciteit of land. Ook op security gebied wordt ik wel eens tegengehouden met vragen die over ethisch hacken gaan.
🕰️₿🕰️₿🕰️₿🕰️₿🕰️₿🕰️ TikTok next Block
pi_220210559
Gpt oss 120b. Voor diverse taken maar alweer even niet aangeraakt omdat ik Claude subscription heb.

Maar ga wel weer meer gebruiken. Heb vlak voor de geheugenprijzen explosie een machine gekocht met 96gb en 120b draait rond de 50 t/s.

Voor kleinere projecten is een lokale LLM goed genoeg. Maar context window kan niet tippen aan wat bijvoorbeeld Claude, Gemini, Codex kan bieden.
  vrijdag 27 februari 2026 @ 08:26:33 #8
44346 junkiesietze
Trotse Scooter-rijder.
pi_220210563
geprobeerd, maar met mijn 3060TI draait het allemaal gewoon heel traag.
Zou graag een 16gb kaart willen hebben zodat ik wat grotere kan proberen.
Ik boek je met mijn neon je weet.
en ik heb ook een auto.
pi_220211678
quote:
15s.gif Op vrijdag 27 februari 2026 08:26 schreef junkiesietze het volgende:
3060TI
Ik kon wel kleinere modellen draaien op mijn 6GB kaart, misschien even proberen met minder parameters.
🕰️₿🕰️₿🕰️₿🕰️₿🕰️₿🕰️ TikTok next Block
  vrijdag 27 februari 2026 @ 12:31:18 #10
44346 junkiesietze
Trotse Scooter-rijder.
pi_220211741
quote:
0s.gif Op vrijdag 27 februari 2026 12:14 schreef raptorix het volgende:

[..]
Ik kon wel kleinere modellen draaien op mijn 6GB kaart, misschien even proberen met minder parameters.
Ja dat kan ook wel, maar antwoorden kweken duurde gewoon lang, letter voor letter. daar heb ik het geduld niet voor
Ik boek je met mijn neon je weet.
en ik heb ook een auto.
  FOK!mycroftheld vrijdag 27 februari 2026 @ 12:38:09 #11
128465 Wrapster
graag verwijderen
pi_220211768
Specifiek LLM's of ook andere modellen? Ik zie hier ComfyUI een LLM genoemd worden, wat natuurlijk al niet klopt. ComfyUI is een User Interface waarbinnen je verschillende soorten modellen kunt draaien, waaronder LLM's en plaatjes/video generatie modellen.

LLM staat voor Large Language Model, dan heb je het specifiek over een taalmodel.

Ik draai 'lokaal' LLM's en plaatjes/video modellen. Het draait echter niet lokaal op mijn laptop maar op een server die hier thuis staat met daarin meerdere videokaarten en een hoop cpu cores en intern geheugen.
graag verwijderen
pi_220212418
Als snelheid niet je voornaamste uitgangspunt is, maar je wel groote modellen wilt gaan draaien, is Apple Silicon dan eigenlijk niet gewoon een gunstig alternatief voor de videokaarten? Met Unified memory zou je vrij gemakkelijk een groot deel van je geheugen voor AI toepassingen kunnen gebruiken. Of is dit te simpel gedacht?
  vrijdag 27 februari 2026 @ 17:57:55 #13
169715 Mano_
Manomanoman..
pi_220213240
Heb hier Ollama op de thuisserver draaien met Deepseek R1 voor de chat en qwen2.5 Instruct voor Home Assistant. Werkt heel aardig :)
  vrijdag 27 februari 2026 @ 18:01:19 #14
169715 Mano_
Manomanoman..
pi_220213272
quote:
0s.gif Op vrijdag 27 februari 2026 14:56 schreef KvanG het volgende:
Als snelheid niet je voornaamste uitgangspunt is, maar je wel groote modellen wilt gaan draaien, is Apple Silicon dan eigenlijk niet gewoon een gunstig alternatief voor de videokaarten? Met Unified memory zou je vrij gemakkelijk een groot deel van je geheugen voor AI toepassingen kunnen gebruiken. Of is dit te simpel gedacht?
Nee, dat is niet te simpel gedacht. Mac Studio's zijn hiervoor behoorlijk in trek. Helemaal omdat je met RDMA over Thunderbolt 4 van die jongens aan elkaar kan hangen en zo 4x512GB = 2TB tot je beschikking hebt :o
Kost wel een aardige duit..
pi_220222016
GPT-OSS 20B op een RTX 2080 met 8GB VRAM... met wat offloading is het nét bruikbaar. Ik was dom genoeg om een upgrade van GPU uit te stellen ;(

quote:
0s.gif Op vrijdag 27 februari 2026 05:12 schreef raptorix het volgende:
ComfyUI met RTX5090, en Ollama met Visual Studio/Continue, het laatste loop ik nog beetje mee te stoeien, vooral de settings voor agent mode krijg ik niet helemaal correct met betrekking tot automatisch maken van files en context van hele solution.
Agent mode vind ik ook nog erg moeilijk. Continue is er niet duidelijker op geworden...
pi_220225849
quote:
0s.gif Op zaterdag 28 februari 2026 18:51 schreef MoreDakka het volgende:
GPT-OSS 20B op een RTX 2080 met 8GB VRAM... met wat offloading is het nét bruikbaar. Ik was dom genoeg om een upgrade van GPU uit te stellen ;(
[..]
Agent mode vind ik ook nog erg moeilijk. Continue is er niet duidelijker op geworden...
Ja wat ik begrijp is dat je bepaalde permissies moet instellen in de config, dat doe ik dan, maar als ik dan bijvoorbeeld bij de suggestions: Create File kies dan gaat hij toch weer wegschrijven in de file die open is. Maar goed, moet maar eens een vriend raadplegen die hier expert in is.
🕰️₿🕰️₿🕰️₿🕰️₿🕰️₿🕰️ TikTok next Block
  zondag 1 maart 2026 @ 16:34:17 #17
40566 Ericr
Livewrong
pi_220230950
Agentic Claude is snel werkend. Heb het nu lopen in VS Code en buiten wat approvals wordt nu een data pipeline opgezet.

Trekt wel je usage snel
omhoog maar je bouwt dit soort zaken eerst als template daarna heb je natuurlijk agentic mode niet continu nodig meer.

Ga het ook nog wel lokaal inrichten maar matched natuurlijk nooit wat Claude allemaal kan.

Wat ik bouwde is niet ground breaking, verre van zelfs maar in zo'n korte tijd een volledige data pipeline van source naar een medaillon structuur met drie lagen is indrukwekkend.
  donderdag 2 april 2026 @ 14:52:34 #18
44346 junkiesietze
Trotse Scooter-rijder.
pi_220492501
Ben er opnieuw even voor gaan zitten, nu draait het allemaal een stuk beter. LM studio FTW.
LMSA op telefoon geinstalleerd en ik heb mijn eigen locale chatgpt op mijn telefoon.

een 3060ti is prima voor chat LLMs
Ik boek je met mijn neon je weet.
en ik heb ook een auto.
  zaterdag 4 april 2026 @ 10:23:25 #19
40566 Ericr
Livewrong
pi_220504560
Voor coding kan ik trouwens Qwen3 coder next 80b aanbevelen. Moet je machine wel aan kunnen, veel geheugen nodig maar er zijn ook 40b versies die met minder geheugen alsnog prima draaien.

Denk op dit moment 1 van de weinige modellen die redelijk in de buurt komen van SOTA modellen als Sonnet, Gemini, GPT. Voor zeer complexe zaken heb je een cloud model nog wel nodig maar voor boilerplate code kan je prima af met een lokaal model.
pi_220637001
quote:
80s.gif Op vrijdag 27 februari 2026 17:57 schreef Mano_ het volgende:
Heb hier Ollama op de thuisserver draaien met Deepseek R1 voor de chat en qwen2.5 Instruct voor Home Assistant. Werkt heel aardig :)
Hoe werkt dat precies met die Home Assistant?
The problem with socialism is that you eventually run out of other people's money
pi_220637003
Ik ben hier wel naar aan het kijken. Vooral ivm de contentbeperkingen van de huidige online AI modellen. Het zou handiger zijn een assistent te bouwen die helemaal is toegerust voor de taken die ik hem wil geven, zonder censuur. Plus, het zorgt voor een stukje extra privacy.

Ik vraag mij wel af wat ik in hardware zal moeten investeren wil ik zo'n model soepeltjes kunnen draaien op een thuisserver.
The problem with socialism is that you eventually run out of other people's money
pi_220639344
quote:
0s.gif Op zaterdag 4 april 2026 10:23 schreef Ericr het volgende:
Voor coding kan ik trouwens Qwen3 coder next 80b aanbevelen. Moet je machine wel aan kunnen, veel geheugen nodig maar er zijn ook 40b versies die met minder geheugen alsnog prima draaien.

Denk op dit moment 1 van de weinige modellen die redelijk in de buurt komen van SOTA modellen als Sonnet, Gemini, GPT. Voor zeer complexe zaken heb je een cloud model nog wel nodig maar voor boilerplate code kan je prima af met een lokaal model.
Zou je wellicht je settings/setup kunnen delen, ik had idee dat ik die niet helemaal lekker heb staan.
Heb redelijke zware PC dus zou goed moeten draaien.
🕰️₿🕰️₿🕰️₿🕰️₿🕰️₿🕰️ TikTok next Block
pi_220639345
quote:
0s.gif Op donderdag 23 april 2026 07:13 schreef TAmaru het volgende:
Ik ben hier wel naar aan het kijken. Vooral ivm de contentbeperkingen van de huidige online AI modellen. Het zou handiger zijn een assistent te bouwen die helemaal is toegerust voor de taken die ik hem wil geven, zonder censuur. Plus, het zorgt voor een stukje extra privacy.

Ik vraag mij wel af wat ik in hardware zal moeten investeren wil ik zo'n model soepeltjes kunnen draaien op een thuisserver.
Dan moet je kijken naar de Heretic modellen, die zijn voor 99% gedecensureerd.
🕰️₿🕰️₿🕰️₿🕰️₿🕰️₿🕰️ TikTok next Block
pi_220639655
quote:
0s.gif Op donderdag 23 april 2026 13:45 schreef raptorix het volgende:

[..]
Zou je wellicht je settings/setup kunnen delen, ik had idee dat ik die niet helemaal lekker heb staan.
Heb redelijke zware PC dus zou goed moeten draaien.
Hangt vooral af van hoe je systeem is opgebouwd. Ik heb een systeem met unified memory. Dat maakt een wereld van verschil.

Zou hoe dan ook Linux gebruiken. Lmstudio voor het gemak of anders een llamaccp gui. Kan ook via cli maar is minder prettig werken.

Lmstudio het model zoveel mogelijk via gpu laten werken. Kan nog wel een dingetje zijn, ook in Linux, waarbij alsnog je cpu primair wordt ingezet.

Maar wat voor configuratie heb je?
pi_220639691
quote:
0s.gif Op donderdag 23 april 2026 15:04 schreef Ericr het volgende:

[..]
Hangt vooral af van hoe je systeem is opgebouwd. Ik heb een systeem met unified memory. Dat maakt een wereld van verschil.

Zou hoe dan ook Linux gebruiken. Lmstudio voor het gemak of anders een llamaccp gui. Kan ook via cli maar is minder prettig werken.

Lmstudio het model zoveel mogelijk via gpu laten werken. Kan nog wel een dingetje zijn, ook in Linux, waarbij alsnog je cpu primair wordt ingezet.

Maar wat voor configuratie heb je?
Ik draai sinds kort idd LM studio werkt prettig, daarvoor Ollama.
Ik werk in VSCode met Continue.
Ik draai echter Windows, denk eraan binnenkort even een dual boot te gaan maken. Ik heb een RTX 5090 met 64GB geheugen, ik was met name nog benieuwd of je settings van het model hebt getuned in LM studio zelf.
🕰️₿🕰️₿🕰️₿🕰️₿🕰️₿🕰️ TikTok next Block
abonnement Unibet Coolblue Bitvavo
Forum Opties
Forumhop:
Hop naar:
(afkorting, bv 'KLB')