Vet ja, ik krijg het maar niet lopend op mijn nieuwe lappie, continue 'problemen'.quote:Op donderdag 26 februari 2026 22:42 schreef TheFreshPrince het volgende:
ComfyUI met Wan 2.2
Draait vlot op een RTX4090
[ afbeelding ]
Heb je last van beperkingen bij modellen dan? ik ben tot nog geen beperkingen aangelopen......quote:Op vrijdag 27 februari 2026 05:12 schreef raptorix het volgende:
ComfyUI met RTX5090, en Ollama met Visual Studio/Continue, het laatste loop ik nog beetje mee te stoeien, vooral de settings voor agent mode krijg ik niet helemaal correct met betrekking tot automatisch maken van files en context van hele solution.
Dit is trouwens ook verdomd interessant: https://github.com/p-e-w/heretic/
Niet vaak, maar af en toe wel, bijvoorbeeld toen ik de hackerstext van Odido door ChatGTP wilde laten analyseren wilde hij geen uitspraak doen over ethniciteit of land. Ook op security gebied wordt ik wel eens tegengehouden met vragen die over ethisch hacken gaan.quote:Op vrijdag 27 februari 2026 07:56 schreef Chandler het volgende:
[..]
Vet ja, ik krijg het maar niet lopend op mijn nieuwe lappie, continue 'problemen'.
Maar LLM's wel en dat is al super leuk! Al verbaasd het mij dat het vaak maar 80% van het geheugen gebruikt en amper GPU/CPU... gpu vaak maar een 20% bij 'denken' en CPU max 45%
[..]
Heb je last van beperkingen bij modellen dan? ik ben tot nog geen beperkingen aangelopen......
Ik kon wel kleinere modellen draaien op mijn 6GB kaart, misschien even proberen met minder parameters.quote:
Ja dat kan ook wel, maar antwoorden kweken duurde gewoon lang, letter voor letter. daar heb ik het geduld niet voorquote:Op vrijdag 27 februari 2026 12:14 schreef raptorix het volgende:
[..]
Ik kon wel kleinere modellen draaien op mijn 6GB kaart, misschien even proberen met minder parameters.
Nee, dat is niet te simpel gedacht. Mac Studio's zijn hiervoor behoorlijk in trek. Helemaal omdat je met RDMA over Thunderbolt 4 van die jongens aan elkaar kan hangen en zo 4x512GB = 2TB tot je beschikking hebtquote:Op vrijdag 27 februari 2026 14:56 schreef KvanG het volgende:
Als snelheid niet je voornaamste uitgangspunt is, maar je wel groote modellen wilt gaan draaien, is Apple Silicon dan eigenlijk niet gewoon een gunstig alternatief voor de videokaarten? Met Unified memory zou je vrij gemakkelijk een groot deel van je geheugen voor AI toepassingen kunnen gebruiken. Of is dit te simpel gedacht?
Agent mode vind ik ook nog erg moeilijk. Continue is er niet duidelijker op geworden...quote:Op vrijdag 27 februari 2026 05:12 schreef raptorix het volgende:
ComfyUI met RTX5090, en Ollama met Visual Studio/Continue, het laatste loop ik nog beetje mee te stoeien, vooral de settings voor agent mode krijg ik niet helemaal correct met betrekking tot automatisch maken van files en context van hele solution.
Ja wat ik begrijp is dat je bepaalde permissies moet instellen in de config, dat doe ik dan, maar als ik dan bijvoorbeeld bij de suggestions: Create File kies dan gaat hij toch weer wegschrijven in de file die open is. Maar goed, moet maar eens een vriend raadplegen die hier expert in is.quote:Op zaterdag 28 februari 2026 18:51 schreef MoreDakka het volgende:
GPT-OSS 20B op een RTX 2080 met 8GB VRAM... met wat offloading is het nét bruikbaar. Ik was dom genoeg om een upgrade van GPU uit te stellen
[..]
Agent mode vind ik ook nog erg moeilijk. Continue is er niet duidelijker op geworden...
Hoe werkt dat precies met die Home Assistant?quote:Op vrijdag 27 februari 2026 17:57 schreef Mano_ het volgende:
Heb hier Ollama op de thuisserver draaien met Deepseek R1 voor de chat en qwen2.5 Instruct voor Home Assistant. Werkt heel aardig
Zou je wellicht je settings/setup kunnen delen, ik had idee dat ik die niet helemaal lekker heb staan.quote:Op zaterdag 4 april 2026 10:23 schreef Ericr het volgende:
Voor coding kan ik trouwens Qwen3 coder next 80b aanbevelen. Moet je machine wel aan kunnen, veel geheugen nodig maar er zijn ook 40b versies die met minder geheugen alsnog prima draaien.
Denk op dit moment 1 van de weinige modellen die redelijk in de buurt komen van SOTA modellen als Sonnet, Gemini, GPT. Voor zeer complexe zaken heb je een cloud model nog wel nodig maar voor boilerplate code kan je prima af met een lokaal model.
Dan moet je kijken naar de Heretic modellen, die zijn voor 99% gedecensureerd.quote:Op donderdag 23 april 2026 07:13 schreef TAmaru het volgende:
Ik ben hier wel naar aan het kijken. Vooral ivm de contentbeperkingen van de huidige online AI modellen. Het zou handiger zijn een assistent te bouwen die helemaal is toegerust voor de taken die ik hem wil geven, zonder censuur. Plus, het zorgt voor een stukje extra privacy.
Ik vraag mij wel af wat ik in hardware zal moeten investeren wil ik zo'n model soepeltjes kunnen draaien op een thuisserver.
Hangt vooral af van hoe je systeem is opgebouwd. Ik heb een systeem met unified memory. Dat maakt een wereld van verschil.quote:Op donderdag 23 april 2026 13:45 schreef raptorix het volgende:
[..]
Zou je wellicht je settings/setup kunnen delen, ik had idee dat ik die niet helemaal lekker heb staan.
Heb redelijke zware PC dus zou goed moeten draaien.
Ik draai sinds kort idd LM studio werkt prettig, daarvoor Ollama.quote:Op donderdag 23 april 2026 15:04 schreef Ericr het volgende:
[..]
Hangt vooral af van hoe je systeem is opgebouwd. Ik heb een systeem met unified memory. Dat maakt een wereld van verschil.
Zou hoe dan ook Linux gebruiken. Lmstudio voor het gemak of anders een llamaccp gui. Kan ook via cli maar is minder prettig werken.
Lmstudio het model zoveel mogelijk via gpu laten werken. Kan nog wel een dingetje zijn, ook in Linux, waarbij alsnog je cpu primair wordt ingezet.
Maar wat voor configuratie heb je?
Ja, met die context kwam ik dus in problemen, ik had ook gewoon een te groot model wat ik getest had, op zich ging start goed, dat was Gemma 4 maar die is vrij groot volgens mij, maar goed dank voor de tip, ik ga van het weekend ermee aan de slag.quote:Op donderdag 23 april 2026 15:22 schreef Ericr het volgende:
Model offloaden op die 5090. Maar dan moet je modellen hebben van 20-24gb zodat je voor kv cache nog ruimte hebt voor de context. Moet je met een gemma of qwen MOE model wel richting de 70-80 t/s gaan
6 bit quant gaat misschien net niet maar 4 bit xl waarschijnlijk wel
Probeer die eens
https://huggingface.co/un(...)-A3B-UD-Q4_K_XL.gguf
Gemma 4 26B-A4B is een hele goede optie, je kunt de experts offloaden naar de CPU. Zo krijg je hoge snelheid en kwaliteit is niet slechter dan het volledige 31B model (in mijn ervaring althans). Ik heb zelf een 8GB Vram GPU dus ik haal alsnog geen hoge snelheid maar het is wel net werkbaar.quote:Op donderdag 23 april 2026 16:32 schreef raptorix het volgende:
[..]
Ja, met die context kwam ik dus in problemen, ik had ook gewoon een te groot model wat ik getest had, op zich ging start goed, dat was Gemma 4 maar die is vrij groot volgens mij, maar goed dank voor de tip, ik ga van het weekend ermee aan de slag.
Ik had toevallig dat model al gedownload, dus dacht pak die, had trouwens de Heretic version: gemma-4-31b-it-heretic-ara.Q4_K_M.ggufquote:Op donderdag 23 april 2026 16:42 schreef MoreDakka het volgende:
[..]
Gemma 4 26B-A4B is een hele goede optie, je kunt de experts offloaden naar de CPU. Zo krijg je hoge snelheid en kwaliteit is niet slechter dan het volledige 31B model (in mijn ervaring althans). Ik heb zelf een 8GB Vram GPU dus ik haal alsnog geen hoge snelheid maar het is wel net werkbaar.
Goede keus, de gewone versie weigerde bij mij ook een paar keer dus ik heb dezelfde gepakt.quote:Op donderdag 23 april 2026 16:46 schreef raptorix het volgende:
[..]
Ik had toevallig dat model al gedownload, dus dacht pak die, had trouwens de Heretic version: gemma-4-31b-it-heretic-ara.Q4_K_M.gguf
Heb Ollama gedownload maar nog geen tijd gehad wat mee te doen. Maandag wellicht. M1Max met 64GB moet genoeg zijn.quote:Op vrijdag 27 februari 2026 17:57 schreef Mano_ het volgende:
Heb hier Ollama op de thuisserver draaien met Deepseek R1 voor de chat en qwen2.5 Instruct voor Home Assistant. Werkt heel aardig
In HA bij de instellingen -> Voice Assistants heb ik er eentje aangemaakt en gelinkt aan de Ollama-server. HA gebruikt een Whisper-plugin om spraak naar tekst om te zetten.quote:Op donderdag 23 april 2026 07:12 schreef TAmaru het volgende:
[..]
Hoe werkt dat precies met die Home Assistant?
Dat lijkt me ook ja, mijn thuisservertje heeft een 3060TI met 8GB en dat werkt prima. Natuurlijk niet te vergelijken met iets als Claude, maar voor Home Assistant werkt het perfect.quote:Op donderdag 23 april 2026 18:22 schreef Jan_Onderwater het volgende:
[..]
Heb Ollama gedownload maar nog geen tijd gehad wat mee te doen. Maandag wellicht. M1Max met 64GB moet genoeg zijn.
Klinkt gaaf. Joh, ik wist niet eens dat HA een ding was; ik dacht dat je het gewoon had over een of andere home assistant, zoals Google Home of Alexa ofzo. Heb het net even gegoogeld.quote:Op donderdag 23 april 2026 19:21 schreef Mano_ het volgende:
[..]
In HA bij de instellingen -> Voice Assistants heb ik er eentje aangemaakt en gelinkt aan de Ollama-server. HA gebruikt een Whisper-plugin om spraak naar tekst om te zetten.
Vervolgens op m'n iPhone een opdracht gemaakt die verzoeken via Siri naar deze assistant stuurt.
Werkt behoorlijk goed, je kan in gewone mensentaal je huis 'besturen', maar soms is het nog wel nodig om 'ouderwets specifiek' te zijn.
Nu gebruik ik het niet heel erg veel (het meeste toch gewoon met knoppen aan de muur en sensor-gestuurde automatiseringen) maar als ik het wel nodig heb werkt het prima.
|
|
| Forum Opties | |
|---|---|
| Forumhop: | |
| Hop naar: | |