quote:
Jawel, er wordt gebruik gemaakt van datapunten die wel bekend zijn. Vervolgens neem je een willekeurige set aan grafieken. Van elke van deze grafiek zal je de fout berekenen tov deze datapunten. Elke keer probeer je deze fout kleiner te maken zodat je een grafiek krijgt die steeds dichter bij de werkelijke functie van je dataset komt te liggen. (Fouten in het kwadraat zodat ook negatieve fouten meetellen en grote fouten zwaarder)
In de genoemde paper is deze fout L(y,F) = (y-F)^2. De L is de loss, y de werkelijke dataset en F de gekozen grafiek. Waarom ze daarna nog door 2 delen weet ik niet, maar dat lijkt me ook niet veel invloed hebben. Ik loop vast op de regel met arg min, omdat ik niet precies begrijp wat ze daar minimaliseren. (Tenminste hoe de minimalisatie werkt)
Volgens mij werkt het zo maar dat kan ik dus fout hebben:
Hier geef je aan ~yi de fouten van een gekozen grafiek tov de werkelijke datapunten van de vorige gekozen grafiek.
In de volgende regel:
1 | (pm,am) = arg min a,p SOM [ ~yi - ph(xi;a) ]^2 |
de ph(xi,a) zal de nieuwe hypothese vormen, dus een nieuwe grafiek. Ik denk dat daarom de fouten van de oude grafiek worden vergeleken met een nieuwe grafiek. Dit gebeurt volgens mij niet punt voor punt, maar ook netjes eerst de volledige som van de fouten, omdat het somteken na de minimalisatie staat. Dus mijn echte vraag is, hoe wordt hier de minimalisatie toegepast. Worden er 2 hypothesen vergeleken en de beste gekozen en daar gaan we mee verder?
Bedankt voor het meedenken in elk geval (en voor het verplaatsen Alicey
![]()
)