hulp bij LS Boost algoritme

FOK!forum / Wetenschap, Filosofie, Levensbeschouwing / hulp bij LS Boost algoritme

snabbi

dinsdag 31 mei 2005 @ 23:14

Ik gebruik voor een dataminingsprobleem een LS Boost algoritme.

De kern van dit algoritme is om het verschil tussen de voorspelde waarde en de werkelijke waarde uit te rekenen en te kwadrateren. Vervolgens moet je de fout minimaliseren en weer opnieuw voorspellen. Alleen hoe het PRECIES zit snap ik niet helemaal. Kan iemand mij helpen:

Het algoritme staat hier http://www.salford-systems.com/doc/GreedyFuncApproxSS.pdf beschreven op pagina 5. Het gaat om algoritme 2.

snabbi

woensdag 1 juni 2005 @ 00:08

woepsie.. dacht altijd dat de W voor wetenschap was kan een modje hem een schopje geven naar of wetenschap (juiste plek) of dig (ivm een programmeer probleem)

Alicey

woensdag 1 juni 2005 @ 06:34

WGR >>> WFL

Libris

woensdag 1 juni 2005 @ 06:37

BEgrijp je de least square methode?

snabbi

woensdag 1 juni 2005 @ 09:53

quote:
Op woensdag 1 juni 2005 06:37 schreef Libris het volgende:
BEgrijp je de least square methode?

Jawel, er wordt gebruik gemaakt van datapunten die wel bekend zijn. Vervolgens neem je een willekeurige set aan grafieken. Van elke van deze grafiek zal je de fout berekenen tov deze datapunten. Elke keer probeer je deze fout kleiner te maken zodat je een grafiek krijgt die steeds dichter bij de werkelijke functie van je dataset komt te liggen. (Fouten in het kwadraat zodat ook negatieve fouten meetellen en grote fouten zwaarder)

In de genoemde paper is deze fout L(y,F) = (y-F)^2. De L is de loss, y de werkelijke dataset en F de gekozen grafiek. Waarom ze daarna nog door 2 delen weet ik niet, maar dat lijkt me ook niet veel invloed hebben. Ik loop vast op de regel met arg min, omdat ik niet precies begrijp wat ze daar minimaliseren. (Tenminste hoe de minimalisatie werkt)

Volgens mij werkt het zo maar dat kan ik dus fout hebben:

1	~yi = yi - Fm-1(xi)

Hier geef je aan ~yi de fouten van een gekozen grafiek tov de werkelijke datapunten van de vorige gekozen grafiek.

In de volgende regel:

1	(pm,am) = arg min a,p SOM [ ~yi - ph(xi;a) ]^2

de ph(xi,a) zal de nieuwe hypothese vormen, dus een nieuwe grafiek. Ik denk dat daarom de fouten van de oude grafiek worden vergeleken met een nieuwe grafiek. Dit gebeurt volgens mij niet punt voor punt, maar ook netjes eerst de volledige som van de fouten, omdat het somteken na de minimalisatie staat. Dus mijn echte vraag is, hoe wordt hier de minimalisatie toegepast. Worden er 2 hypothesen vergeleken en de beste gekozen en daar gaan we mee verder?

Bedankt voor het meedenken in elk geval (en voor het verplaatsen Alicey

)