abonnement Unibet Coolblue Bitvavo
pi_164408562
Ik denk dat je variabele geslacht niet helemaal klopt :D
Nomnomnomnomnomnomnomnomnomnom
pi_164409708
quote:
0s.gif Op woensdag 10 augustus 2016 20:06 schreef Liedje_ het volgende:
Hoi allemaal,

SPSS vraag: ik heb een lineaire regressie gemaakt met afhankelijke variabele kwaliteit van leven. Hier heb ik verschillende onafhankelijke variabelen voor:
- leeftijd (met gemiddelde leeftijd),
- geslacht (0 = nee; 1 = ja)
- employment (0 = geen werk; 1 = wel werk)
- roken (0=nee; 1=ja)
- opleidingsniveau (0=laag; 1= hoog)
- huwelijkse status (0=single, 1 = gehuwd/samenwonend)
- physical activity, met hoeveel dagen per week actief (0 = 0 dagen actief, 1 = 1 dag per week actief; 2=2 dagen per week actief; 3 = 3 dagen per week actief)

en om deze laatste gaat het nu. die andere snap ik, hoe ik deze moet invullen. Maar hoe vul ik physical activity in? Ik heb de resultaten uit spss in excel gezet en een screenshot toegevoegd in dit bericht: de rode vraagtekens weet ik dus niet..
Zet ik in C7 dan 0? of ook -0.091? en C8? en E7 en E8?

[ afbeelding ]
Zoals je het nu doet doe je het fout. Je moet werken met dummies. Kijk maar eens in het boek van Field.
pi_164409763
Zo dus:

1 Count the number of groups you want to recode and subtract 1.
2 Create as many new variables as the value you calculated in step 1. These are your
dummy variables.
3 Choose one of your groups as a baseline (i.e. a group against which all other groups
should be compared). This should usually be a control group, or, if you don’t have
a specific hypothesis, it should be the group that represents the majority of people
(because it might be interesting to compare other groups against the majority).
4 Having chosen a baseline group, assign that group values of 0 for all of your dummy
variables.
5 For your first dummy variable, assign the value 1 to the first group that you want to
compare against the baseline group. Assign all other groups 0 for this variable.
6 For the second dummy variable assign the value 1 to the second group that you want
to compare against the baseline group. Assign all other groups 0 for this variable.
7 Repeat this until you run out of dummy variables.
8 Place all of your dummy variables into the regression analysis!
pi_164421055
quote:
0s.gif Op woensdag 10 augustus 2016 21:10 schreef PluisigNijntje het volgende:
Ik denk dat je variabele geslacht niet helemaal klopt :D
Inderdaad, het handigste vind ik altijd om de variabele 'man' of 'vrouw' te noemen, zodat je weet wat 1 betekent.
quote:
0s.gif Op woensdag 10 augustus 2016 21:48 schreef MCH het volgende:

[..]

Zoals je het nu doet doe je het fout. Je moet werken met dummies. Kijk maar eens in het boek van Field.
Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164421071
quote:
0s.gif Op woensdag 10 augustus 2016 20:06 schreef Liedje_ het volgende:
Hoi allemaal,

SPSS vraag: ik heb een lineaire regressie gemaakt met afhankelijke variabele kwaliteit van leven. Hier heb ik verschillende onafhankelijke variabelen voor:
- leeftijd (met gemiddelde leeftijd),
- geslacht (0 = nee; 1 = ja)
- employment (0 = geen werk; 1 = wel werk)
- roken (0=nee; 1=ja)
- opleidingsniveau (0=laag; 1= hoog)
- huwelijkse status (0=single, 1 = gehuwd/samenwonend)
- physical activity, met hoeveel dagen per week actief (0 = 0 dagen actief, 1 = 1 dag per week actief; 2=2 dagen per week actief; 3 = 3 dagen per week actief)

en om deze laatste gaat het nu. die andere snap ik, hoe ik deze moet invullen. Maar hoe vul ik physical activity in? Ik heb de resultaten uit spss in excel gezet en een screenshot toegevoegd in dit bericht: de rode vraagtekens weet ik dus niet..
Zet ik in C7 dan 0? of ook -0.091? en C8? en E7 en E8?

[ afbeelding ]
Ik snap die tabel niet. De rijen staan ook niet gelijk, waarom staat Physical activity 0 days achter de intercept? Daar hoort niets te staan.
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164429425
quote:
0s.gif Op dinsdag 9 augustus 2016 12:12 schreef crossover het volgende:

[..]

Ja, maar je krijgt dan maar één gemiddelde en één stddev. Dus je gooit alles op een hoop (van de jongeren) en die (geaggregeerde) gegevens gebruik je om de individuele waarde van de oudere groep mee te vergeijken.

Mijn advies, houd het simpel :')

Ik heb me voor een thesis verdiept in het minimaal klinisch relevant verschil en minimaal detecteerbaar verschil, er zijn enorm veel verschillende termen en varianten.
Ik heb er nog eens goed over nagedacht.

Dit is mijn plan van aanpak: van de tien jonge proefpersonen worden alle pixelwaarden gebruikt om een gemiddelde en standaard deviatie te berekenen. Met mean + 2*stddev wordt dan de grens bepaald van pixelwaarden die verdacht zijn.

In de plaatjes van de oudere proefpersonen wordt die grens dan gebruikt om pixels te isoleren die verdacht zijn. Die kunnen dan gehighlight worden, om de arts te wijzen op gebieden die verdacht zijn.

Kan dan ook nog per oudere proefpersoon een histogram maken, om te bepalen welke fractie van de pixels verdacht is. Bij de proefpersoon uit het plaatje met een gemiddelde van rond de 90 zou dat best wel eens om meer dan 50% van de pixels kunnen gaan. Klinische waarde van zo'n histogram? Geen idee - dat zal de praktijk moeten uitwijzen.

Bedankt!
Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson
pi_164439128
quote:
0s.gif Op donderdag 11 augustus 2016 10:05 schreef crossover het volgende:


[..]

Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.
Allereerst:
Bedankt voor de reacties!!


Over dit punt, dat wil ik inderdaad graag, dus in 1 keer erin. Ik moet ook toegeven dat ik nu de verkorte versie heb gegeven, maar de variabele bestaat idd van 0 tot 7 (dagen per week).
Maar ik snap niet wat de coefficienten van de verschillende values zijn.
Voor 0, is de coefficient 0 (Als beginpunt/vergelijkingspunt).
Voor 1 is de coefficient 0.091 (uit SPSS gehaald) - er staat in de tabel (-0.091) maar dit is verkeerd door mij opgeschreven! het is 0.091.

Het verschil tussen iemand met 0 dagen actief en 1 dag per week actief is 0.091 (dus kwaliteit van leven is dan 0.091 hoger voor iemand die 1 dag actief is ten opzichte van iemand die 0 dagen actief is, alle covarieten gelijk gelaten.

Maar welke coefficienten gebruik ik voor 2, 3, 4, 5, 6 en 7 dagen per week actief zijn?
Is het dan:
2*0.091
3*0.091
tot en met 7*0.091?
Never assume, because then you make an ass out of u and me.
pi_164450361
quote:
0s.gif Op dinsdag 9 augustus 2016 16:05 schreef Kaas- het volgende:
Thanks Operc.

Maar ik begin wel aardig te stressen, omdat ik zie dat dat mergen niet goed werkt. Er ontbreekt dan plotseling echt een hoop in plaats van dat alle entries van de mergende bestanden in het nieuwe bestand staan.
Niet gaan stressen, SPSS kan stress ruiken en misbruikt dat.
Heb je wel de goede manier van mergen te pakken?
Kijk anders hier even: http://www.ats.ucla.edu/stat/spss/modules/merge.htm
Regenboog, regenboog
gelukkig ben je krom,
anders heette je regenstreep,
en dat klinkt toch wel zo stom
pi_164455534
quote:
11s.gif Op donderdag 11 augustus 2016 20:50 schreef Liedje_ het volgende:

[..]

Allereerst:
Bedankt voor de reacties!!

Over dit punt, dat wil ik inderdaad graag, dus in 1 keer erin. Ik moet ook toegeven dat ik nu de verkorte versie heb gegeven, maar de variabele bestaat idd van 0 tot 7 (dagen per week).
Maar ik snap niet wat de coefficienten van de verschillende values zijn.
Voor 0, is de coefficient 0 (Als beginpunt/vergelijkingspunt).
Voor 1 is de coefficient 0.091 (uit SPSS gehaald) - er staat in de tabel (-0.091) maar dit is verkeerd door mij opgeschreven! het is 0.091.

Het verschil tussen iemand met 0 dagen actief en 1 dag per week actief is 0.091 (dus kwaliteit van leven is dan 0.091 hoger voor iemand die 1 dag actief is ten opzichte van iemand die 0 dagen actief is, alle covarieten gelijk gelaten.

Maar welke coefficienten gebruik ik voor 2, 3, 4, 5, 6 en 7 dagen per week actief zijn?
Is het dan:
2*0.091
3*0.091
tot en met 7*0.091?
Waarom zou je dat willen uitleggen? Vermeld gewoon dat het significant is of niet icm met de eventuele coëfficiënt.

[ Bericht 0% gewijzigd door #ANONIEM op 12-08-2016 11:24:26 ]
pi_164455563
quote:
0s.gif Op donderdag 11 augustus 2016 10:05 schreef crossover het volgende:

[..]

Inderdaad, het handigste vind ik altijd om de variabele 'man' of 'vrouw' te noemen, zodat je weet wat 1 betekent.

[..]

Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.
Dat klopt, als de vraagsteller ook wat vollediger was geweest had ik natuurlijk deze oplossing niet aangedragen.

[ Bericht 0% gewijzigd door #ANONIEM op 12-08-2016 11:25:46 ]
pi_164463778
quote:
0s.gif Op vrijdag 12 augustus 2016 11:21 schreef MCH het volgende:

[..]

Waarom zou je dat willen uitleggen? Vermeld gewoon dat het significant is of niet icm met de eventuele coëfficiënt.
Nee ik wil het gewoon graag beter begrijpen wat er nu staat. Want als ik het goed begrijp, kan ik bijvoorbeeld voor geslacht zeggen:
als alle andere variabelen gelijk blijven, varieert voor man en vrouw kwaliteit van leven met 0.061 units. Zou kwaliteit van leven voor een vrouw 0.70 zijn, dan voor een man 0.649.

Maar ik snap gewoon niet hoe ik dit voor fysiek actief zijn omschrijf.
Kwaliteit van leven verschilt bij 0 of 1 dag fysiek actief met 0.091, dus zou kwaliteit van leven 0.70 zijn voor 0 dagen actief, dan 0.791 voor 1 dag fysiek actief. Maar ik snap gewoon niet wat ik zou zeggen voor bijvoorbeeld 2 dagen fysiek actief?

quote:
0s.gif Op vrijdag 12 augustus 2016 11:22 schreef MCH het volgende:

[..]

Dat klopt, als de vraagsteller ook wat vollediger was geweest had ik natuurlijk deze oplossing niet aangedragen.
Sorry! Was niet handig van me..
Never assume, because then you make an ass out of u and me.
pi_164463849
quote:
0s.gif Op vrijdag 12 augustus 2016 15:32 schreef Liedje_ het volgende:

[..]

Nee ik wil het gewoon graag beter begrijpen wat er nu staat. Want als ik het goed begrijp, kan ik bijvoorbeeld voor geslacht zeggen:
als alle andere variabelen gelijk blijven, varieert voor man en vrouw kwaliteit van leven met 0.061 units. Zou kwaliteit van leven voor een vrouw 0.70 zijn, dan voor een man 0.649.

Maar ik snap gewoon niet hoe ik dit voor fysiek actief zijn omschrijf.
Kwaliteit van leven verschilt bij 0 of 1 dag fysiek actief met 0.091, dus zou kwaliteit van leven 0.70 zijn voor 0 dagen actief, dan 0.791 voor 1 dag fysiek actief. Maar ik snap gewoon niet wat ik zou zeggen voor bijvoorbeeld 2 dagen fysiek actief?



[..]

Sorry! Was niet handig van me..
Zijn ze uberhaupt significant?
pi_164465142
quote:
0s.gif Op vrijdag 12 augustus 2016 15:34 schreef MCH het volgende:

[..]

Zijn ze uberhaupt significant?
Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).


"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..

Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?

[ Bericht 11% gewijzigd door Liedje_ op 13-08-2016 13:45:58 ]
Never assume, because then you make an ass out of u and me.
pi_164490142
- ik wilde m'n bericht hierboven wijzigen maar klikte blijkbaar op quote, niet de bedoeling -
Never assume, because then you make an ass out of u and me.
pi_164490990
quote:
0s.gif Op vrijdag 12 augustus 2016 16:02 schreef Liedje_ het volgende:

[..]

Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).
[ afbeelding ]

"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..

Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?
Ja volgens mij klopt dat zo. :)
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164518722
quote:
0s.gif Op zaterdag 13 augustus 2016 14:27 schreef crossover het volgende:

[..]

Ja volgens mij klopt dat zo. :)
Schrijf gewoon op dat (meer) sporten een positief effect heeft op kwaliteit van leven. Net alsof 7 dagen sporten bijdraagt aan 0.812 levenskwaliteit iets zegt. :')
pi_164518899
De relatie aantal dagen per week sporten en levenskwaliteit lijkt me trouwens niet lineair, maar met een top ergens in het midden. Lineaire regressie zou in dat geval niet echt veel informatie prijsgeven.
  † In Memoriam † zondag 14 augustus 2016 @ 14:07:08 #48
230491 Zith
pls tip
pi_164519317
quote:
1s.gif Op zondag 14 augustus 2016 13:46 schreef Kaas- het volgende:
De relatie aantal dagen per week sporten en levenskwaliteit lijkt me trouwens niet lineair, maar met een top ergens in het midden. Lineaire regressie zou in dat geval niet echt veel informatie prijsgeven.
Gewoon een squared versie toevoegen..



http://essedunet.nsd.uib.no/cms/topics/multilevel/ch1/5.html

Wat ik dus ook zeker zou aanraden want je maakt een goede observatie.

[ Bericht 7% gewijzigd door Zith op 14-08-2016 14:19:27 ]
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_164532012
quote:
0s.gif Op dinsdag 9 augustus 2016 09:14 schreef Lyrebird het volgende:

[ code verwijderd ]

Als het om statistiek gaat, dan kom ik niet veel verder dan een gemiddeld en een standaarddeviatie. Ik gebruik het spul tot nu toe te weinig om me er echt in te verdiepen (alhoewel dat wel eens rap kan veranderen binnenkort, maar dat terzijde).

In de bovenstaande tabel staan de meetgegevens van een bepaalde variabele van 10 jonge proefpersonen, die vanwege hun leeftijd geen last kunnen hebben van een niet-nader-te-noemen ouderdomsziekte. We hebben een gemiddelde waarde per proefpersoon gemeten, en een standaarddeviatie.

Daarnaast hebben we ook tien oudere proefpersonen doorgemeten.

Beetje uit de losse pols zijn de proefpersonen die een rood stipje hebben, "suspect".

[ afbeelding ]

Welke oudere proefpersonen vallen buiten de range die als "normaal" bestempeld kan worden, gebaseerd op de meetgegevens van de jonge proefpersonen? Welke methode moet ik gebruiken om dat aan te tonen?
Als je de verschillen per de drie groepen wil testen op significantie kun je een t-test gebruiken, als je tenminste een normale distributie kunt aannemen (wat niet per se zo lijkt te zijn). Als je per invidu een waarde van verschil met de rest wil bepalen kun je het beste een resampling methode gebruiken. Hierbij bepaal je de distributie door heel vaak (100,000x) random waarden te selecteren uit de gehele dataset. Vervolgens vergelijk je de waarden van ieder individu met die achtergrond verdeling. In feite test je hoe vaak het profiel dat je experimenteel hebt bepaald voorkomt als je een random profiel samenstelt.
Jesus saves but death prevails.
pi_164532349
quote:
1s.gif Op zondag 14 augustus 2016 14:07 schreef Zith het volgende:

[..]

Gewoon een squared versie toevoegen..

[ afbeelding ]

http://essedunet.nsd.uib.no/cms/topics/multilevel/ch1/5.html

Wat ik dus ook zeker zou aanraden want je maakt een goede observatie.
Yes. Is gelukkig een eenvoudige oplossing voor.
  vrijdag 19 augustus 2016 @ 11:45:46 #51
100126 Maraca
#cijferfetisjist
pi_164675317
Ik wil een attributieve steekproef uitvoeren, maar snap niet helemaal wat ze bedoelen met onderstaande bij het kopje "populatie"

quote:
Dit is het aantal steekproefeenheden in de populatie waaruit de steekproef getrokken is. Indien u niet zeker bent welke hoeveelheid u in moet vullen, kunt u voor de zekerheid beter een groot getal invullen. U moet een getal opgeven tussen 1 en 2.147.483.646
Stel ik heb een totale populatie van 7.000. Ik wil alleen een steekproef uitvoeren op de items die aan bepaalde kenmerken voldoen. Dus stel dat dit er 4.000 zijn. Op die 4.000 wil ik dus mijn steekproef uitvoeren en ook alleen deze items zal ik inlezen in het programma. Is mijn populatie op basis van bovenstaande tekst dan 7.000 of 4.000? Als ik het zo lees dan zou ik zeggen dat het de 4.000 is, maar ik vind het apart dat ik dat dan nog moet invullen als dat mijn dataset is.

edit: uiteindelijk moet ik wel iets zeggen over die 7.000 en die 4.000 zal ook nog eens in 2 subsets worden ingedeeld waardoor dus 2 aparte steekproeven uitgevoerd zullen worden.
Verily i say unto you; dost thou even hoist, brethren? - Jesus (Psalm 22)
pi_164702440
quote:
0s.gif Op vrijdag 19 augustus 2016 11:45 schreef Maraca het volgende:
Ik wil een attributieve steekproef uitvoeren, maar snap niet helemaal wat ze bedoelen met onderstaande bij het kopje "populatie"

[..]

Stel ik heb een totale populatie van 7.000. Ik wil alleen een steekproef uitvoeren op de items die aan bepaalde kenmerken voldoen. Dus stel dat dit er 4.000 zijn. Op die 4.000 wil ik dus mijn steekproef uitvoeren en ook alleen deze items zal ik inlezen in het programma. Is mijn populatie op basis van bovenstaande tekst dan 7.000 of 4.000? Als ik het zo lees dan zou ik zeggen dat het de 4.000 is, maar ik vind het apart dat ik dat dan nog moet invullen als dat mijn dataset is.

edit: uiteindelijk moet ik wel iets zeggen over die 7.000 en die 4.000 zal ook nog eens in 2 subsets worden ingedeeld waardoor dus 2 aparte steekproeven uitgevoerd zullen worden.
De kern van het antwoord zit hem in de eerste zin van je citaat:

quote:
Dit is het aantal steekproefeenheden in de populatie waaruit de steekproef getrokken is.
Als je dus een steekproef aan het trekken bent en alle 7.000 eenheden doen mee (= zouden kunnen worden geselecteerd voor de steekproef) dan is het aantal steekproefeenheden 7.000.

Als je eerst 4.000 eenheden selecteert op basis van een bepaalde eigenschap, en vervolgens een steekproeftrekking doet waarvoor je alleen gaat trekken uit die 4.000, dan is het aantal steekproefeenheden 4.000.
  zaterdag 20 augustus 2016 @ 10:30:47 #53
100126 Maraca
#cijferfetisjist
pi_164703361
quote:
0s.gif Op zaterdag 20 augustus 2016 09:07 schreef Banktoestel het volgende:

[..]

De kern van het antwoord zit hem in de eerste zin van je citaat:

[..]

Als je dus een steekproef aan het trekken bent en alle 7.000 eenheden doen mee (= zouden kunnen worden geselecteerd voor de steekproef) dan is het aantal steekproefeenheden 7.000.

Als je eerst 4.000 eenheden selecteert op basis van een bepaalde eigenschap, en vervolgens een steekproeftrekking doet waarvoor je alleen gaat trekken uit die 4.000, dan is het aantal steekproefeenheden 4.000.
Thnx! Ik had al zo'n vermoeden maar vond het vreemd dat ik dat nog eens aan moest geven omdat mijn dataset al uit die 4.000 bestaat. Maar goed, het programma zal zijn redenen daar wel voor hebben :P
Verily i say unto you; dost thou even hoist, brethren? - Jesus (Psalm 22)
pi_164794693
quote:
0s.gif Op donderdag 4 augustus 2016 18:18 schreef crossover het volgende:

[..]

Dat is altijd zo als je data in een kruistabel weergeeft.. tenzij je werkt met meerkeuze-antwoorden maar dat is hier volgens mij niet zo.

Die toets waar je het over hebt, om aan te tonen waar verschillen zitten, dat doe je met percentages of het toekennen/laten berekenen van de verwachte celwaarden (op basis van de totalen).
Dus dat is meer face-value zeg maar? Welke categorie het hoogste percentage heeft?
quote:
Wat betreft de onafhankelijkheid van data hebben we hier wat verwarring, omdat jij spreekt van onafhankelijkheid binnen één variabele, maar dat is niet wat er met (on)afhankelijkheid bedoeld wordt.
Dat dacht ik al, dus dat wilde ik even checken. :P
pi_164835635
quote:
0s.gif Op dinsdag 23 augustus 2016 20:19 schreef Operc het volgende:

[..]

Dus dat is meer face-value zeg maar? Welke categorie het hoogste percentage heeft?

Ja, in principe wel :)
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164836374
quote:
0s.gif Op donderdag 25 augustus 2016 09:24 schreef crossover het volgende:

[..]

Ja, in principe wel :)
Bedankt. :) Dan had mijn student het een heel eind goed. :P
pi_164836500
quote:
0s.gif Op donderdag 25 augustus 2016 10:12 schreef Operc het volgende:

[..]

Bedankt. :) Dan had mijn student het een heel eind goed. :P
Misschien ben ik jouw student wel :P
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164836971
quote:
10s.gif Op donderdag 25 augustus 2016 10:21 schreef crossover het volgende:

[..]

Misschien ben ik jouw student wel :P
Dan spreek je opeens bizar goed Nederlands. :P
pi_164878534
quote:
0s.gif Op vrijdag 12 augustus 2016 16:02 schreef Liedje_ het volgende:

[..]

Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).
[ afbeelding ]

"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..

Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?
Doe anders gewoon 7 dummy's van activiteit, waarvan je er eentje uit de regressie laat om multicollineariteit te voorkomen, om zo een niet-lineaire relatie te kunnen blootleggen. Eenvoudigst te interpreteren.
pi_165003007
quote:
0s.gif Op dinsdag 9 augustus 2016 09:43 schreef crossover het volgende:

[..]

Dan zou ik het gemiddelde en de standaarddeviatie gebruiken van de jonge personen.

Als de leeftijd van een oudere proefpersoon hoger is dan [gemiddelde jongere groep + 2*stddev jongere groep] dan zou je kunnen spreken van een relevant verschil. Dat is de meest voor de hand liggende benadering, omdat bij een normale verdeling 5% van de steekproef/populatie boven en beneden 2*de stdev t.o.v. het gemiddelde zit.
Zeg, een histogram van alle 500.000 datapunten van de jonge proefpersonen ziet er zo uit:



In Origin zit een test om te testen of de verdeling normaal is, en dat is ie niet, dus de regel van gemiddelde + 2* stdev gaat hier niet op. Niet erg, want met de verdeling is het een koud kunstje om de verschillende cut-offs te vinden.

p95 = 36.4
p99 = 48.6
p99.9 = 67.8

Als ik de p95 loslaat op een plaatje gemaakt van een oudere proefpersoon, dan kan tegen de 100% (!) van alle datapunten boven die cut-off liggen. Dat is op zich goed nieuws, want dat betekent dat bijna alle datapunten in het plaatje 'suspect' zijn, omdat datapunten met zulke hoge waardes niet voorkomen bij jonge proefpersonen. Wat ik minder vind, is dat het hele plaatje van zo'n oude proefpersoon 'grijs' kleurt na het toepassen van de p95,waardoor je eigenlijk niets meer ziet. Ook vraag ik me af hoe sterk deze analyse is, want 5% van de datapunten die van de jonge groep afkomstig is, liggen ook boven de p95. Zelfs bij de p99 kleurt erg veel grijs. p99.9 lijkt me daarom redelijker.

Mijn volgende vraag is nu wat normaal is om als cut-off te gebruiken. Met mijn engineering-achtergrond gebruik ik het liefst de hoogste waarde (p99.9), want zelfs bij deze cut-off is het overduidelijk dat sommige oudere proefpersonen (de 5 die ik rood had gekleurd) hele andere data hebben dan de jonge proefpersonen. En bij de andere vijf oudere proefpersonen krijg je percentages boven de cut-off die erg lijken op de jonge populatie, dus daar is niets mee aan de hand. Ook prima.

Iets zegt me dat statistici liever het 99e percentiel gebruiken, of zelfs het 95e percentiel. Met die laatste ga je aggressief pixels die misschien niet zo suspect zijn als suspect aangeven, terwijl die bij gebruik van het 99.9e percentiel als cut-off als normaal worden gezien (terwijl ze dat misschien niet zijn). Wat is wijsheid?

[ Bericht 1% gewijzigd door Lyrebird op 02-09-2016 10:39:18 ]
Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson
abonnement Unibet Coolblue Bitvavo
Forum Opties
Forumhop:
Hop naar:
(afkorting, bv 'KLB')