[Centraal Statistiektopic] SPSS, R, excel, etc. #10

woensdag 3 augustus 2016 @ 13:13:46 #2

Operc

Nr. 40

Laatste vraag van het vorige topic:

quote:
Op dinsdag 2 augustus 2016 13:08 schreef Operc het volgende:
Een student hier heeft een analyse gedaan en ik ben even de weg kwijt.

Kort samengevat:

3 soorten schilderijen beoordeeld (tekeningen, houtskool, verfwerken) en vervolgens is een van de variabelen een categorisatie van wat er op het schilderij staat. (fruitmand, voertuig, mens, gebouw). Nu wil de student kijken of wat er op het schilderij staat verschilt per type schilderij. Kun je hier qua Chi-square iets mee? En kun je per soort voorwerp op het schilderij een chi-square doen om te zien of die wezenlijk van elkaar verschillen in hoe vaak ze voorkomen in de drie groepen? Ik heb het idee dat dat lastig is omdat die verschillen niet onafhankelijk zijn, maar misschien zie ik iets over het hoofd.

quote:
Op dinsdag 2 augustus 2016 17:46 schreef crossover het volgende:

[..]

Chi2 kan inderdaad.

Wat je dan ook kan doen is percentages berekenen per rij of kolom (afhankelijk wat waar staat). Dan zie je of het soort voorwerp groter is per groep.
Of: je laat uitrekenen wat de het verwachte aantal is op basis van de totalen en dan zie je of het geobserveerde aantal afwijkt.

quote:
Op woensdag 3 augustus 2016 12:06 schreef Operc het volgende:

[..]

Oke, maar kun je dan daarna ook nog individuele groepen vergelijken (buiten de percentages) via een chi-square of dat niet? (Aangezien de data niet onafhankelijk zijn enzo.) En zou je daarvoor moeten heroveren naar meerdere variabelen met 0 en 1?

donderdag 4 augustus 2016 @ 10:03:13 #3

crossover

quote:
Op woensdag 3 augustus 2016 13:13 schreef Operc het volgende:
Laatste vraag van het vorige topic:

[..]

[..]

[..]

Als de data niet ofafhankelijk zijn zou ik me sowieso afvragen wat voor zin het heeft om er een dergelijke analyse op los te laten. Dan zal je dit ook terugzien in je toets.

De assumptie in de regel bij statistische toetsen is dat de variabelen onafhankelijk zijn. Dat is wat je toetst. ^{(Bij de frequentistische benadering in ieder geval, en er zijn vast nog wel meer uitzonderingen).}

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

donderdag 4 augustus 2016 @ 10:15:50 #4

Ik hanteer soms de regel "zo onafhankelijk mogelijk".

Aldus.

donderdag 4 augustus 2016 @ 14:09:38 #5

ZuidGrens

VI Hooligans

Iemand hier tips om je voor te bereiden op de lessen statistiek van een Premaster als Sociology / Organization Studies / Human Resource Studies? Dus bijvoorbeeld een boek dat begint bij de basis voor iemand die eerst mbo en toen hbo gedaan heeft en dus totaal geen ervaring met statistiek maar toch een beetje voorkennis op wil doen.

donderdag 4 augustus 2016 @ 14:17:02 #6

crossover

quote:
Op donderdag 4 augustus 2016 14:09 schreef ZuidGrens het volgende:
Iemand hier tips om je voor te bereiden op de lessen statistiek van een Premaster als Sociology / Organization Studies / Human Resource Studies? Dus bijvoorbeeld een boek dat begint bij de basis voor iemand die eerst mbo en toen hbo gedaan heeft en dus totaal geen ervaring met statistiek maar toch een beetje voorkennis op wil doen.

Dan zou ik een boek als Statistiek in woorden aanschaffen. Daarin worden de veel gebruikte begrippen heel helder uitgelegd met simpele voorbeelden. Dat helpt denk ik enorm voor en universitaire studie want dan kan je toch wat makkelijker mee komen met de stof.

Als je interesse hebt dan mag je mijn exemplaar wel overnemen

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

donderdag 4 augustus 2016 @ 15:19:57 #7

Operc

Nr. 40

quote:
Op donderdag 4 augustus 2016 10:03 schreef crossover het volgende:

[..]

Als de data niet ofafhankelijk zijn zou ik me sowieso afvragen wat voor zin het heeft om er een dergelijke analyse op los te laten. Dan zal je dit ook terugzien in je toets.

De assumptie in de regel bij statistische toetsen is dat de variabelen onafhankelijk zijn. Dat is wat je toetst. ^{(Bij de frequentistische benadering in ieder geval, en er zijn vast nog wel meer uitzonderingen).}

Voorbeeldje qua data:

1
2
3
4

          Tekening houtskool verf
Voertuig  20       40        20
Mens      40       20        20
Gebouw    20       20        40

Stel de chi-square is significant, kan mijn student daarna nog een test doen om aan te tonen dat voertuig bij houtskool vaker voorkomen en mens bij tekening etc? Want als er op houtskool meer voertuigen staan, zorgt dat er automatisch voor dat op die werken geen mensen of gebouwen staan. (En dus lijkt me de data niet onafhankelijk, maar misschien zie ik het fout.)

donderdag 4 augustus 2016 @ 18:18:42 #8

crossover

quote:
Op donderdag 4 augustus 2016 15:19 schreef Operc het volgende:

[..]

Voorbeeldje qua data:
[ code verwijderd ]

Stel de chi-square is significant, kan mijn student daarna nog een test doen om aan te tonen dat voertuig bij houtskool vaker voorkomen en mens bij tekening etc? Want als er op houtskool meer voertuigen staan, zorgt dat er automatisch voor dat op die werken geen mensen of gebouwen staan. (En dus lijkt me de data niet onafhankelijk, maar misschien zie ik het fout.)

Dat is altijd zo als je data in een kruistabel weergeeft.. tenzij je werkt met meerkeuze-antwoorden maar dat is hier volgens mij niet zo.

Die toets waar je het over hebt, om aan te tonen waar verschillen zitten, dat doe je met percentages of het toekennen/laten berekenen van de verwachte celwaarden (op basis van de totalen).

Wat betreft de onafhankelijkheid van data hebben we hier wat verwarring, omdat jij spreekt van onafhankelijkheid binnen één variabele, maar dat is niet wat er met (on)afhankelijkheid bedoeld wordt.

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

dinsdag 9 augustus 2016 @ 09:14:04 #9

Lyrebird

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

age    mean     stdv
23    20.44    11.2
23    20.65    9.18
23    14.24    7.18
23    16.09    7.61
24    21.32    11.94
24    18.04    9.16
25    18.87    10.12
25    20.43    10.15
25    20.39    10.15
25    14.9    6.7
--    --    --
54    22.95    11.02
55    17.96    9.42
59    42.5    24.38
59    63.67    28.56
60    22.33    11.86
61    38.19    20.09
63    85.37    40.76
63    36.9    20.88
65    17.41    10
65    24.77    13

Als het om statistiek gaat, dan kom ik niet veel verder dan een gemiddeld en een standaarddeviatie. Ik gebruik het spul tot nu toe te weinig om me er echt in te verdiepen (alhoewel dat wel eens rap kan veranderen binnenkort, maar dat terzijde).

In de bovenstaande tabel staan de meetgegevens van een bepaalde variabele van 10 jonge proefpersonen, die vanwege hun leeftijd geen last kunnen hebben van een niet-nader-te-noemen ouderdomsziekte. We hebben een gemiddelde waarde per proefpersoon gemeten, en een standaarddeviatie.

Daarnaast hebben we ook tien oudere proefpersonen doorgemeten.

Beetje uit de losse pols zijn de proefpersonen die een rood stipje hebben, "suspect".

Welke oudere proefpersonen vallen buiten de range die als "normaal" bestempeld kan worden, gebaseerd op de meetgegevens van de jonge proefpersonen? Welke methode moet ik gebruiken om dat aan te tonen?

Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson

dinsdag 9 augustus 2016 @ 09:20:21 #10

ssebass

Misschien heb je hier wat aan:

"Happiness is not getting more, but wanting less"

dinsdag 9 augustus 2016 @ 09:43:40 #11

crossover

quote:
Op dinsdag 9 augustus 2016 09:14 schreef Lyrebird het volgende:

[ code verwijderd ]

Als het om statistiek gaat, dan kom ik niet veel verder dan een gemiddeld en een standaarddeviatie. Ik gebruik het spul tot nu toe te weinig om me er echt in te verdiepen (alhoewel dat wel eens rap kan veranderen binnenkort, maar dat terzijde).

In de bovenstaande tabel staan de meetgegevens van een bepaalde variabele van 10 jonge proefpersonen, die vanwege hun leeftijd geen last kunnen hebben van een niet-nader-te-noemen ouderdomsziekte. We hebben een gemiddelde waarde per proefpersoon gemeten, en een standaarddeviatie.

Daarnaast hebben we ook tien oudere proefpersonen doorgemeten.

Beetje uit de losse pols zijn de proefpersonen die een rood stipje hebben, "suspect".

[ afbeelding ]

Welke oudere proefpersonen vallen buiten de range die als "normaal" bestempeld kan worden, gebaseerd op de meetgegevens van de jonge proefpersonen? Welke methode moet ik gebruiken om dat aan te tonen?

Dan zou ik het gemiddelde en de standaarddeviatie gebruiken van de jonge personen.

Als de leeftijd van een oudere proefpersoon hoger is dan [gemiddelde jongere groep + 2*stddev jongere groep] dan zou je kunnen spreken van een relevant verschil. Dat is de meest voor de hand liggende benadering, omdat bij een normale verdeling 5% van de steekproef/populatie boven en beneden 2*de stdev t.o.v. het gemiddelde zit.

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

dinsdag 9 augustus 2016 @ 10:46:42 #12

Kaas-

Ik heb een praktische vraag over hoe iets in SPSS werkt. Ik wil meerdere datasets samenvoegen tot één dataset en weet niet hoe dat werkt en vraag me af of iemand daarbij kan helpen.

Beschrijving van mijn data:
• Ik heb 30 datasets/databestanden (steeds een soortgelijke dataset over de jaren 1981, 1982, ... , 2010).
• Per dataset zijn er duizenden entries. Het is een jaarlijkse survey en per entry heb je dan gegevens als leeftijd, geslacht, opleiding etc. etc.

Beschrijving van wat ik ermee wil.
• Uit elke dataset zijn er van de ca. 100 variabelen slechts 6 die ik wil gebruiken.
• Ik wil één grote dataset creëren waarin voor al die 30 jaar, uit al die 30 datasets, alle entries samenkomen voor de variabelen die ik wil bekijken.
• Omdat ik dan een tijdreeksanalyse ga doen is het nodig dat in de nieuwe dataset ook per entrie wordt aangegeven uit welk jaar (1981, 1982 etc.) die komt. Het jaartal staat er nu nog niet in, aangezien elke dataset gewoon het jaartal als titel heeft.

Voorbeeld om het te verduidelijken:
• Ik heb nu dertig datasets waarin telkens in opeenvolgende jaren aan duizend (telkens verschillende) mensen wordt gevraagd wat hun leeftijd, geslacht, opleiding etc. is. Ik wil die samenvoegen tot één dataset waar ze allemaal in staan, en dan met als extra variabele het jaartal waaruit die dataset komt. Dit zodat ik kan onderzoeken of er in die dertig jaar een trend kan worden waargenomen in de relatie tussen enkele van die variabelen.

Hoe doe ik het dit? Alle advies is welkom.

dinsdag 9 augustus 2016 @ 10:55:47 #13

Operc

Nr. 40

quote:
Op dinsdag 9 augustus 2016 10:46 schreef Kaas- het volgende:
Ik heb een praktische vraag over hoe iets in SPSS werkt. Ik wil meerdere datasets samenvoegen tot één dataset en weet niet hoe dat werkt en vraag me af of iemand daarbij kan helpen.

Beschrijving van mijn data:
• Ik heb 30 datasets/databestanden (steeds een soortgelijke dataset over de jaren 1981, 1982, ... , 2010).
• Per dataset zijn er duizenden entries. Het is een jaarlijkse survey en per entry heb je dan gegevens als leeftijd, geslacht, opleiding etc. etc.

Beschrijving van wat ik ermee wil.
• Uit elke dataset zijn er van de ca. 100 variabelen slechts 6 die ik wil gebruiken.
• Ik wil één grote dataset creëren waarin voor al die 30 jaar, uit al die 30 datasets, alle entries samenkomen voor de variabelen die ik wil bekijken.
• Omdat ik dan een tijdreeksanalyse ga doen is het nodig dat in de nieuwe dataset ook per entrie wordt aangegeven uit welk jaar (1981, 1982 etc.) die komt. Het jaartal staat er nu nog niet in, aangezien elke dataset gewoon het jaartal als titel heeft.

Voorbeeld om het te verduidelijken:
• Ik heb nu dertig datasets waarin telkens in opeenvolgende jaren aan duizend (telkens verschillende) mensen wordt gevraagd wat hun leeftijd, geslacht, opleiding etc. is. Ik wil die samenvoegen tot één dataset waar ze allemaal in staan, en dan met als extra variabele het jaartal waaruit die dataset komt. Dit zodat ik kan onderzoeken of er in die dertig jaar een trend kan worden waargenomen in de relatie tussen enkele van die variabelen.

Hoe doe ik het dit? Alle advies is welkom.

Ik heb SPSS even niet bij de hand dus ik kan het niet opzoeken, maar ergens onder data of iets dergelijks staat iets van merge data(sets) ofzo? Daar kun je dat doen.

En dan kun je kiezen welke variabelen over moeten blijven en welke niet enzo. Ik weet niet of je daar een variabele kunt toevoegen die stelt uit welke dataset je data komt (die 'jaar' variabele), maar anders kun je dat altijd nog in elke dataset doen (kost wel meer werk.

) Dan voeg je gewoon een variabele toe met Jaar en trek je die door voor alle cases. (Of via compute variable en dan gewoon alleen het getal invoeren.)

dinsdag 9 augustus 2016 @ 11:02:35 #14

Kaas-

quote:
Op dinsdag 9 augustus 2016 10:55 schreef Operc het volgende:

[..]

Ik heb SPSS even niet bij de hand dus ik kan het niet opzoeken, maar ergens onder data of iets dergelijks staat iets van merge data(sets) ofzo? Daar kun je dat doen. En dan kun je kiezen welke variabelen over moeten blijven en welke niet enzo. Ik weet niet of je daar een variabele kunt toevoegen die stelt uit welke dataset je data komt (die 'jaar' variabele), maar anders kun je dat altijd nog in elke dataset doen (kost wel meer werk. ) Dan voeg je gewoon een variabele toe met Jaar en trek je die door voor alle cases. (Of via compute variable en dan gewoon alleen het getal invoeren.)

Ik ga dit zo even proberen. In ieder geval bedankt voor de suggestie kerel.

dinsdag 9 augustus 2016 @ 11:11:21 #15

Lyrebird

quote:
Op dinsdag 9 augustus 2016 09:20 schreef ssebass het volgende:
Misschien heb je hier wat aan:

[ afbeelding ]

Ja, dat is wel handig.

Eens kijken, ik heb een variabele, en de vraag is of ik meer dan een populatie heb? De variances zijn niet homogeen?

Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson

dinsdag 9 augustus 2016 @ 11:14:35 #16

Lyrebird

quote:
Op dinsdag 9 augustus 2016 09:43 schreef crossover het volgende:

[..]

Dan zou ik het gemiddelde en de standaarddeviatie gebruiken van de jonge personen.

Als de leeftijd van een oudere proefpersoon hoger is dan [gemiddelde jongere groep + 2*stddev jongere groep] dan zou je kunnen spreken van een relevant verschil. Dat is de meest voor de hand liggende benadering, omdat bij een normale verdeling 5% van de steekproef/populatie boven en beneden 2*de stdev t.o.v. het gemiddelde zit.

Alle resultaten van de jonge p.p. op een hoop gooien, mean + stddev berekenen, en dan kijken of het gemiddelde van de jongere groep + 2 x stddev kleiner is dan een individuele oudere?

Of toch een statistische test met een moeilijk woord?

Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson

dinsdag 9 augustus 2016 @ 11:28:37 #17

Operc

Nr. 40

quote:
Op dinsdag 9 augustus 2016 11:14 schreef Lyrebird het volgende:

[..]

Alle resultaten van de jonge p.p. op een hoop gooien, mean + stddev berekenen, en dan kijken of het gemiddelde van de jongere groep + 2 x stddev kleiner is dan een individuele oudere?

Of toch een statistische test met een moeilijk woord?

Ik zou doen wat crossover zegt. Normale statistische toetsen gaan op groepsniveau. Dus als je bijvoorbeeld wilt testen of ouderen gemiddeld hoger scoren dan jongeren, dan zou je een t-toets doen. (En dan volg je het schema van ssebass). Maar omdat jij een individuele score wilt vergelijken met een groep, zou ik zoals crossover zegt het gemiddelde en de standaarddeviatie van de groep jongeren gebruiken.

dinsdag 9 augustus 2016 @ 11:37:39 #18

Lyrebird

Het concept is me nu duidelijk. Hoe zit het met de specifieke invulling? Moet ik het gemiddelde van alle jongeren berekenen, en dan de standaard deviatie van de gemiddelden gebruiken?

Of moeten alle metingen van de jongeren (iedere pp. heeft 50.000 metingen, waaruit een gemiddelde en stddev bepaald worden) op een hoop worden gegooid, om daar dan het gemiddelde en stddev van te bepalen?

Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson

dinsdag 9 augustus 2016 @ 12:01:19 #19

crossover

quote:
Op dinsdag 9 augustus 2016 11:37 schreef Lyrebird het volgende:
Het concept is me nu duidelijk. Hoe zit het met de specifieke invulling? Moet ik het gemiddelde van alle jongeren berekenen, en dan de standaard deviatie van de gemiddelden gebruiken?

Of moeten alle metingen van de jongeren (iedere pp. heeft 50.000 metingen, waaruit een gemiddelde en stddev bepaald worden) op een hoop worden gegooid, om daar dan het gemiddelde en stddev van te bepalen?

Je zou het inderdaad ook kunnen toetsen. In Stata kan dat met commanto -ttesti. Dan voer je het aantal observaties in, de mean en stddev en de waarde waarvan je wil kijken of het significant afwijkt t.o.v. de steekproef. In SPSS heb ik het ook wel eens gezien. Statistisch gezien stelt het niet zo veel voor, alleen is het probleem dat bij zulke grote aantallen een verschil van een honderdste al statistisch significant is (zie onder, heb het even voor je ingevoerd). Het gaat om 10*50.000 observaties. Dus je zal er misschien een andere toets op los moeten laten (of een minimaal klinisch relevant verschil berekenen).

https://www.dropbox.com/s/tvw6r10vse7sw51/Knipsel5.PNG?dl=0

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

dinsdag 9 augustus 2016 @ 12:12:01 #20

crossover

quote:
Op dinsdag 9 augustus 2016 11:37 schreef Lyrebird het volgende:
Het concept is me nu duidelijk. Hoe zit het met de specifieke invulling? Moet ik het gemiddelde van alle jongeren berekenen, en dan de standaard deviatie van de gemiddelden gebruiken?

Of moeten alle metingen van de jongeren (iedere pp. heeft 50.000 metingen, waaruit een gemiddelde en stddev bepaald worden) op een hoop worden gegooid, om daar dan het gemiddelde en stddev van te bepalen?

Ja, maar je krijgt dan maar één gemiddelde en één stddev. Dus je gooit alles op een hoop (van de jongeren) en die (geaggregeerde) gegevens gebruik je om de individuele waarde van de oudere groep mee te vergeijken.

Mijn advies, houd het simpel

Ik heb me voor een thesis verdiept in het minimaal klinisch relevant verschil en minimaal detecteerbaar verschil, er zijn enorm veel verschillende termen en varianten.

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

dinsdag 9 augustus 2016 @ 15:38:20 #21

Kaas-

quote:
Op dinsdag 9 augustus 2016 10:55 schreef Operc het volgende:

[..]

Ik heb SPSS even niet bij de hand dus ik kan het niet opzoeken, maar ergens onder data of iets dergelijks staat iets van merge data(sets) ofzo? Daar kun je dat doen. En dan kun je kiezen welke variabelen over moeten blijven en welke niet enzo. Ik weet niet of je daar een variabele kunt toevoegen die stelt uit welke dataset je data komt (die 'jaar' variabele), maar anders kun je dat altijd nog in elke dataset doen (kost wel meer werk. ) Dan voeg je gewoon een variabele toe met Jaar en trek je die door voor alle cases. (Of via compute variable en dan gewoon alleen het getal invoeren.)

Het mergen lukt, bedankt.

Een variabele ("jaar") toevoegen ook wel. Maar is er geen snelle manier om daaronder alle waardes van de variabele "jaar" gelijk te zetten aan bijvoorbeeld "1980"? Niet alleen vind ik niet hoe je het kan 'slepen', het zou ook veel te lang duren omdat er ongeveer 30.000 respondenten per survey zijn, dus bijna een miljoen in de dataset die ik ambieer.

dinsdag 9 augustus 2016 @ 15:50:47 #22

Operc

Nr. 40

quote:
Op dinsdag 9 augustus 2016 15:38 schreef Kaas- het volgende:

[..]

Het mergen lukt, bedankt.

Een variabele ("jaar") toevoegen ook wel. Maar is er geen snelle manier om daaronder alle waardes van de variabele "jaar" gelijk te zetten aan bijvoorbeeld "1980"? Niet alleen vind ik niet hoe je het kan 'slepen', het zou ook veel te lang duren omdat er ongeveer 30.000 respondenten per survey zijn, dus bijna een miljoen in de dataset die ik ambieer.

Kun je niet compute variable doen? En dan in plaats van vervolgens te rekenen met variabelen, gewoon 1980 daar neer zetten? (Dit zou je dan wel per dataset moeten doen, niet heel praktisch, maar makkelijker dan 30.000 keer invullen.)

Edit, dat werkt, zo dus bijvoorbeeld:

1 2	COMPUTE Jaar=1980. EXECUTE.

Doe dat in syntax (of via Transform -> compute variable) en dan maakt SPSS een variabele aan genaamd Jaar met de waarde 1980 voor alle rijen waar data in staan.

dinsdag 9 augustus 2016 @ 16:05:21 #23

Kaas-

Thanks Operc.

Maar ik begin wel aardig te stressen, omdat ik zie dat dat mergen niet goed werkt. Er ontbreekt dan plotseling echt een hoop in plaats van dat alle entries van de mergende bestanden in het nieuwe bestand staan.

dinsdag 9 augustus 2016 @ 16:06:59 #24

nonamnietje

Hallo,
Ik heb enkele brandende vragen.
Voor mijn afstudeerthesis doe ik een onderzoek. Hierbij maak ik gebruik van een experiment met drie condities en een controle conditie. Na dit experiment heb ik nog enkele vragen die verschillende variabelen testen. De vragen bestaan uit verschillende items die zijn gemeten via een 7 punt likert schaal. Deze variabelen heb ik door middel van verschillende vragen naar evaluatie en het gewicht dat aan elke referentiegroep wordt toegekend per variabele onderzocht. Om de variabele te berekenen heb ik via compute de evaluatie vermenigvuldigd met het gewicht en deze allemaal bij elkaar opgeteld.

Nu ben ik aan het analyseren met een multivariate regressie en krijg ik hele grote getallen door deze sommaties waar ik uiteindelijk niets zinnigs over kan zeggen.
Ik heb de schaalscores aangepast door gemiddelde te nemen maar nu zou ik deze scores graag gewoon van 1 tot 7 zien zoals de likert schaal.
En verder nog de vraag of het slimmer is om deze regressie per conditie apart te analyseren.
Alvast super bedankt!

[ Bericht 9% gewijzigd door nonamnietje op 09-08-2016 17:20:14 ]

dinsdag 9 augustus 2016 @ 16:31:33 #25

Operc

Nr. 40

quote:
Op dinsdag 9 augustus 2016 16:05 schreef Kaas- het volgende:
Thanks Operc.

Maar ik begin wel aardig te stressen, omdat ik zie dat dat mergen niet goed werkt. Er ontbreekt dan plotseling echt een hoop in plaats van dat alle entries van de mergende bestanden in het nieuwe bestand staan.

Wat lastig om vanaf hier te zien wat er fout gaat natuurlijk.

Maar zijn de variabelen die je wil mergen allemaal in dezelfde stijl? (dus niet 1,00 en 1.00, of scale vs ordinal vs nominal) Kun je zien of er een specifiek type variabele is dat niet goed werkt?

dinsdag 9 augustus 2016 @ 17:52:38 #26

Kaas-

quote:
Op dinsdag 9 augustus 2016 16:31 schreef Operc het volgende:

[..]

Wat lastig om vanaf hier te zien wat er fout gaat natuurlijk. Maar zijn de variabelen die je wil mergen allemaal in dezelfde stijl? (dus niet 1,00 en 1.00, of scale vs ordinal vs nominal) Kun je zien of er een specifiek type variabele is dat niet goed werkt?

Even prutsen...

dinsdag 9 augustus 2016 @ 21:16:38 #27

Bij de merge kan je aangeven welke van de twee files dominant is (key tabled ofzo). Kies je de verkeerde dan kan je cases kwijtraken. Een miljoen cases, succes daarmee, dat is niet per se een sterke kant van SPSS.

Aldus.

dinsdag 9 augustus 2016 @ 21:25:39 #28

Kaas-

quote:
Op dinsdag 9 augustus 2016 21:16 schreef Z het volgende:
Bij de merge kan je aangeven welke van de twee files dominant is (key tabled ofzo). Kies je de verkeerde dan kan je cases kwijtraken. Een miljoen cases, succes daarmee, dat is niet per se een sterke kant van SPSS.

Het zijn bij elkaar opgeteld een miljoen entries voor ongeveer duizend variabelen. Als er dan iets misgaat heb ik het pas na enkele uren werk door, wanneer er rare resultaten uitkomen.

woensdag 10 augustus 2016 @ 13:50:34 #29

Kaas-

- verwijderd -

ik ben er al uit

[ Bericht 26% gewijzigd door Kaas- op 10-08-2016 14:02:40 ]

woensdag 10 augustus 2016 @ 20:06:47 #30

Liedje_

Hoi allemaal,

SPSS vraag: ik heb een lineaire regressie gemaakt met afhankelijke variabele kwaliteit van leven. Hier heb ik verschillende onafhankelijke variabelen voor:
- leeftijd (met gemiddelde leeftijd),
- geslacht (0 = nee; 1 = ja)
- employment (0 = geen werk; 1 = wel werk)
- roken (0=nee; 1=ja)
- opleidingsniveau (0=laag; 1= hoog)
- huwelijkse status (0=single, 1 = gehuwd/samenwonend)
- physical activity, met hoeveel dagen per week actief (0 = 0 dagen actief, 1 = 1 dag per week actief; 2=2 dagen per week actief; 3 = 3 dagen per week actief)

en om deze laatste gaat het nu. die andere snap ik, hoe ik deze moet invullen. Maar hoe vul ik physical activity in? Ik heb de resultaten uit spss in excel gezet en een screenshot toegevoegd in dit bericht: de rode vraagtekens weet ik dus niet..
Zet ik in C7 dan 0? of ook -0.091? en C8? en E7 en E8?

CphE53fWgAA_yIv.jpg:large

Never assume, because then you make an ass out of u and me.

woensdag 10 augustus 2016 @ 21:10:19 #31

PluisigNijntje

Ik denk dat je variabele geslacht niet helemaal klopt

Nomnomnomnomnomnomnomnomnomnom

woensdag 10 augustus 2016 @ 21:48:13 #32

#ANONIEM

quote:
Op woensdag 10 augustus 2016 20:06 schreef Liedje_ het volgende:
Hoi allemaal,

SPSS vraag: ik heb een lineaire regressie gemaakt met afhankelijke variabele kwaliteit van leven. Hier heb ik verschillende onafhankelijke variabelen voor:
- leeftijd (met gemiddelde leeftijd),
- geslacht (0 = nee; 1 = ja)
- employment (0 = geen werk; 1 = wel werk)
- roken (0=nee; 1=ja)
- opleidingsniveau (0=laag; 1= hoog)
- huwelijkse status (0=single, 1 = gehuwd/samenwonend)
- physical activity, met hoeveel dagen per week actief (0 = 0 dagen actief, 1 = 1 dag per week actief; 2=2 dagen per week actief; 3 = 3 dagen per week actief)

en om deze laatste gaat het nu. die andere snap ik, hoe ik deze moet invullen. Maar hoe vul ik physical activity in? Ik heb de resultaten uit spss in excel gezet en een screenshot toegevoegd in dit bericht: de rode vraagtekens weet ik dus niet..
Zet ik in C7 dan 0? of ook -0.091? en C8? en E7 en E8?

[ afbeelding ]

Zoals je het nu doet doe je het fout. Je moet werken met dummies. Kijk maar eens in het boek van Field.

woensdag 10 augustus 2016 @ 21:49:40 #33

#ANONIEM

Zo dus:

1 Count the number of groups you want to recode and subtract 1.
2 Create as many new variables as the value you calculated in step 1. These are your
dummy variables.
3 Choose one of your groups as a baseline (i.e. a group against which all other groups
should be compared). This should usually be a control group, or, if you don’t have
a specific hypothesis, it should be the group that represents the majority of people
(because it might be interesting to compare other groups against the majority).
4 Having chosen a baseline group, assign that group values of 0 for all of your dummy
variables.
5 For your first dummy variable, assign the value 1 to the first group that you want to
compare against the baseline group. Assign all other groups 0 for this variable.
6 For the second dummy variable assign the value 1 to the second group that you want
to compare against the baseline group. Assign all other groups 0 for this variable.
7 Repeat this until you run out of dummy variables.
8 Place all of your dummy variables into the regression analysis!

donderdag 11 augustus 2016 @ 10:05:40 #34

crossover

quote:
Op woensdag 10 augustus 2016 21:10 schreef PluisigNijntje het volgende:
Ik denk dat je variabele geslacht niet helemaal klopt

Inderdaad, het handigste vind ik altijd om de variabele 'man' of 'vrouw' te noemen, zodat je weet wat 1 betekent.

quote:
Op woensdag 10 augustus 2016 21:48 schreef MCH het volgende:

[..]

Zoals je het nu doet doe je het fout. Je moet werken met dummies. Kijk maar eens in het boek van Field.

Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

donderdag 11 augustus 2016 @ 10:06:49 #35

crossover

quote:
Op woensdag 10 augustus 2016 20:06 schreef Liedje_ het volgende:
Hoi allemaal,

SPSS vraag: ik heb een lineaire regressie gemaakt met afhankelijke variabele kwaliteit van leven. Hier heb ik verschillende onafhankelijke variabelen voor:
- leeftijd (met gemiddelde leeftijd),
- geslacht (0 = nee; 1 = ja)
- employment (0 = geen werk; 1 = wel werk)
- roken (0=nee; 1=ja)
- opleidingsniveau (0=laag; 1= hoog)
- huwelijkse status (0=single, 1 = gehuwd/samenwonend)
- physical activity, met hoeveel dagen per week actief (0 = 0 dagen actief, 1 = 1 dag per week actief; 2=2 dagen per week actief; 3 = 3 dagen per week actief)

en om deze laatste gaat het nu. die andere snap ik, hoe ik deze moet invullen. Maar hoe vul ik physical activity in? Ik heb de resultaten uit spss in excel gezet en een screenshot toegevoegd in dit bericht: de rode vraagtekens weet ik dus niet..
Zet ik in C7 dan 0? of ook -0.091? en C8? en E7 en E8?

[ afbeelding ]

Ik snap die tabel niet. De rijen staan ook niet gelijk, waarom staat Physical activity 0 days achter de intercept? Daar hoort niets te staan.

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

donderdag 11 augustus 2016 @ 15:55:09 #36

Lyrebird

quote:
Op dinsdag 9 augustus 2016 12:12 schreef crossover het volgende:

[..]

Ja, maar je krijgt dan maar één gemiddelde en één stddev. Dus je gooit alles op een hoop (van de jongeren) en die (geaggregeerde) gegevens gebruik je om de individuele waarde van de oudere groep mee te vergeijken.

Mijn advies, houd het simpel

Ik heb me voor een thesis verdiept in het minimaal klinisch relevant verschil en minimaal detecteerbaar verschil, er zijn enorm veel verschillende termen en varianten.

Ik heb er nog eens goed over nagedacht.

Dit is mijn plan van aanpak: van de tien jonge proefpersonen worden alle pixelwaarden gebruikt om een gemiddelde en standaard deviatie te berekenen. Met mean + 2*stddev wordt dan de grens bepaald van pixelwaarden die verdacht zijn.

In de plaatjes van de oudere proefpersonen wordt die grens dan gebruikt om pixels te isoleren die verdacht zijn. Die kunnen dan gehighlight worden, om de arts te wijzen op gebieden die verdacht zijn.

Kan dan ook nog per oudere proefpersoon een histogram maken, om te bepalen welke fractie van de pixels verdacht is. Bij de proefpersoon uit het plaatje met een gemiddelde van rond de 90 zou dat best wel eens om meer dan 50% van de pixels kunnen gaan. Klinische waarde van zo'n histogram? Geen idee - dat zal de praktijk moeten uitwijzen.

Bedankt!

Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson

donderdag 11 augustus 2016 @ 20:50:38 #37

Liedje_

quote:
Op donderdag 11 augustus 2016 10:05 schreef crossover het volgende:

[..]

Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.

Allereerst:
Bedankt voor de reacties!!

Over dit punt, dat wil ik inderdaad graag, dus in 1 keer erin. Ik moet ook toegeven dat ik nu de verkorte versie heb gegeven, maar de variabele bestaat idd van 0 tot 7 (dagen per week).
Maar ik snap niet wat de coefficienten van de verschillende values zijn.
Voor 0, is de coefficient 0 (Als beginpunt/vergelijkingspunt).
Voor 1 is de coefficient 0.091 (uit SPSS gehaald) - er staat in de tabel (-0.091) maar dit is verkeerd door mij opgeschreven! het is 0.091.

Het verschil tussen iemand met 0 dagen actief en 1 dag per week actief is 0.091 (dus kwaliteit van leven is dan 0.091 hoger voor iemand die 1 dag actief is ten opzichte van iemand die 0 dagen actief is, alle covarieten gelijk gelaten.

Maar welke coefficienten gebruik ik voor 2, 3, 4, 5, 6 en 7 dagen per week actief zijn?
Is het dan:
2*0.091
3*0.091
tot en met 7*0.091?

Never assume, because then you make an ass out of u and me.

vrijdag 12 augustus 2016 @ 03:22:25 #38

Plausibel

Écht waar!

quote:
Op dinsdag 9 augustus 2016 16:05 schreef Kaas- het volgende:
Thanks Operc.

Maar ik begin wel aardig te stressen, omdat ik zie dat dat mergen niet goed werkt. Er ontbreekt dan plotseling echt een hoop in plaats van dat alle entries van de mergende bestanden in het nieuwe bestand staan.

Niet gaan stressen, SPSS kan stress ruiken en misbruikt dat.
Heb je wel de goede manier van mergen te pakken?
Kijk anders hier even: http://www.ats.ucla.edu/stat/spss/modules/merge.htm

Regenboog, regenboog
gelukkig ben je krom,
anders heette je regenstreep,
en dat klinkt toch wel zo stom

vrijdag 12 augustus 2016 @ 11:21:26 #39

#ANONIEM

quote:
Op donderdag 11 augustus 2016 20:50 schreef Liedje_ het volgende:

[..]

Allereerst:
Bedankt voor de reacties!!

Over dit punt, dat wil ik inderdaad graag, dus in 1 keer erin. Ik moet ook toegeven dat ik nu de verkorte versie heb gegeven, maar de variabele bestaat idd van 0 tot 7 (dagen per week).
Maar ik snap niet wat de coefficienten van de verschillende values zijn.
Voor 0, is de coefficient 0 (Als beginpunt/vergelijkingspunt).
Voor 1 is de coefficient 0.091 (uit SPSS gehaald) - er staat in de tabel (-0.091) maar dit is verkeerd door mij opgeschreven! het is 0.091.

Het verschil tussen iemand met 0 dagen actief en 1 dag per week actief is 0.091 (dus kwaliteit van leven is dan 0.091 hoger voor iemand die 1 dag actief is ten opzichte van iemand die 0 dagen actief is, alle covarieten gelijk gelaten.

Maar welke coefficienten gebruik ik voor 2, 3, 4, 5, 6 en 7 dagen per week actief zijn?
Is het dan:
2*0.091
3*0.091
tot en met 7*0.091?

Waarom zou je dat willen uitleggen? Vermeld gewoon dat het significant is of niet icm met de eventuele coëfficiënt.

[ Bericht 0% gewijzigd door #ANONIEM op 12-08-2016 11:24:26 ]

vrijdag 12 augustus 2016 @ 11:22:24 #40

#ANONIEM

quote:
Op donderdag 11 augustus 2016 10:05 schreef crossover het volgende:

[..]

Inderdaad, het handigste vind ik altijd om de variabele 'man' of 'vrouw' te noemen, zodat je weet wat 1 betekent.

[..]

Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.

Dat klopt, als de vraagsteller ook wat vollediger was geweest had ik natuurlijk deze oplossing niet aangedragen.

[ Bericht 0% gewijzigd door #ANONIEM op 12-08-2016 11:25:46 ]

vrijdag 12 augustus 2016 @ 15:32:44 #41

Liedje_

quote:
Op vrijdag 12 augustus 2016 11:21 schreef MCH het volgende:

[..]

Waarom zou je dat willen uitleggen? Vermeld gewoon dat het significant is of niet icm met de eventuele coëfficiënt.

Nee ik wil het gewoon graag beter begrijpen wat er nu staat. Want als ik het goed begrijp, kan ik bijvoorbeeld voor geslacht zeggen:
als alle andere variabelen gelijk blijven, varieert voor man en vrouw kwaliteit van leven met 0.061 units. Zou kwaliteit van leven voor een vrouw 0.70 zijn, dan voor een man 0.649.

Maar ik snap gewoon niet hoe ik dit voor fysiek actief zijn omschrijf.
Kwaliteit van leven verschilt bij 0 of 1 dag fysiek actief met 0.091, dus zou kwaliteit van leven 0.70 zijn voor 0 dagen actief, dan 0.791 voor 1 dag fysiek actief. Maar ik snap gewoon niet wat ik zou zeggen voor bijvoorbeeld 2 dagen fysiek actief?

quote:
Op vrijdag 12 augustus 2016 11:22 schreef MCH het volgende:

[..]

Dat klopt, als de vraagsteller ook wat vollediger was geweest had ik natuurlijk deze oplossing niet aangedragen.

Sorry! Was niet handig van me..

Never assume, because then you make an ass out of u and me.

vrijdag 12 augustus 2016 @ 15:34:50 #42

#ANONIEM

quote:
Op vrijdag 12 augustus 2016 15:32 schreef Liedje_ het volgende:

[..]

Nee ik wil het gewoon graag beter begrijpen wat er nu staat. Want als ik het goed begrijp, kan ik bijvoorbeeld voor geslacht zeggen:
als alle andere variabelen gelijk blijven, varieert voor man en vrouw kwaliteit van leven met 0.061 units. Zou kwaliteit van leven voor een vrouw 0.70 zijn, dan voor een man 0.649.

Maar ik snap gewoon niet hoe ik dit voor fysiek actief zijn omschrijf.
Kwaliteit van leven verschilt bij 0 of 1 dag fysiek actief met 0.091, dus zou kwaliteit van leven 0.70 zijn voor 0 dagen actief, dan 0.791 voor 1 dag fysiek actief. Maar ik snap gewoon niet wat ik zou zeggen voor bijvoorbeeld 2 dagen fysiek actief?

[..]

Sorry! Was niet handig van me..

Zijn ze uberhaupt significant?

vrijdag 12 augustus 2016 @ 16:02:18 #43

Liedje_

quote:
Op vrijdag 12 augustus 2016 15:34 schreef MCH het volgende:

[..]

Zijn ze uberhaupt significant?

Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).

"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..

Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?

[ Bericht 11% gewijzigd door Liedje_ op 13-08-2016 13:45:58 ]

Never assume, because then you make an ass out of u and me.

zaterdag 13 augustus 2016 @ 13:44:31 #44

Liedje_

- ik wilde m'n bericht hierboven wijzigen maar klikte blijkbaar op quote, niet de bedoeling -

Never assume, because then you make an ass out of u and me.

zaterdag 13 augustus 2016 @ 14:27:08 #45

crossover

quote:
Op vrijdag 12 augustus 2016 16:02 schreef Liedje_ het volgende:

[..]

Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).
[ afbeelding ]

"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..

Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?

Ja volgens mij klopt dat zo.

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

zondag 14 augustus 2016 @ 13:36:39 #46

#ANONIEM

quote:
Op zaterdag 13 augustus 2016 14:27 schreef crossover het volgende:

[..]

Ja volgens mij klopt dat zo.

Schrijf gewoon op dat (meer) sporten een positief effect heeft op kwaliteit van leven. Net alsof 7 dagen sporten bijdraagt aan 0.812 levenskwaliteit iets zegt.

zondag 14 augustus 2016 @ 13:46:58 #47

Kaas-

De relatie aantal dagen per week sporten en levenskwaliteit lijkt me trouwens niet lineair, maar met een top ergens in het midden. Lineaire regressie zou in dat geval niet echt veel informatie prijsgeven.

† In Memoriam † zondag 14 augustus 2016 @ 14:07:08 #48

Zith

pls tip

quote:
Op zondag 14 augustus 2016 13:46 schreef Kaas- het volgende:
De relatie aantal dagen per week sporten en levenskwaliteit lijkt me trouwens niet lineair, maar met een top ergens in het midden. Lineaire regressie zou in dat geval niet echt veel informatie prijsgeven.

Gewoon een squared versie toevoegen..

http://essedunet.nsd.uib.no/cms/topics/multilevel/ch1/5.html

Wat ik dus ook zeker zou aanraden want je maakt een goede observatie.

[ Bericht 7% gewijzigd door Zith op 14-08-2016 14:19:27 ]

I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!

zondag 14 augustus 2016 @ 21:33:07 #49

Shivo

quote:
Op dinsdag 9 augustus 2016 09:14 schreef Lyrebird het volgende:

[ code verwijderd ]

Als het om statistiek gaat, dan kom ik niet veel verder dan een gemiddeld en een standaarddeviatie. Ik gebruik het spul tot nu toe te weinig om me er echt in te verdiepen (alhoewel dat wel eens rap kan veranderen binnenkort, maar dat terzijde).

In de bovenstaande tabel staan de meetgegevens van een bepaalde variabele van 10 jonge proefpersonen, die vanwege hun leeftijd geen last kunnen hebben van een niet-nader-te-noemen ouderdomsziekte. We hebben een gemiddelde waarde per proefpersoon gemeten, en een standaarddeviatie.

Daarnaast hebben we ook tien oudere proefpersonen doorgemeten.

Beetje uit de losse pols zijn de proefpersonen die een rood stipje hebben, "suspect".

[ afbeelding ]

Welke oudere proefpersonen vallen buiten de range die als "normaal" bestempeld kan worden, gebaseerd op de meetgegevens van de jonge proefpersonen? Welke methode moet ik gebruiken om dat aan te tonen?

Als je de verschillen per de drie groepen wil testen op significantie kun je een t-test gebruiken, als je tenminste een normale distributie kunt aannemen (wat niet per se zo lijkt te zijn). Als je per invidu een waarde van verschil met de rest wil bepalen kun je het beste een resampling methode gebruiken. Hierbij bepaal je de distributie door heel vaak (100,000x) random waarden te selecteren uit de gehele dataset. Vervolgens vergelijk je de waarden van ieder individu met die achtergrond verdeling. In feite test je hoe vaak het profiel dat je experimenteel hebt bepaald voorkomt als je een random profiel samenstelt.

Jesus saves but death prevails.

Forum Opties
Forumhop:
Hop naar:	(afkorting, bv 'KLB')

» school, studie en onderwijs

» school, studie en onderwijs