abonnementen ibood.com bol.com
pi_164197729
registreer om deze reclame te verbergen
Dit is een topic voor alle vragen die je hebt over statistiek, SPSS, R, Excel etcetera.
pi_164197734
Laatste vraag van het vorige topic:

quote:
0s.gif Op dinsdag 2 augustus 2016 13:08 schreef Operc het volgende:
Een student hier heeft een analyse gedaan en ik ben even de weg kwijt. :@

Kort samengevat:

3 soorten schilderijen beoordeeld (tekeningen, houtskool, verfwerken) en vervolgens is een van de variabelen een categorisatie van wat er op het schilderij staat. (fruitmand, voertuig, mens, gebouw). Nu wil de student kijken of wat er op het schilderij staat verschilt per type schilderij. Kun je hier qua Chi-square iets mee? En kun je per soort voorwerp op het schilderij een chi-square doen om te zien of die wezenlijk van elkaar verschillen in hoe vaak ze voorkomen in de drie groepen? Ik heb het idee dat dat lastig is omdat die verschillen niet onafhankelijk zijn, maar misschien zie ik iets over het hoofd.
quote:
0s.gif Op dinsdag 2 augustus 2016 17:46 schreef crossover het volgende:

[..]

Chi2 kan inderdaad.

Wat je dan ook kan doen is percentages berekenen per rij of kolom (afhankelijk wat waar staat). Dan zie je of het soort voorwerp groter is per groep.
Of: je laat uitrekenen wat de het verwachte aantal is op basis van de totalen en dan zie je of het geobserveerde aantal afwijkt.
quote:
0s.gif Op woensdag 3 augustus 2016 12:06 schreef Operc het volgende:

[..]

Oke, maar kun je dan daarna ook nog individuele groepen vergelijken (buiten de percentages) via een chi-square of dat niet? (Aangezien de data niet onafhankelijk zijn enzo.) En zou je daarvoor moeten heroveren naar meerdere variabelen met 0 en 1?
pi_164218133
quote:
0s.gif Op woensdag 3 augustus 2016 13:13 schreef Operc het volgende:
Laatste vraag van het vorige topic:

[..]

[..]

[..]

Als de data niet ofafhankelijk zijn zou ik me sowieso afvragen wat voor zin het heeft om er een dergelijke analyse op los te laten. Dan zal je dit ook terugzien in je toets.

De assumptie in de regel bij statistische toetsen is dat de variabelen onafhankelijk zijn. Dat is wat je toetst. (Bij de frequentistische benadering in ieder geval, en er zijn vast nog wel meer uitzonderingen).
'Expand my brain, learning juice!'
Last.fm
pi_164218316
registreer om deze reclame te verbergen
Ik hanteer soms de regel "zo onafhankelijk mogelijk".
Aldus.
pi_164222357
Iemand hier tips om je voor te bereiden op de lessen statistiek van een Premaster als Sociology / Organization Studies / Human Resource Studies? Dus bijvoorbeeld een boek dat begint bij de basis voor iemand die eerst mbo en toen hbo gedaan heeft en dus totaal geen ervaring met statistiek maar toch een beetje voorkennis op wil doen.
pi_164222513
quote:
0s.gif Op donderdag 4 augustus 2016 14:09 schreef ZuidGrens het volgende:
Iemand hier tips om je voor te bereiden op de lessen statistiek van een Premaster als Sociology / Organization Studies / Human Resource Studies? Dus bijvoorbeeld een boek dat begint bij de basis voor iemand die eerst mbo en toen hbo gedaan heeft en dus totaal geen ervaring met statistiek maar toch een beetje voorkennis op wil doen.
Dan zou ik een boek als Statistiek in woorden aanschaffen. Daarin worden de veel gebruikte begrippen heel helder uitgelegd met simpele voorbeelden. Dat helpt denk ik enorm voor en universitaire studie want dan kan je toch wat makkelijker mee komen met de stof.

Als je interesse hebt dan mag je mijn exemplaar wel overnemen :)
'Expand my brain, learning juice!'
Last.fm
pi_164223768
registreer om deze reclame te verbergen
quote:
0s.gif Op donderdag 4 augustus 2016 10:03 schreef crossover het volgende:

[..]

Als de data niet ofafhankelijk zijn zou ik me sowieso afvragen wat voor zin het heeft om er een dergelijke analyse op los te laten. Dan zal je dit ook terugzien in je toets.

De assumptie in de regel bij statistische toetsen is dat de variabelen onafhankelijk zijn. Dat is wat je toetst. (Bij de frequentistische benadering in ieder geval, en er zijn vast nog wel meer uitzonderingen).
Voorbeeldje qua data:
1
2
3
4
          Tekening houtskool verf
Voertuig  20       40        20
Mens      40       20        20
Gebouw    20       20        40
Stel de chi-square is significant, kan mijn student daarna nog een test doen om aan te tonen dat voertuig bij houtskool vaker voorkomen en mens bij tekening etc? Want als er op houtskool meer voertuigen staan, zorgt dat er automatisch voor dat op die werken geen mensen of gebouwen staan. (En dus lijkt me de data niet onafhankelijk, maar misschien zie ik het fout.)
pi_164227012
quote:
0s.gif Op donderdag 4 augustus 2016 15:19 schreef Operc het volgende:

[..]

Voorbeeldje qua data:
[ code verwijderd ]

Stel de chi-square is significant, kan mijn student daarna nog een test doen om aan te tonen dat voertuig bij houtskool vaker voorkomen en mens bij tekening etc? Want als er op houtskool meer voertuigen staan, zorgt dat er automatisch voor dat op die werken geen mensen of gebouwen staan. (En dus lijkt me de data niet onafhankelijk, maar misschien zie ik het fout.)
Dat is altijd zo als je data in een kruistabel weergeeft.. tenzij je werkt met meerkeuze-antwoorden maar dat is hier volgens mij niet zo.

Die toets waar je het over hebt, om aan te tonen waar verschillen zitten, dat doe je met percentages of het toekennen/laten berekenen van de verwachte celwaarden (op basis van de totalen).

Wat betreft de onafhankelijkheid van data hebben we hier wat verwarring, omdat jij spreekt van onafhankelijkheid binnen één variabele, maar dat is niet wat er met (on)afhankelijkheid bedoeld wordt.
'Expand my brain, learning juice!'
Last.fm
pi_164355828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
age    mean     stdv
23    20.44    11.2
23    20.65    9.18
23    14.24    7.18
23    16.09    7.61
24    21.32    11.94
24    18.04    9.16
25    18.87    10.12
25    20.43    10.15
25    20.39    10.15
25    14.9    6.7
--    --    --
54    22.95    11.02
55    17.96    9.42
59    42.5    24.38
59    63.67    28.56
60    22.33    11.86
61    38.19    20.09
63    85.37    40.76
63    36.9    20.88
65    17.41    10
65    24.77    13

Als het om statistiek gaat, dan kom ik niet veel verder dan een gemiddeld en een standaarddeviatie. Ik gebruik het spul tot nu toe te weinig om me er echt in te verdiepen (alhoewel dat wel eens rap kan veranderen binnenkort, maar dat terzijde).

In de bovenstaande tabel staan de meetgegevens van een bepaalde variabele van 10 jonge proefpersonen, die vanwege hun leeftijd geen last kunnen hebben van een niet-nader-te-noemen ouderdomsziekte. We hebben een gemiddelde waarde per proefpersoon gemeten, en een standaarddeviatie.

Daarnaast hebben we ook tien oudere proefpersonen doorgemeten.

Beetje uit de losse pols zijn de proefpersonen die een rood stipje hebben, "suspect".

2rqi0br.jpg

Welke oudere proefpersonen vallen buiten de range die als "normaal" bestempeld kan worden, gebaseerd op de meetgegevens van de jonge proefpersonen? Welke methode moet ik gebruiken om dat aan te tonen?
pi_164355926
Misschien heb je hier wat aan:

Flowchart2011.jpg
"Happiness is not getting more, but wanting less"
pi_164356314
quote:
0s.gif Op dinsdag 9 augustus 2016 09:14 schreef Lyrebird het volgende:

[ code verwijderd ]

Als het om statistiek gaat, dan kom ik niet veel verder dan een gemiddeld en een standaarddeviatie. Ik gebruik het spul tot nu toe te weinig om me er echt in te verdiepen (alhoewel dat wel eens rap kan veranderen binnenkort, maar dat terzijde).

In de bovenstaande tabel staan de meetgegevens van een bepaalde variabele van 10 jonge proefpersonen, die vanwege hun leeftijd geen last kunnen hebben van een niet-nader-te-noemen ouderdomsziekte. We hebben een gemiddelde waarde per proefpersoon gemeten, en een standaarddeviatie.

Daarnaast hebben we ook tien oudere proefpersonen doorgemeten.

Beetje uit de losse pols zijn de proefpersonen die een rood stipje hebben, "suspect".

[ afbeelding ]

Welke oudere proefpersonen vallen buiten de range die als "normaal" bestempeld kan worden, gebaseerd op de meetgegevens van de jonge proefpersonen? Welke methode moet ik gebruiken om dat aan te tonen?
Dan zou ik het gemiddelde en de standaarddeviatie gebruiken van de jonge personen.

Als de leeftijd van een oudere proefpersoon hoger is dan [gemiddelde jongere groep + 2*stddev jongere groep] dan zou je kunnen spreken van een relevant verschil. Dat is de meest voor de hand liggende benadering, omdat bij een normale verdeling 5% van de steekproef/populatie boven en beneden 2*de stdev t.o.v. het gemiddelde zit.
'Expand my brain, learning juice!'
Last.fm
pi_164357703
Ik heb een praktische vraag over hoe iets in SPSS werkt. Ik wil meerdere datasets samenvoegen tot één dataset en weet niet hoe dat werkt en vraag me af of iemand daarbij kan helpen.

Beschrijving van mijn data:
• Ik heb 30 datasets/databestanden (steeds een soortgelijke dataset over de jaren 1981, 1982, ... , 2010).
• Per dataset zijn er duizenden entries. Het is een jaarlijkse survey en per entry heb je dan gegevens als leeftijd, geslacht, opleiding etc. etc.

Beschrijving van wat ik ermee wil.
• Uit elke dataset zijn er van de ca. 100 variabelen slechts 6 die ik wil gebruiken.
• Ik wil één grote dataset creëren waarin voor al die 30 jaar, uit al die 30 datasets, alle entries samenkomen voor de variabelen die ik wil bekijken.
• Omdat ik dan een tijdreeksanalyse ga doen is het nodig dat in de nieuwe dataset ook per entrie wordt aangegeven uit welk jaar (1981, 1982 etc.) die komt. Het jaartal staat er nu nog niet in, aangezien elke dataset gewoon het jaartal als titel heeft.

Voorbeeld om het te verduidelijken:
• Ik heb nu dertig datasets waarin telkens in opeenvolgende jaren aan duizend (telkens verschillende) mensen wordt gevraagd wat hun leeftijd, geslacht, opleiding etc. is. Ik wil die samenvoegen tot één dataset waar ze allemaal in staan, en dan met als extra variabele het jaartal waaruit die dataset komt. Dit zodat ik kan onderzoeken of er in die dertig jaar een trend kan worden waargenomen in de relatie tussen enkele van die variabelen.

Hoe doe ik het dit? Alle advies is welkom. :)
pi_164357861
quote:
3s.gif Op dinsdag 9 augustus 2016 10:46 schreef Kaas- het volgende:
Ik heb een praktische vraag over hoe iets in SPSS werkt. Ik wil meerdere datasets samenvoegen tot één dataset en weet niet hoe dat werkt en vraag me af of iemand daarbij kan helpen.

Beschrijving van mijn data:
• Ik heb 30 datasets/databestanden (steeds een soortgelijke dataset over de jaren 1981, 1982, ... , 2010).
• Per dataset zijn er duizenden entries. Het is een jaarlijkse survey en per entry heb je dan gegevens als leeftijd, geslacht, opleiding etc. etc.

Beschrijving van wat ik ermee wil.
• Uit elke dataset zijn er van de ca. 100 variabelen slechts 6 die ik wil gebruiken.
• Ik wil één grote dataset creëren waarin voor al die 30 jaar, uit al die 30 datasets, alle entries samenkomen voor de variabelen die ik wil bekijken.
• Omdat ik dan een tijdreeksanalyse ga doen is het nodig dat in de nieuwe dataset ook per entrie wordt aangegeven uit welk jaar (1981, 1982 etc.) die komt. Het jaartal staat er nu nog niet in, aangezien elke dataset gewoon het jaartal als titel heeft.

Voorbeeld om het te verduidelijken:
• Ik heb nu dertig datasets waarin telkens in opeenvolgende jaren aan duizend (telkens verschillende) mensen wordt gevraagd wat hun leeftijd, geslacht, opleiding etc. is. Ik wil die samenvoegen tot één dataset waar ze allemaal in staan, en dan met als extra variabele het jaartal waaruit die dataset komt. Dit zodat ik kan onderzoeken of er in die dertig jaar een trend kan worden waargenomen in de relatie tussen enkele van die variabelen.

Hoe doe ik het dit? Alle advies is welkom. :)
Ik heb SPSS even niet bij de hand dus ik kan het niet opzoeken, maar ergens onder data of iets dergelijks staat iets van merge data(sets) ofzo? Daar kun je dat doen. :P En dan kun je kiezen welke variabelen over moeten blijven en welke niet enzo. Ik weet niet of je daar een variabele kunt toevoegen die stelt uit welke dataset je data komt (die 'jaar' variabele), maar anders kun je dat altijd nog in elke dataset doen (kost wel meer werk. :P) Dan voeg je gewoon een variabele toe met Jaar en trek je die door voor alle cases. (Of via compute variable en dan gewoon alleen het getal invoeren.)
pi_164357983
quote:
0s.gif Op dinsdag 9 augustus 2016 10:55 schreef Operc het volgende:

[..]

Ik heb SPSS even niet bij de hand dus ik kan het niet opzoeken, maar ergens onder data of iets dergelijks staat iets van merge data(sets) ofzo? Daar kun je dat doen. :P En dan kun je kiezen welke variabelen over moeten blijven en welke niet enzo. Ik weet niet of je daar een variabele kunt toevoegen die stelt uit welke dataset je data komt (die 'jaar' variabele), maar anders kun je dat altijd nog in elke dataset doen (kost wel meer werk. :P) Dan voeg je gewoon een variabele toe met Jaar en trek je die door voor alle cases. (Of via compute variable en dan gewoon alleen het getal invoeren.)
Ik ga dit zo even proberen. In ieder geval bedankt voor de suggestie kerel.
pi_164358127
quote:
0s.gif Op dinsdag 9 augustus 2016 09:20 schreef ssebass het volgende:
Misschien heb je hier wat aan:

[ afbeelding ]
Ja, dat is wel handig.

Eens kijken, ik heb een variabele, en de vraag is of ik meer dan een populatie heb? De variances zijn niet homogeen?
pi_164358184
quote:
0s.gif Op dinsdag 9 augustus 2016 09:43 schreef crossover het volgende:

[..]

Dan zou ik het gemiddelde en de standaarddeviatie gebruiken van de jonge personen.

Als de leeftijd van een oudere proefpersoon hoger is dan [gemiddelde jongere groep + 2*stddev jongere groep] dan zou je kunnen spreken van een relevant verschil. Dat is de meest voor de hand liggende benadering, omdat bij een normale verdeling 5% van de steekproef/populatie boven en beneden 2*de stdev t.o.v. het gemiddelde zit.
Alle resultaten van de jonge p.p. op een hoop gooien, mean + stddev berekenen, en dan kijken of het gemiddelde van de jongere groep + 2 x stddev kleiner is dan een individuele oudere?

Of toch een statistische test met een moeilijk woord?
pi_164358414
quote:
0s.gif Op dinsdag 9 augustus 2016 11:14 schreef Lyrebird het volgende:

[..]

Alle resultaten van de jonge p.p. op een hoop gooien, mean + stddev berekenen, en dan kijken of het gemiddelde van de jongere groep + 2 x stddev kleiner is dan een individuele oudere?

Of toch een statistische test met een moeilijk woord?
Ik zou doen wat crossover zegt. Normale statistische toetsen gaan op groepsniveau. Dus als je bijvoorbeeld wilt testen of ouderen gemiddeld hoger scoren dan jongeren, dan zou je een t-toets doen. (En dan volg je het schema van ssebass). Maar omdat jij een individuele score wilt vergelijken met een groep, zou ik zoals crossover zegt het gemiddelde en de standaarddeviatie van de groep jongeren gebruiken. :)
pi_164358582
Het concept is me nu duidelijk. Hoe zit het met de specifieke invulling? Moet ik het gemiddelde van alle jongeren berekenen, en dan de standaard deviatie van de gemiddelden gebruiken?

Of moeten alle metingen van de jongeren (iedere pp. heeft 50.000 metingen, waaruit een gemiddelde en stddev bepaald worden) op een hoop worden gegooid, om daar dan het gemiddelde en stddev van te bepalen?
pi_164359154
quote:
0s.gif Op dinsdag 9 augustus 2016 11:37 schreef Lyrebird het volgende:
Het concept is me nu duidelijk. Hoe zit het met de specifieke invulling? Moet ik het gemiddelde van alle jongeren berekenen, en dan de standaard deviatie van de gemiddelden gebruiken?

Of moeten alle metingen van de jongeren (iedere pp. heeft 50.000 metingen, waaruit een gemiddelde en stddev bepaald worden) op een hoop worden gegooid, om daar dan het gemiddelde en stddev van te bepalen?
Je zou het inderdaad ook kunnen toetsen. In Stata kan dat met commanto -ttesti. Dan voer je het aantal observaties in, de mean en stddev en de waarde waarvan je wil kijken of het significant afwijkt t.o.v. de steekproef. In SPSS heb ik het ook wel eens gezien. Statistisch gezien stelt het niet zo veel voor, alleen is het probleem dat bij zulke grote aantallen een verschil van een honderdste al statistisch significant is (zie onder, heb het even voor je ingevoerd). Het gaat om 10*50.000 observaties. Dus je zal er misschien een andere toets op los moeten laten (of een minimaal klinisch relevant verschil berekenen).

https://www.dropbox.com/s/tvw6r10vse7sw51/Knipsel5.PNG?dl=0
'Expand my brain, learning juice!'
Last.fm
pi_164359490
quote:
0s.gif Op dinsdag 9 augustus 2016 11:37 schreef Lyrebird het volgende:
Het concept is me nu duidelijk. Hoe zit het met de specifieke invulling? Moet ik het gemiddelde van alle jongeren berekenen, en dan de standaard deviatie van de gemiddelden gebruiken?

Of moeten alle metingen van de jongeren (iedere pp. heeft 50.000 metingen, waaruit een gemiddelde en stddev bepaald worden) op een hoop worden gegooid, om daar dan het gemiddelde en stddev van te bepalen?
Ja, maar je krijgt dan maar één gemiddelde en één stddev. Dus je gooit alles op een hoop (van de jongeren) en die (geaggregeerde) gegevens gebruik je om de individuele waarde van de oudere groep mee te vergeijken.

Mijn advies, houd het simpel :')

Ik heb me voor een thesis verdiept in het minimaal klinisch relevant verschil en minimaal detecteerbaar verschil, er zijn enorm veel verschillende termen en varianten.
'Expand my brain, learning juice!'
Last.fm
pi_164365313
quote:
0s.gif Op dinsdag 9 augustus 2016 10:55 schreef Operc het volgende:

[..]

Ik heb SPSS even niet bij de hand dus ik kan het niet opzoeken, maar ergens onder data of iets dergelijks staat iets van merge data(sets) ofzo? Daar kun je dat doen. :P En dan kun je kiezen welke variabelen over moeten blijven en welke niet enzo. Ik weet niet of je daar een variabele kunt toevoegen die stelt uit welke dataset je data komt (die 'jaar' variabele), maar anders kun je dat altijd nog in elke dataset doen (kost wel meer werk. :P) Dan voeg je gewoon een variabele toe met Jaar en trek je die door voor alle cases. (Of via compute variable en dan gewoon alleen het getal invoeren.)
Het mergen lukt, bedankt.

Een variabele ("jaar") toevoegen ook wel. Maar is er geen snelle manier om daaronder alle waardes van de variabele "jaar" gelijk te zetten aan bijvoorbeeld "1980"? Niet alleen vind ik niet hoe je het kan 'slepen', het zou ook veel te lang duren omdat er ongeveer 30.000 respondenten per survey zijn, dus bijna een miljoen in de dataset die ik ambieer.
pi_164365602
quote:
0s.gif Op dinsdag 9 augustus 2016 15:38 schreef Kaas- het volgende:

[..]

Het mergen lukt, bedankt.

Een variabele ("jaar") toevoegen ook wel. Maar is er geen snelle manier om daaronder alle waardes van de variabele "jaar" gelijk te zetten aan bijvoorbeeld "1980"? Niet alleen vind ik niet hoe je het kan 'slepen', het zou ook veel te lang duren omdat er ongeveer 30.000 respondenten per survey zijn, dus bijna een miljoen in de dataset die ik ambieer.
Kun je niet compute variable doen? En dan in plaats van vervolgens te rekenen met variabelen, gewoon 1980 daar neer zetten? (Dit zou je dan wel per dataset moeten doen, niet heel praktisch, maar makkelijker dan 30.000 keer invullen.)

Edit, dat werkt, zo dus bijvoorbeeld:
1
2
COMPUTE Jaar=1980.
EXECUTE.
Doe dat in syntax (of via Transform -> compute variable) en dan maakt SPSS een variabele aan genaamd Jaar met de waarde 1980 voor alle rijen waar data in staan.
pi_164366057
Thanks Operc.

Maar ik begin wel aardig te stressen, omdat ik zie dat dat mergen niet goed werkt. Er ontbreekt dan plotseling echt een hoop in plaats van dat alle entries van de mergende bestanden in het nieuwe bestand staan.
pi_164366109
Hallo,
Ik heb enkele brandende vragen.
Voor mijn afstudeerthesis doe ik een onderzoek. Hierbij maak ik gebruik van een experiment met drie condities en een controle conditie. Na dit experiment heb ik nog enkele vragen die verschillende variabelen testen. De vragen bestaan uit verschillende items die zijn gemeten via een 7 punt likert schaal. Deze variabelen heb ik door middel van verschillende vragen naar evaluatie en het gewicht dat aan elke referentiegroep wordt toegekend per variabele onderzocht. Om de variabele te berekenen heb ik via compute de evaluatie vermenigvuldigd met het gewicht en deze allemaal bij elkaar opgeteld.

Nu ben ik aan het analyseren met een multivariate regressie en krijg ik hele grote getallen door deze sommaties waar ik uiteindelijk niets zinnigs over kan zeggen.
Ik heb de schaalscores aangepast door gemiddelde te nemen maar nu zou ik deze scores graag gewoon van 1 tot 7 zien zoals de likert schaal.
En verder nog de vraag of het slimmer is om deze regressie per conditie apart te analyseren.
Alvast super bedankt!

[ Bericht 9% gewijzigd door nonamnietje op 09-08-2016 17:20:14 ]
pi_164366832
quote:
0s.gif Op dinsdag 9 augustus 2016 16:05 schreef Kaas- het volgende:
Thanks Operc.

Maar ik begin wel aardig te stressen, omdat ik zie dat dat mergen niet goed werkt. Er ontbreekt dan plotseling echt een hoop in plaats van dat alle entries van de mergende bestanden in het nieuwe bestand staan.
Wat lastig om vanaf hier te zien wat er fout gaat natuurlijk. :P Maar zijn de variabelen die je wil mergen allemaal in dezelfde stijl? (dus niet 1,00 en 1.00, of scale vs ordinal vs nominal) Kun je zien of er een specifiek type variabele is dat niet goed werkt?
pi_164369073
quote:
0s.gif Op dinsdag 9 augustus 2016 16:31 schreef Operc het volgende:

[..]

Wat lastig om vanaf hier te zien wat er fout gaat natuurlijk. :P Maar zijn de variabelen die je wil mergen allemaal in dezelfde stijl? (dus niet 1,00 en 1.00, of scale vs ordinal vs nominal) Kun je zien of er een specifiek type variabele is dat niet goed werkt?
Even prutsen...
pi_164375671
Bij de merge kan je aangeven welke van de twee files dominant is (key tabled ofzo). Kies je de verkeerde dan kan je cases kwijtraken. Een miljoen cases, succes daarmee, dat is niet per se een sterke kant van SPSS.
Aldus.
pi_164376104
quote:
2s.gif Op dinsdag 9 augustus 2016 21:16 schreef Z het volgende:
Bij de merge kan je aangeven welke van de twee files dominant is (key tabled ofzo). Kies je de verkeerde dan kan je cases kwijtraken. Een miljoen cases, succes daarmee, dat is niet per se een sterke kant van SPSS.
Het zijn bij elkaar opgeteld een miljoen entries voor ongeveer duizend variabelen. Als er dan iets misgaat heb ik het pas na enkele uren werk door, wanneer er rare resultaten uitkomen. :P
pi_164392923
- verwijderd -

ik ben er al uit ^O^

[ Bericht 26% gewijzigd door Kaas- op 10-08-2016 14:02:40 ]
pi_164406694
Hoi allemaal,

SPSS vraag: ik heb een lineaire regressie gemaakt met afhankelijke variabele kwaliteit van leven. Hier heb ik verschillende onafhankelijke variabelen voor:
- leeftijd (met gemiddelde leeftijd),
- geslacht (0 = nee; 1 = ja)
- employment (0 = geen werk; 1 = wel werk)
- roken (0=nee; 1=ja)
- opleidingsniveau (0=laag; 1= hoog)
- huwelijkse status (0=single, 1 = gehuwd/samenwonend)
- physical activity, met hoeveel dagen per week actief (0 = 0 dagen actief, 1 = 1 dag per week actief; 2=2 dagen per week actief; 3 = 3 dagen per week actief)

en om deze laatste gaat het nu. die andere snap ik, hoe ik deze moet invullen. Maar hoe vul ik physical activity in? Ik heb de resultaten uit spss in excel gezet en een screenshot toegevoegd in dit bericht: de rode vraagtekens weet ik dus niet..
Zet ik in C7 dan 0? of ook -0.091? en C8? en E7 en E8?

CphE53fWgAA_yIv.jpg:large
Never assume, because then you make an ass out of u and me.
pi_164408562
Ik denk dat je variabele geslacht niet helemaal klopt :D
Nomnomnomnomnomnomnomnomnomnom
  woensdag 10 augustus 2016 @ 21:48:13 #32
42322 MCH
Can you feel it cumming?
pi_164409708
quote:
0s.gif Op woensdag 10 augustus 2016 20:06 schreef Liedje_ het volgende:
Hoi allemaal,

SPSS vraag: ik heb een lineaire regressie gemaakt met afhankelijke variabele kwaliteit van leven. Hier heb ik verschillende onafhankelijke variabelen voor:
- leeftijd (met gemiddelde leeftijd),
- geslacht (0 = nee; 1 = ja)
- employment (0 = geen werk; 1 = wel werk)
- roken (0=nee; 1=ja)
- opleidingsniveau (0=laag; 1= hoog)
- huwelijkse status (0=single, 1 = gehuwd/samenwonend)
- physical activity, met hoeveel dagen per week actief (0 = 0 dagen actief, 1 = 1 dag per week actief; 2=2 dagen per week actief; 3 = 3 dagen per week actief)

en om deze laatste gaat het nu. die andere snap ik, hoe ik deze moet invullen. Maar hoe vul ik physical activity in? Ik heb de resultaten uit spss in excel gezet en een screenshot toegevoegd in dit bericht: de rode vraagtekens weet ik dus niet..
Zet ik in C7 dan 0? of ook -0.091? en C8? en E7 en E8?

[ afbeelding ]
Zoals je het nu doet doe je het fout. Je moet werken met dummies. Kijk maar eens in het boek van Field.
Die Schule des Lebens kennt keine Ferien
  woensdag 10 augustus 2016 @ 21:49:40 #33
42322 MCH
Can you feel it cumming?
pi_164409763
Zo dus:

1 Count the number of groups you want to recode and subtract 1.
2 Create as many new variables as the value you calculated in step 1. These are your
dummy variables.
3 Choose one of your groups as a baseline (i.e. a group against which all other groups
should be compared). This should usually be a control group, or, if you don’t have
a specific hypothesis, it should be the group that represents the majority of people
(because it might be interesting to compare other groups against the majority).
4 Having chosen a baseline group, assign that group values of 0 for all of your dummy
variables.
5 For your first dummy variable, assign the value 1 to the first group that you want to
compare against the baseline group. Assign all other groups 0 for this variable.
6 For the second dummy variable assign the value 1 to the second group that you want
to compare against the baseline group. Assign all other groups 0 for this variable.
7 Repeat this until you run out of dummy variables.
8 Place all of your dummy variables into the regression analysis!
Die Schule des Lebens kennt keine Ferien
pi_164421055
quote:
0s.gif Op woensdag 10 augustus 2016 21:10 schreef PluisigNijntje het volgende:
Ik denk dat je variabele geslacht niet helemaal klopt :D
Inderdaad, het handigste vind ik altijd om de variabele 'man' of 'vrouw' te noemen, zodat je weet wat 1 betekent.
quote:
0s.gif Op woensdag 10 augustus 2016 21:48 schreef MCH het volgende:

[..]

Zoals je het nu doet doe je het fout. Je moet werken met dummies. Kijk maar eens in het boek van Field.
Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.
'Expand my brain, learning juice!'
Last.fm
pi_164421071
quote:
0s.gif Op woensdag 10 augustus 2016 20:06 schreef Liedje_ het volgende:
Hoi allemaal,

SPSS vraag: ik heb een lineaire regressie gemaakt met afhankelijke variabele kwaliteit van leven. Hier heb ik verschillende onafhankelijke variabelen voor:
- leeftijd (met gemiddelde leeftijd),
- geslacht (0 = nee; 1 = ja)
- employment (0 = geen werk; 1 = wel werk)
- roken (0=nee; 1=ja)
- opleidingsniveau (0=laag; 1= hoog)
- huwelijkse status (0=single, 1 = gehuwd/samenwonend)
- physical activity, met hoeveel dagen per week actief (0 = 0 dagen actief, 1 = 1 dag per week actief; 2=2 dagen per week actief; 3 = 3 dagen per week actief)

en om deze laatste gaat het nu. die andere snap ik, hoe ik deze moet invullen. Maar hoe vul ik physical activity in? Ik heb de resultaten uit spss in excel gezet en een screenshot toegevoegd in dit bericht: de rode vraagtekens weet ik dus niet..
Zet ik in C7 dan 0? of ook -0.091? en C8? en E7 en E8?

[ afbeelding ]
Ik snap die tabel niet. De rijen staan ook niet gelijk, waarom staat Physical activity 0 days achter de intercept? Daar hoort niets te staan.
'Expand my brain, learning juice!'
Last.fm
pi_164429425
quote:
0s.gif Op dinsdag 9 augustus 2016 12:12 schreef crossover het volgende:

[..]

Ja, maar je krijgt dan maar één gemiddelde en één stddev. Dus je gooit alles op een hoop (van de jongeren) en die (geaggregeerde) gegevens gebruik je om de individuele waarde van de oudere groep mee te vergeijken.

Mijn advies, houd het simpel :')

Ik heb me voor een thesis verdiept in het minimaal klinisch relevant verschil en minimaal detecteerbaar verschil, er zijn enorm veel verschillende termen en varianten.
Ik heb er nog eens goed over nagedacht.

Dit is mijn plan van aanpak: van de tien jonge proefpersonen worden alle pixelwaarden gebruikt om een gemiddelde en standaard deviatie te berekenen. Met mean + 2*stddev wordt dan de grens bepaald van pixelwaarden die verdacht zijn.

In de plaatjes van de oudere proefpersonen wordt die grens dan gebruikt om pixels te isoleren die verdacht zijn. Die kunnen dan gehighlight worden, om de arts te wijzen op gebieden die verdacht zijn.

Kan dan ook nog per oudere proefpersoon een histogram maken, om te bepalen welke fractie van de pixels verdacht is. Bij de proefpersoon uit het plaatje met een gemiddelde van rond de 90 zou dat best wel eens om meer dan 50% van de pixels kunnen gaan. Klinische waarde van zo'n histogram? Geen idee - dat zal de praktijk moeten uitwijzen.

Bedankt!
pi_164439128
quote:
0s.gif Op donderdag 11 augustus 2016 10:05 schreef crossover het volgende:


[..]

Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.
Allereerst:
Bedankt voor de reacties!!


Over dit punt, dat wil ik inderdaad graag, dus in 1 keer erin. Ik moet ook toegeven dat ik nu de verkorte versie heb gegeven, maar de variabele bestaat idd van 0 tot 7 (dagen per week).
Maar ik snap niet wat de coefficienten van de verschillende values zijn.
Voor 0, is de coefficient 0 (Als beginpunt/vergelijkingspunt).
Voor 1 is de coefficient 0.091 (uit SPSS gehaald) - er staat in de tabel (-0.091) maar dit is verkeerd door mij opgeschreven! het is 0.091.

Het verschil tussen iemand met 0 dagen actief en 1 dag per week actief is 0.091 (dus kwaliteit van leven is dan 0.091 hoger voor iemand die 1 dag actief is ten opzichte van iemand die 0 dagen actief is, alle covarieten gelijk gelaten.

Maar welke coefficienten gebruik ik voor 2, 3, 4, 5, 6 en 7 dagen per week actief zijn?
Is het dan:
2*0.091
3*0.091
tot en met 7*0.091?
Never assume, because then you make an ass out of u and me.
pi_164450361
quote:
0s.gif Op dinsdag 9 augustus 2016 16:05 schreef Kaas- het volgende:
Thanks Operc.

Maar ik begin wel aardig te stressen, omdat ik zie dat dat mergen niet goed werkt. Er ontbreekt dan plotseling echt een hoop in plaats van dat alle entries van de mergende bestanden in het nieuwe bestand staan.
Niet gaan stressen, SPSS kan stress ruiken en misbruikt dat.
Heb je wel de goede manier van mergen te pakken?
Kijk anders hier even: http://www.ats.ucla.edu/stat/spss/modules/merge.htm
Regenboog, regenboog
gelukkig ben je krom,
anders heette je regenstreep,
en dat klinkt toch wel zo stom
  vrijdag 12 augustus 2016 @ 11:21:26 #39
42322 MCH
Can you feel it cumming?
pi_164455534
quote:
11s.gif Op donderdag 11 augustus 2016 20:50 schreef Liedje_ het volgende:

[..]

Allereerst:
Bedankt voor de reacties!!

Over dit punt, dat wil ik inderdaad graag, dus in 1 keer erin. Ik moet ook toegeven dat ik nu de verkorte versie heb gegeven, maar de variabele bestaat idd van 0 tot 7 (dagen per week).
Maar ik snap niet wat de coefficienten van de verschillende values zijn.
Voor 0, is de coefficient 0 (Als beginpunt/vergelijkingspunt).
Voor 1 is de coefficient 0.091 (uit SPSS gehaald) - er staat in de tabel (-0.091) maar dit is verkeerd door mij opgeschreven! het is 0.091.

Het verschil tussen iemand met 0 dagen actief en 1 dag per week actief is 0.091 (dus kwaliteit van leven is dan 0.091 hoger voor iemand die 1 dag actief is ten opzichte van iemand die 0 dagen actief is, alle covarieten gelijk gelaten.

Maar welke coefficienten gebruik ik voor 2, 3, 4, 5, 6 en 7 dagen per week actief zijn?
Is het dan:
2*0.091
3*0.091
tot en met 7*0.091?
Waarom zou je dat willen uitleggen? Vermeld gewoon dat het significant is of niet icm met de eventuele coëfficiënt.
Die Schule des Lebens kennt keine Ferien
  vrijdag 12 augustus 2016 @ 11:22:24 #40
42322 MCH
Can you feel it cumming?
pi_164455563
quote:
0s.gif Op donderdag 11 augustus 2016 10:05 schreef crossover het volgende:

[..]

Inderdaad, het handigste vind ik altijd om de variabele 'man' of 'vrouw' te noemen, zodat je weet wat 1 betekent.

[..]

Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.
Dat klopt, als de vraagsteller ook wat vollediger was geweest had ik natuurlijk deze oplossing niet aangedragen.
Die Schule des Lebens kennt keine Ferien
pi_164463778
quote:
0s.gif Op vrijdag 12 augustus 2016 11:21 schreef MCH het volgende:

[..]

Waarom zou je dat willen uitleggen? Vermeld gewoon dat het significant is of niet icm met de eventuele coëfficiënt.
Nee ik wil het gewoon graag beter begrijpen wat er nu staat. Want als ik het goed begrijp, kan ik bijvoorbeeld voor geslacht zeggen:
als alle andere variabelen gelijk blijven, varieert voor man en vrouw kwaliteit van leven met 0.061 units. Zou kwaliteit van leven voor een vrouw 0.70 zijn, dan voor een man 0.649.

Maar ik snap gewoon niet hoe ik dit voor fysiek actief zijn omschrijf.
Kwaliteit van leven verschilt bij 0 of 1 dag fysiek actief met 0.091, dus zou kwaliteit van leven 0.70 zijn voor 0 dagen actief, dan 0.791 voor 1 dag fysiek actief. Maar ik snap gewoon niet wat ik zou zeggen voor bijvoorbeeld 2 dagen fysiek actief?

quote:
0s.gif Op vrijdag 12 augustus 2016 11:22 schreef MCH het volgende:

[..]

Dat klopt, als de vraagsteller ook wat vollediger was geweest had ik natuurlijk deze oplossing niet aangedragen.
Sorry! Was niet handig van me..
Never assume, because then you make an ass out of u and me.
  vrijdag 12 augustus 2016 @ 15:34:50 #42
42322 MCH
Can you feel it cumming?
pi_164463849
quote:
0s.gif Op vrijdag 12 augustus 2016 15:32 schreef Liedje_ het volgende:

[..]

Nee ik wil het gewoon graag beter begrijpen wat er nu staat. Want als ik het goed begrijp, kan ik bijvoorbeeld voor geslacht zeggen:
als alle andere variabelen gelijk blijven, varieert voor man en vrouw kwaliteit van leven met 0.061 units. Zou kwaliteit van leven voor een vrouw 0.70 zijn, dan voor een man 0.649.

Maar ik snap gewoon niet hoe ik dit voor fysiek actief zijn omschrijf.
Kwaliteit van leven verschilt bij 0 of 1 dag fysiek actief met 0.091, dus zou kwaliteit van leven 0.70 zijn voor 0 dagen actief, dan 0.791 voor 1 dag fysiek actief. Maar ik snap gewoon niet wat ik zou zeggen voor bijvoorbeeld 2 dagen fysiek actief?



[..]

Sorry! Was niet handig van me..
Zijn ze uberhaupt significant?
Die Schule des Lebens kennt keine Ferien
pi_164465142
quote:
0s.gif Op vrijdag 12 augustus 2016 15:34 schreef MCH het volgende:

[..]

Zijn ze uberhaupt significant?
Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).
CpqfgGgW8AA609E.jpg

"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..

Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?

[ Bericht 11% gewijzigd door Liedje_ op 13-08-2016 13:45:58 ]
Never assume, because then you make an ass out of u and me.
pi_164490142
- ik wilde m'n bericht hierboven wijzigen maar klikte blijkbaar op quote, niet de bedoeling -
Never assume, because then you make an ass out of u and me.
pi_164490990
quote:
0s.gif Op vrijdag 12 augustus 2016 16:02 schreef Liedje_ het volgende:

[..]

Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).
[ afbeelding ]

"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..

Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?
Ja volgens mij klopt dat zo. :)
'Expand my brain, learning juice!'
Last.fm
  zondag 14 augustus 2016 @ 13:36:39 #46
42322 MCH
Can you feel it cumming?
pi_164518722
quote:
0s.gif Op zaterdag 13 augustus 2016 14:27 schreef crossover het volgende:

[..]

Ja volgens mij klopt dat zo. :)
Schrijf gewoon op dat (meer) sporten een positief effect heeft op kwaliteit van leven. Net alsof 7 dagen sporten bijdraagt aan 0.812 levenskwaliteit iets zegt. :')
Die Schule des Lebens kennt keine Ferien
pi_164518899
De relatie aantal dagen per week sporten en levenskwaliteit lijkt me trouwens niet lineair, maar met een top ergens in het midden. Lineaire regressie zou in dat geval niet echt veel informatie prijsgeven.
pi_164519317
quote:
1s.gif Op zondag 14 augustus 2016 13:46 schreef Kaas- het volgende:
De relatie aantal dagen per week sporten en levenskwaliteit lijkt me trouwens niet lineair, maar met een top ergens in het midden. Lineaire regressie zou in dat geval niet echt veel informatie prijsgeven.
Gewoon een squared versie toevoegen..

slide_5.jpg

http://essedunet.nsd.uib.no/cms/topics/multilevel/ch1/5.html

Wat ik dus ook zeker zou aanraden want je maakt een goede observatie.

[ Bericht 7% gewijzigd door Zith op 14-08-2016 14:19:27 ]
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_164532012
quote:
0s.gif Op dinsdag 9 augustus 2016 09:14 schreef Lyrebird het volgende:

[ code verwijderd ]

Als het om statistiek gaat, dan kom ik niet veel verder dan een gemiddeld en een standaarddeviatie. Ik gebruik het spul tot nu toe te weinig om me er echt in te verdiepen (alhoewel dat wel eens rap kan veranderen binnenkort, maar dat terzijde).

In de bovenstaande tabel staan de meetgegevens van een bepaalde variabele van 10 jonge proefpersonen, die vanwege hun leeftijd geen last kunnen hebben van een niet-nader-te-noemen ouderdomsziekte. We hebben een gemiddelde waarde per proefpersoon gemeten, en een standaarddeviatie.

Daarnaast hebben we ook tien oudere proefpersonen doorgemeten.

Beetje uit de losse pols zijn de proefpersonen die een rood stipje hebben, "suspect".

[ afbeelding ]

Welke oudere proefpersonen vallen buiten de range die als "normaal" bestempeld kan worden, gebaseerd op de meetgegevens van de jonge proefpersonen? Welke methode moet ik gebruiken om dat aan te tonen?
Als je de verschillen per de drie groepen wil testen op significantie kun je een t-test gebruiken, als je tenminste een normale distributie kunt aannemen (wat niet per se zo lijkt te zijn). Als je per invidu een waarde van verschil met de rest wil bepalen kun je het beste een resampling methode gebruiken. Hierbij bepaal je de distributie door heel vaak (100,000x) random waarden te selecteren uit de gehele dataset. Vervolgens vergelijk je de waarden van ieder individu met die achtergrond verdeling. In feite test je hoe vaak het profiel dat je experimenteel hebt bepaald voorkomt als je een random profiel samenstelt.
Jesus saves but death prevails.
pi_164532349
quote:
1s.gif Op zondag 14 augustus 2016 14:07 schreef Zith het volgende:

[..]

Gewoon een squared versie toevoegen..

[ afbeelding ]

http://essedunet.nsd.uib.no/cms/topics/multilevel/ch1/5.html

Wat ik dus ook zeker zou aanraden want je maakt een goede observatie.
Yes. Is gelukkig een eenvoudige oplossing voor.
  vrijdag 19 augustus 2016 @ 11:45:46 #51
100126 Maraca
#cijferfetisjist
pi_164675317
Ik wil een attributieve steekproef uitvoeren, maar snap niet helemaal wat ze bedoelen met onderstaande bij het kopje "populatie"

quote:
Dit is het aantal steekproefeenheden in de populatie waaruit de steekproef getrokken is. Indien u niet zeker bent welke hoeveelheid u in moet vullen, kunt u voor de zekerheid beter een groot getal invullen. U moet een getal opgeven tussen 1 en 2.147.483.646
Stel ik heb een totale populatie van 7.000. Ik wil alleen een steekproef uitvoeren op de items die aan bepaalde kenmerken voldoen. Dus stel dat dit er 4.000 zijn. Op die 4.000 wil ik dus mijn steekproef uitvoeren en ook alleen deze items zal ik inlezen in het programma. Is mijn populatie op basis van bovenstaande tekst dan 7.000 of 4.000? Als ik het zo lees dan zou ik zeggen dat het de 4.000 is, maar ik vind het apart dat ik dat dan nog moet invullen als dat mijn dataset is.

edit: uiteindelijk moet ik wel iets zeggen over die 7.000 en die 4.000 zal ook nog eens in 2 subsets worden ingedeeld waardoor dus 2 aparte steekproeven uitgevoerd zullen worden.
Groet aan Maraca - Alberto Stegeman
pi_164702440
quote:
0s.gif Op vrijdag 19 augustus 2016 11:45 schreef Maraca het volgende:
Ik wil een attributieve steekproef uitvoeren, maar snap niet helemaal wat ze bedoelen met onderstaande bij het kopje "populatie"

[..]

Stel ik heb een totale populatie van 7.000. Ik wil alleen een steekproef uitvoeren op de items die aan bepaalde kenmerken voldoen. Dus stel dat dit er 4.000 zijn. Op die 4.000 wil ik dus mijn steekproef uitvoeren en ook alleen deze items zal ik inlezen in het programma. Is mijn populatie op basis van bovenstaande tekst dan 7.000 of 4.000? Als ik het zo lees dan zou ik zeggen dat het de 4.000 is, maar ik vind het apart dat ik dat dan nog moet invullen als dat mijn dataset is.

edit: uiteindelijk moet ik wel iets zeggen over die 7.000 en die 4.000 zal ook nog eens in 2 subsets worden ingedeeld waardoor dus 2 aparte steekproeven uitgevoerd zullen worden.
De kern van het antwoord zit hem in de eerste zin van je citaat:

quote:
Dit is het aantal steekproefeenheden in de populatie waaruit de steekproef getrokken is.
Als je dus een steekproef aan het trekken bent en alle 7.000 eenheden doen mee (= zouden kunnen worden geselecteerd voor de steekproef) dan is het aantal steekproefeenheden 7.000.

Als je eerst 4.000 eenheden selecteert op basis van een bepaalde eigenschap, en vervolgens een steekproeftrekking doet waarvoor je alleen gaat trekken uit die 4.000, dan is het aantal steekproefeenheden 4.000.
  zaterdag 20 augustus 2016 @ 10:30:47 #53
100126 Maraca
#cijferfetisjist
pi_164703361
quote:
0s.gif Op zaterdag 20 augustus 2016 09:07 schreef Banktoestel het volgende:

[..]

De kern van het antwoord zit hem in de eerste zin van je citaat:

[..]

Als je dus een steekproef aan het trekken bent en alle 7.000 eenheden doen mee (= zouden kunnen worden geselecteerd voor de steekproef) dan is het aantal steekproefeenheden 7.000.

Als je eerst 4.000 eenheden selecteert op basis van een bepaalde eigenschap, en vervolgens een steekproeftrekking doet waarvoor je alleen gaat trekken uit die 4.000, dan is het aantal steekproefeenheden 4.000.
Thnx! Ik had al zo'n vermoeden maar vond het vreemd dat ik dat nog eens aan moest geven omdat mijn dataset al uit die 4.000 bestaat. Maar goed, het programma zal zijn redenen daar wel voor hebben :P
Groet aan Maraca - Alberto Stegeman
pi_164794693
quote:
0s.gif Op donderdag 4 augustus 2016 18:18 schreef crossover het volgende:

[..]

Dat is altijd zo als je data in een kruistabel weergeeft.. tenzij je werkt met meerkeuze-antwoorden maar dat is hier volgens mij niet zo.

Die toets waar je het over hebt, om aan te tonen waar verschillen zitten, dat doe je met percentages of het toekennen/laten berekenen van de verwachte celwaarden (op basis van de totalen).
Dus dat is meer face-value zeg maar? Welke categorie het hoogste percentage heeft?
quote:
Wat betreft de onafhankelijkheid van data hebben we hier wat verwarring, omdat jij spreekt van onafhankelijkheid binnen één variabele, maar dat is niet wat er met (on)afhankelijkheid bedoeld wordt.
Dat dacht ik al, dus dat wilde ik even checken. :P
pi_164835635
quote:
0s.gif Op dinsdag 23 augustus 2016 20:19 schreef Operc het volgende:

[..]

Dus dat is meer face-value zeg maar? Welke categorie het hoogste percentage heeft?

Ja, in principe wel :)
'Expand my brain, learning juice!'
Last.fm
pi_164836374
quote:
0s.gif Op donderdag 25 augustus 2016 09:24 schreef crossover het volgende:

[..]

Ja, in principe wel :)
Bedankt. :) Dan had mijn student het een heel eind goed. :P
pi_164836500
quote:
0s.gif Op donderdag 25 augustus 2016 10:12 schreef Operc het volgende:

[..]

Bedankt. :) Dan had mijn student het een heel eind goed. :P
Misschien ben ik jouw student wel :P
'Expand my brain, learning juice!'
Last.fm
pi_164836971
quote:
10s.gif Op donderdag 25 augustus 2016 10:21 schreef crossover het volgende:

[..]

Misschien ben ik jouw student wel :P
Dan spreek je opeens bizar goed Nederlands. :P
pi_164878534
quote:
0s.gif Op vrijdag 12 augustus 2016 16:02 schreef Liedje_ het volgende:

[..]

Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).
[ afbeelding ]

"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..

Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?
Doe anders gewoon 7 dummy's van activiteit, waarvan je er eentje uit de regressie laat om multicollineariteit te voorkomen, om zo een niet-lineaire relatie te kunnen blootleggen. Eenvoudigst te interpreteren.
pi_165003007
quote:
0s.gif Op dinsdag 9 augustus 2016 09:43 schreef crossover het volgende:

[..]

Dan zou ik het gemiddelde en de standaarddeviatie gebruiken van de jonge personen.

Als de leeftijd van een oudere proefpersoon hoger is dan [gemiddelde jongere groep + 2*stddev jongere groep] dan zou je kunnen spreken van een relevant verschil. Dat is de meest voor de hand liggende benadering, omdat bij een normale verdeling 5% van de steekproef/populatie boven en beneden 2*de stdev t.o.v. het gemiddelde zit.
Zeg, een histogram van alle 500.000 datapunten van de jonge proefpersonen ziet er zo uit:

aviyqh.png

In Origin zit een test om te testen of de verdeling normaal is, en dat is ie niet, dus de regel van gemiddelde + 2* stdev gaat hier niet op. Niet erg, want met de verdeling is het een koud kunstje om de verschillende cut-offs te vinden.

p95 = 36.4
p99 = 48.6
p99.9 = 67.8

Als ik de p95 loslaat op een plaatje gemaakt van een oudere proefpersoon, dan kan tegen de 100% (!) van alle datapunten boven die cut-off liggen. Dat is op zich goed nieuws, want dat betekent dat bijna alle datapunten in het plaatje 'suspect' zijn, omdat datapunten met zulke hoge waardes niet voorkomen bij jonge proefpersonen. Wat ik minder vind, is dat het hele plaatje van zo'n oude proefpersoon 'grijs' kleurt na het toepassen van de p95,waardoor je eigenlijk niets meer ziet. Ook vraag ik me af hoe sterk deze analyse is, want 5% van de datapunten die van de jonge groep afkomstig is, liggen ook boven de p95. Zelfs bij de p99 kleurt erg veel grijs. p99.9 lijkt me daarom redelijker.

Mijn volgende vraag is nu wat normaal is om als cut-off te gebruiken. Met mijn engineering-achtergrond gebruik ik het liefst de hoogste waarde (p99.9), want zelfs bij deze cut-off is het overduidelijk dat sommige oudere proefpersonen (de 5 die ik rood had gekleurd) hele andere data hebben dan de jonge proefpersonen. En bij de andere vijf oudere proefpersonen krijg je percentages boven de cut-off die erg lijken op de jonge populatie, dus daar is niets mee aan de hand. Ook prima.

Iets zegt me dat statistici liever het 99e percentiel gebruiken, of zelfs het 95e percentiel. Met die laatste ga je aggressief pixels die misschien niet zo suspect zijn als suspect aangeven, terwijl die bij gebruik van het 99.9e percentiel als cut-off als normaal worden gezien (terwijl ze dat misschien niet zijn). Wat is wijsheid?

[ Bericht 1% gewijzigd door Lyrebird op 02-09-2016 10:39:18 ]
pi_165003752
quote:
0s.gif Op donderdag 1 september 2016 07:11 schreef Lyrebird het volgende:

[..]

Zeg, een histogram van alle 500.000 datapunten van de jonge proefpersonen ziet er zo uit:

[ afbeelding ]

In Origin zit een test om te testen of de verdeling normaal is, en dat is ie niet, dus de regel van gemiddelde + 2* stdev gaat hier niet op. Niet erg, want met de verdeling is het een koud kunstje om de verschillende cut-offs te vinden.

p95 = 36.4
p99 = 48.6
p99.9 = 67.8

Als ik de p95 loslaat op een plaatje gemaakt van een oudere proefpersoon, dan kan tegen de 100% (!) van alle datapunten boven die cut-off liggen. Dat is op zich goed nieuws, want dat betekent dat bijna alle datapunten in het plaatje 'suspect' zijn, omdat datapunten met zulke hoge waardes niet voorkomen bij jonge proefpersonen. Wat ik minder vind, is dat het hele plaatje van zo'n oude proefpersoon 'grijs' kleurt na het toepassen van de p95,waardoor je eigenlijk niets meer ziet. Ook vraag ik me af hoe sterk deze analyse is, want 5% van de datapunten die van de jonge groep afkomstig is, liggen ook boven de p95. Zelfs bij de p99 kleurt erg veel grijs. p99.9 lijkt me daarom redelijker:

[ afbeelding ]

Mijn volgende vraag is nu wat normaal is om als cut-off te gebruiken. Met mijn engineering-achtergrond gebruik ik het liefst de hoogste waarde (p99.9), want zelfs bij deze cut-off is het overduidelijk dat sommige oudere proefpersonen (de 5 die ik rood had gekleurd) hele andere data hebben dan de jonge proefpersonen. En bij de andere vijf oudere proefpersonen krijg je percentages boven de cut-off die erg lijken op de jonge populatie, dus daar is niets mee aan de hand. Ook prima.

Iets zegt me dat statistici liever het 99e percentiel gebruiken, of zelfs het 95e percentiel. Met die laatste ga je aggressief pixels die misschien niet zo suspect zijn als suspect aangeven, terwijl die bij gebruik van het 99.9e percentiel als cut-off als normaal worden gezien (terwijl ze dat misschien niet zijn). Wat is wijsheid?
Dit wordt ook wel sensitiviteit en specificiteit genoemd. In welke mate is een test geschikt om de positieven correct te selecteren, en de negatieven (niet) te selecteren. En eigenlijk ontbreekt er bij jou ook een soort van ankerwaarde, of externe maat waaraan je kunt toetsen of je test geschikt is (of eigenlijk meer: bij welke cut off je het beste resultaat hebt). Dat zou je kunnen achterhalen door die vijf geselecteerden uit te nodigen voor een medisch onderzoek, om even in dit voorbeeld te blijven.

Welke cut-off je gebruikt, moet je dus relateren aan een extern criterium.
'Expand my brain, learning juice!'
Last.fm
pi_165004264
Sensitivity & specificity... That rings a bell. Ik ga me eens inlezen.
pi_165004314
Btw, over die 5 mensen uitnodigen voor een extra onderzoek: dat is al uitgevoerd, en iedereen in deze studie was zo fit als een hoentje. De meting die we gedaan hebben, laat dus een variabele zien die pre-klinisch is, maar die wel de eerste (meetbare) stap in een heel vervelend proces is.
pi_166190364
Vraagje m.b.t. SPSS: Voor een (pilot)onderzoek ben ik wat gegevens aan het invoeren op SPSS. Hier is o.a. een N(P)RS bij aanwezig (Numeric pain rating scale). Dit een schaal van 1 t/m 10 waarbij mensen hun pijn kunnen aangeven/scoren.

Geldt dit als een 'scale' of als ordinaal? Er is dus wel een bepaalde rangorde (1 t/m 10) in aanwezig, maar het is geen gegeven dat mensen na een behandeling bijv. minder pijn hebben dan ervoor.
  dinsdag 25 oktober 2016 @ 12:18:47 #65
42322 MCH
Can you feel it cumming?
pi_166190404
quote:
0s.gif Op dinsdag 25 oktober 2016 12:16 schreef nickhguitar het volgende:
Er is dus wel een bepaalde rangorde (1 t/m 10) in aanwezig, maar het is geen gegeven dat mensen na een behandeling bijv. minder pijn hebben dan ervoor.
Als je het zoals voor de komma interpreteert dan mag het schaal zijn, dat komt soms al voor bij slechts 5 categorieën.
Die Schule des Lebens kennt keine Ferien
pi_166190440
quote:
0s.gif Op dinsdag 25 oktober 2016 12:18 schreef MCH het volgende:

[..]

Als je het zoals voor de komma interpreteert dan mag het schaal zijn, dat komt soms al voor bij slechts 5 categorieën.
Maar klopt het dan dat hier in principe 2 mogelijkheden beide goed zijn? Valt voor beide wel iets te zeggen toch?
pi_166190463
Ik zou zeggen schaal. Lijkt me ook niet heel handig om hier een choice model met tien categorieën in de afhankelijke variabele op te nemen.

Anders zou het zijn als die cijfers voor categorieën (slecht, slechter, valt mee, goed etc.) zouden staan, aangezien de verschillen tussen categorieën dan niet even groot zijn.
  dinsdag 25 oktober 2016 @ 12:21:37 #68
42322 MCH
Can you feel it cumming?
pi_166190471
quote:
0s.gif Op dinsdag 25 oktober 2016 12:20 schreef nickhguitar het volgende:

[..]

Maar klopt het dan dat hier in principe 2 mogelijkheden beide goed zijn? Valt voor beide wel iets te zeggen toch?
Bedoel je dat ze een 5 voor de behandeling anders beoordelen als een 5 na de behandeling? In principe kun je met interval variabelen ook 'meer'.
Die Schule des Lebens kennt keine Ferien
pi_166190502
quote:
1s.gif Op dinsdag 25 oktober 2016 12:21 schreef Kaas- het volgende:
Schaal. Lijkt me ook niet heel handig om hier een choice model met tien categorieën in de afhankelijke variabele op te nemen.
Hm. valt ook wat voor te zeggen idd.

quote:
0s.gif Op dinsdag 25 oktober 2016 12:21 schreef MCH het volgende:

[..]

Bedoel je dat ze een 5 voor de behandeling anders beoordelen als een 5 na de behandeling? In principe kun je met interval variabelen ook 'meer'.
Ons onderzoekje is vrij simpel. We meten een pijnscore voor de behandeling, passen een behandeling toe en meten dan weer een pijnscore. In theorie kan iemand voor de behandeling weinig pijn hebben en na de tijd heel veel.
pi_166190524
quote:
0s.gif Op dinsdag 25 oktober 2016 12:16 schreef nickhguitar het volgende:
maar het is geen gegeven dat mensen na een behandeling bijv. minder pijn hebben dan ervoor.
Waarom is dat relevant voor deze vraag?
pi_166190545
quote:
0s.gif Op dinsdag 25 oktober 2016 12:23 schreef nickhguitar het volgende:

[..]

Hm. valt ook wat voor te zeggen idd.

[..]

Ons onderzoekje is vrij simpel. We meten een pijnscore voor de behandeling, passen een behandeling toe en meten dan weer een pijnscore. In theorie kan iemand voor de behandeling weinig pijn hebben en na de tijd heel veel.
Ja dat kan. En je gaat dus meten of het ook zo is. Die variatie ben je juist naar op zoek. :P
pi_166190596
quote:
1s.gif Op dinsdag 25 oktober 2016 12:24 schreef Kaas- het volgende:

[..]

Ja dat kan. En je gaat dus meten of het ook zo is. Die variatie ben je juist naar op zoek. :P
En zou jij dus scale of ordinaal gebruiken voor de pijnschaal?
pi_166190648
quote:
0s.gif Op dinsdag 25 oktober 2016 12:27 schreef nickhguitar het volgende:

[..]

En zou jij dus scale of ordinaal gebruiken voor de pijnschaal?
Schaal.

Wat is je n eigenlijk? Die mag ook wel berehoog zijn om bij een ordinale schaal uberhaupt significante resultaten te krijgen, aangezien de verdeling over die categorieën ook niet gelijkmatig zal zijn.
pi_166190678
quote:
1s.gif Op dinsdag 25 oktober 2016 12:29 schreef Kaas- het volgende:

[..]

Schaal.

Wat is je n eigenlijk? Die mag ook wel berehoog zijn om bij een ordinale schaal uberhaupt significante resultaten te krijgen, aangezien de verdeling over die categorieën ook niet gelijkmatig zal zijn.
N is het aantal mensen die meedoen neem ik aan? We mikken op 16. Dat is ook het minimale wat benodigd is voor deze pilot.
pi_166190717
Zou dus gewoon een simpele OLS doen op schaalvariabele pijn met B0 + B1x[dummy voor behandeling] + controleshizzle.
pi_166190749
quote:
0s.gif Op dinsdag 25 oktober 2016 12:30 schreef nickhguitar het volgende:

[..]

N is het aantal mensen die meedoen neem ik aan? We mikken op 16. Dat is ook het minimale wat benodigd is voor deze pilot.
Oh joh. Dude.

Dan zou ik gewoon de plusjestest doen. Ik weet niet zeker of het zo heet, maar gewoon plusjes (of minnetjes) tellen na de behandeling en checken of het significant is in een bepaalde richting.
pi_166190806
quote:
10s.gif Op dinsdag 25 oktober 2016 12:34 schreef Kaas- het volgende:

[..]

Oh joh. Dude.

Dan zou ik gewoon de plusjestest doen. Ik weet niet zeker of het zo heet, maar gewoon plusjes (of minnetjes) tellen na de behandeling en checken of het significant is in een bepaalde richting.
Ik ben echt de grootste leek op dit gebied wat uberhaupt mogelijk is. We hebben van de opleiding uit een soort 'draaiboek' gekregen waarin we gaan kijken of de data normaal verdeeld is en aan de hand daarvan gaan we een aantal testen doen.
pi_166225624
quote:
0s.gif Op dinsdag 25 oktober 2016 12:37 schreef nickhguitar het volgende:

[..]

Ik ben echt de grootste leek op dit gebied wat uberhaupt mogelijk is. We hebben van de opleiding uit een soort 'draaiboek' gekregen waarin we gaan kijken of de data normaal verdeeld is en aan de hand daarvan gaan we een aantal testen doen.
Met 16 datapunten is het lastig aantonen of iets normaal verdeeld is.
pi_166229844
Waarom niet gewoon paired t-test?
Op dinsdag 1 november 2016 00:05 schreef JanCees het volgende:
De polls worden ook in 9 van de 10 gevallen gepeild met een meerderheid democraten. Soms zelf +10% _O-
pi_166574587
Ik wil een lineaire OLS-regressie uitvoeren met behulp van Excel. Ik ben in het bezit van twee data-variabelen: de gemiddelde (log) inflatie en de interest.

Wat ik mij dus afvraag, is het volgende: hoe weet ik of en wanneer ik data transformaties (log-variabelen of lag-variabelen aanmaken) moet uitvoeren?
  donderdag 10 november 2016 @ 23:40:25 #81
42322 MCH
Can you feel it cumming?
pi_166574829
quote:
0s.gif Op donderdag 10 november 2016 23:33 schreef Super-B het volgende:
Ik wil een lineaire OLS-regressie uitvoeren met behulp van Excel. Ik ben in het bezit van twee data-variabelen: de gemiddelde (log) inflatie en de interest.

Wat ik mij dus afvraag, is het volgende: hoe weet ik of en wanneer ik data transformaties (log-variabelen of lag-variabelen aanmaken) moet uitvoeren?
Lag variabele gebruiken ligt meer aan je onderzoeksvraag denk ik, dat is geen datatransformatie.
Die Schule des Lebens kennt keine Ferien
pi_166575367
Dit soort analyses vragen eigenlijk altijd om autoregressie, omdat de huidige interest/inflatie 99% afhankelijk is van de vorige*, dus inderdaad lags gebruiken. In programmas als STATA heb je methodes om te analyseren hoever je terug in de tijd moet gaan (bijv. is het seizoen/cyclus gebonden).

Maar goed.. in Excel... heb je de Analysis Toolpak? Zo ja:


Ik zou dan reeks lags toevoegen om te kijken of er bepaalde lags significant zijn, als je ziet dat lag t-7 significant is dan kan je tot t-7 gaan...Het is allemaal niet zo netjes maar goed.. 2 variabelen en excel.

By the way, je lost er je niet altijd je endogeneity (/reversed causality) probleem mee op.

Logs/NatLog zou ik niet zo snel naar grijpen. Dat is relevanter als er een groter verschil zit tussen de observaties (bijv.. ln1000 en ln1,000,000 = 6.9 en 13,8), nu ga je (lijkt me) van 2.2% naar 2.1%

*overdreven, soms.

[ Bericht 6% gewijzigd door Zith op 11-11-2016 00:10:58 ]
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_166575672
quote:
0s.gif Op vrijdag 11 november 2016 00:05 schreef Zith het volgende:
Dit soort analyses vragen eigenlijk altijd om autoregressie, omdat de huidige interest/inflatie 99% afhankelijk is van de vorige*, dus inderdaad lags gebruiken. In programmas als STATA heb je methodes om te analyseren hoever je terug in de tijd moet gaan (bijv. is het seizoen/cyclus gebonden).

Maar goed.. in Excel... heb je de Analysis Toolpak? Zo ja:


Ik zou dan reeks lags toevoegen om te kijken of er bepaalde lags significant zijn, als je ziet dat lag t-7 significant is dan kan je tot t-7 gaan...Het is allemaal niet zo netjes maar goed.. 2 variabelen en excel.

By the way, je lost er je niet altijd je endogeneity (/reversed causality) probleem mee op.

Logs/NatLog zou ik niet zo snel naar grijpen. Dat is relevanter als er een groter verschil zit tussen de observaties (bijv.. ln1000 en ln1,000,000 = 6.9 en 13,8), nu ga je (lijkt me) van 2.2% naar 2.1%

*overdreven, soms.
Ik heb de Analysis Toolpak ja. Mijn stappenplan zag er als volgt uit:

1. Eventuele data-transformaties

2. Test voor autocorrelatie (Residual Plot, Lagrange Multiplier Test)

3. Test voor heteroskedasticiteit

4. T-test/F-Test & OLS-regressie
pi_166575711
Als het mogelijk is binnen excel kan je White's S/E gebruiken als je vindt dat er heteroskedasticity is (heteroskedasticity robust standard errors).
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_166575859
quote:
0s.gif Op vrijdag 11 november 2016 00:24 schreef Zith het volgende:
White's S/E
?
pi_166577416
quote:
0s.gif Op vrijdag 11 november 2016 00:35 schreef Super-B het volgende:

[..]

?
quote:
(heteroskedasticity robust standard errors).
Dat is een manier om de standard errors zo te berekenen dat het geen last ondervindt van de heteroskedasticity (dat de afstand van error tot gemiddelde niet random is). Bij stata doe je vce(robust) aan het einde maar hoe het in excel moet weet ik niet :P

https://en.wikipedia.org/(...)tent_standard_errors
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_166586528
quote:
0s.gif Op vrijdag 11 november 2016 08:36 schreef Zith het volgende:

[..]

[..]

Dat is een manier om de standard errors zo te berekenen dat het geen last ondervindt van de heteroskedasticity (dat de afstand van error tot gemiddelde niet random is). Bij stata doe je vce(robust) aan het einde maar hoe het in excel moet weet ik niet :P

https://en.wikipedia.org/(...)tent_standard_errors

Ik heb een beetje zitten knoeien met de data in Excel en uit mijn residual plot komt het volgende uitrollen:

c7ee3e1057.png

Is er sprake van autocorrelatie? Mijn data betreft een time-series.
pi_166588879
Ik zou toch vast blijven houden aan de durbin watson of lagrange multiplier, zie

http://higheredbcs.wiley.(...)f_econometrics3e.pdf

Hoofdstuk Detecting Autocorrelation

(net dit boek gevonden, ziet er uit als een top boek voor je onderzoek :) )
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
  vrijdag 11 november 2016 @ 20:13:57 #89
42322 MCH
Can you feel it cumming?
pi_166589143
quote:
0s.gif Op vrijdag 11 november 2016 19:59 schreef Zith het volgende:
Ik zou toch vast blijven houden aan de durbin watson of lagrange multiplier, zie

http://higheredbcs.wiley.(...)f_econometrics3e.pdf

Hoofdstuk Detecting Autocorrelation

(net dit boek gevonden, ziet er uit als een top boek voor je onderzoek :) )

Durbin H's toch ipv Durbin Watson:

In the presence of a lagged criterion variable among the predictor variables, the
DW statistic is biased towards finding no autocorrelation. For such models Durbin
(1970) proposed a statistic (Durbin’s h)

:@
Die Schule des Lebens kennt keine Ferien
pi_166594502
quote:
0s.gif Op vrijdag 11 november 2016 20:13 schreef MCH het volgende:

[..]

Durbin H's toch ipv Durbin Watson:

In the presence of a lagged criterion variable among the predictor variables, the
DW statistic is biased towards finding no autocorrelation. For such models Durbin
(1970) proposed a statistic (Durbin’s h)

:@
Aight! Weer wat geleerd :) Nog nooit een autoregressive model gemaakt, alleen wat over gehoord tijdens de colleges...
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_166634307
Ik heb twee vragen. De vraag is beknopt weergegeven, alleen de relevante informatie is opgenomen. Mocht je toch een vraag hebben, laat mij weten.

Algemene informatie dataset
Y = tussen 0 en 1
Independent variabe X = tussen 1 en 4
Overige controle variabelen --> niet echt relevant hier
alpha = 5%

De samenhang tussen independent variable X met dependent variable Y moest ik op twee manieren aantonen. Zie hieronder

quote:
Manier 1: Regressieanalyse Y = b0 + b1X1 + b2Xcontrol

Uitkomst
beta 1 = 0,028 en P = 0,038. Significant want Pval < alpha
quote:
Manier 2: Pearson R analyse

Uitkomst R = 0,101 en P = 0,124. Niet significant want Pval > alpha.
Kan het kloppen dat de samenhang/verband (beta) bij de regressie wel significant is, maar bij Pearson R niet?

En volgende vraag: welke van de twee analyses geeft het meeste duidelijke beeld van de samenhang tussen de variabelen weer?
  zondag 13 november 2016 @ 19:39:36 #92
42322 MCH
Can you feel it cumming?
pi_166634665
quote:
0s.gif Op zondag 13 november 2016 19:30 schreef JohnKimble het volgende:
Ik heb twee vragen. De vraag is beknopt weergegeven, alleen de relevante informatie is opgenomen. Mocht je toch een vraag hebben, laat mij weten.

Algemene informatie dataset
Y = tussen 0 en 1
Independent variabe X = tussen 1 en 4
Overige controle variabelen --> niet echt relevant hier
alpha = 5%

De samenhang tussen independent variable X met dependent variable Y moest ik op twee manieren aantonen. Zie hieronder

[..]

[..]

Kan het kloppen dat de samenhang/verband (beta) bij de regressie wel significant is, maar bij Pearson R niet?

En volgende vraag: welke van de twee analyses geeft het meeste duidelijke beeld van de samenhang tussen de variabelen weer?
Het kan prima zo zijn dat bepaalde variabelen door het toevoegen van andere variabelen opeens wel significant zijn. Je ziet zelf ook wel dat de lage R al aangeeft dat het ook niet een bijster sterk verband, eerder zwak zeg maar.
Die Schule des Lebens kennt keine Ferien
  zondag 13 november 2016 @ 19:40:46 #93
42322 MCH
Can you feel it cumming?
pi_166634711
quote:
0s.gif Op zondag 13 november 2016 19:30 schreef JohnKimble het volgende:
Ik heb twee vragen. De vraag is beknopt weergegeven, alleen de relevante informatie is opgenomen. Mocht je toch een vraag hebben, laat mij weten.

Algemene informatie dataset
Y = tussen 0 en 1
Independent variabe X = tussen 1 en 4
Overige controle variabelen --> niet echt relevant hier
alpha = 5%

De samenhang tussen independent variable X met dependent variable Y moest ik op twee manieren aantonen. Zie hieronder

[..]

[..]

Kan het kloppen dat de samenhang/verband (beta) bij de regressie wel significant is, maar bij Pearson R niet?

En volgende vraag: welke van de twee analyses geeft het meeste duidelijke beeld van de samenhang tussen de variabelen weer?
Lees dit topic maar eens door.
Die Schule des Lebens kennt keine Ferien
pi_166634889
quote:
0s.gif Op zondag 13 november 2016 19:30 schreef JohnKimble het volgende:
Ik heb twee vragen. De vraag is beknopt weergegeven, alleen de relevante informatie is opgenomen. Mocht je toch een vraag hebben, laat mij weten.

Algemene informatie dataset
Y = tussen 0 en 1
Independent variabe X = tussen 1 en 4
Overige controle variabelen --> niet echt relevant hier
alpha = 5%

De samenhang tussen independent variable X met dependent variable Y moest ik op twee manieren aantonen. Zie hieronder

[..]


[..]

Kan het kloppen dat de samenhang/verband (beta) bij de regressie wel significant is, maar bij Pearson R niet?

En volgende vraag: welke van de twee analyses geeft het meeste duidelijke beeld van de samenhang tussen de variabelen weer?
1. Ja, dat kan.
2. De regressie met controlevariabelen geeft meer het 'pure effect' van X op Y weer.
pi_166635818
quote:
0s.gif Op zondag 13 november 2016 19:40 schreef MCH het volgende:

[..]

Lees dit topic maar eens door.
quote:
1s.gif Op zondag 13 november 2016 19:44 schreef Kaas- het volgende:

[..]

1. Ja, dat kan.
2. De regressie met controlevariabelen geeft meer het 'pure effect' van X op Y weer.
Thanks! Dus als ik het goed begrijp, dan geeft de regressieanalyse de theoretische causale relatie weer, terwijl de correlatieanalyse R dat niet doet.

De reden omdat X en Y niet correleert bij R, komt omdat een ander verband/beta (controlevariabel) de Y omlaag trekt, waardoor als je alleen X en Y vergelijkt zonder naar de overige variabelen te kijken dit nauwelijks een verband heeft?

Dit zeg ik omdat ik zie dat er een andere variabel is met beta -0,077. Zie hieronder

dsF8q1y.png
pi_166636542
Daar komt het wel ongeveer op neer, al kan je overigens nooit zo gemakkelijk zeggen dat een regressie-analyse een causaal verband weergeeft. Er kunnen immers nog een hoop belangrijke controlevariabelen ontbreken, er kan sprake van reverse causality zijn, etc etc.
pi_166636730
Regressie-analyse is géén indicatie voor causaliteit. Er is wat dat betreft geen verschil tussen regressie en correlatie. De regressiecoefficienten zijn wel gerelateerd aan de partiele correlatiecoefficienten, en hebben daarmee dus dezelfde beperkingen. Dit is een groot misverstand onder mensen die gebruik maken van statistiek.
  zondag 13 november 2016 @ 20:28:47 #98
42322 MCH
Can you feel it cumming?
pi_166636838
quote:
0s.gif Op zondag 13 november 2016 20:25 schreef Banktoestel het volgende:
Regressie-analyse is géén indicatie voor causaliteit. Er is wat dat betreft geen verschil tussen regressie en correlatie. De regressiecoefficienten zijn wel gerelateerd aan de partiele correlatiecoefficienten, en hebben daarmee dus dezelfde beperkingen. Dit is een groot misverstand onder mensen die gebruik maken van statistiek.
Hier spreekt het levende handboek der statistiek. _O_
Die Schule des Lebens kennt keine Ferien
pi_166637390
Klopt, ik bedoelde met 'theoretische causale verband' het verband wat in het regressiemodel staat met in mijn achterhoofd wat in mijn statistiekboek staat namelijk:

'When we propose a regression model, we might have a causal mechanism in mind, but
cause and effect is not proven by a simple regression. We cannot assume that the explanatory
variable is “causing” the variation we see in the response variable.'
pi_166720535
Hallo,

Voor mijn onderzoek ben ik bezig om gegevens te analyseren. Hiervoor wil ik graag weten of mijn resultaten significant zijn. Ik heb mijn resultaten nu overzichtelijk in Excel staan. Is het mogelijk om de significantie in Excel te berekenen?

Voorbeeld van mijn resultaten in een 'tabel':

A B G
2 1 0
1 0 1
1 0 0
2 2 0
2 1 1
2 0 0
2 1 0
2 2 1
2 0 1
0 2 0

A=Antwoord 1 (0=sterk, 1=voldoende/redelijk, 2=matig, 3=niet),
B=Antwoord 2 (0=Hoog, 1=Midden, 2=Laag),
G=Geslacht. (0=Man en 1=Vrouw)

Vervolgens wil ik bijvoorbeeld weten of mannen meer voorkeur hebben voor product A dan vrouwen. Hoe kan ik de significantie hiervoor berekenen? Moet ik hiervoor misschien de T-Toets gebruiken?

Alvast bedankt!
pi_166720929
Heb er toevallig vorige week ook mee zitten klooien in excel, een stuk of 4 uur. Alleen ging het toen om correlatie. Toen alles uit pure ellende maar naar SPSS gekopieerd en binnen een kwartier resultaat. Dus dat zou ik je aanraden.
pi_166734129
quote:
7s.gif Op donderdag 17 november 2016 20:18 schreef Verpakkingen het volgende:
Hallo,

Voor mijn onderzoek ben ik bezig om gegevens te analyseren. Hiervoor wil ik graag weten of mijn resultaten significant zijn. Ik heb mijn resultaten nu overzichtelijk in Excel staan. Is het mogelijk om de significantie in Excel te berekenen?

Voorbeeld van mijn resultaten in een 'tabel':

A B G
2 1 0
1 0 1
1 0 0
2 2 0
2 1 1
2 0 0
2 1 0
2 2 1
2 0 1
0 2 0

A=Antwoord 1 (0=sterk, 1=voldoende/redelijk, 2=matig, 3=niet),
B=Antwoord 2 (0=Hoog, 1=Midden, 2=Laag),
G=Geslacht. (0=Man en 1=Vrouw)

Vervolgens wil ik bijvoorbeeld weten of mannen meer voorkeur hebben voor product A dan vrouwen. Hoe kan ik de significantie hiervoor berekenen? Moet ik hiervoor misschien de T-Toets gebruiken?

Alvast bedankt!
Ik zou hiervoor geen t-toets gebruiken maar de niet-parametrische versie daarvan (Wilcoxon rank toets). Dit omdat je 'uitkomstvariabele' (waardering voor product) geen continue maar een ordinale variabele is.

Je kan dan 2 Wilcoxon toetsen doen; één om te toetsen of mannen en vrouwen verschillen in hun waardering van product A en nog een om te toetsen of mannen en vrouwen verschillen in hun waardering van product B.

Ik zou het ook handig vinden om je uitkomstvariabelen te hercoderen zodat een hoger cijfer staat voor een hogere waardering, maar dat terzijde.
pi_166814270
Ik breek even in met een ontzettende noobvraag. Ik ben zo slecht in statistiek en het is ook alweer even geleden voor mij. Heb al van alles opgezocht maar ik kom er niet uit.

Ik heb de volgende tabel en moet daarbij dus de 95% CI en p-waarden berekenen.
Iemand enig idee hoe ik dit aan moet pakken?
Je zou me ontzettend helpen!!

ieve1UC.png
deux filles
qui faisaient la paire
riaient si fort que la plus belle
a bien failli mourir ... mourir de joie
  maandag 21 november 2016 @ 22:57:04 #104
42322 MCH
Can you feel it cumming?
pi_166814774
quote:
0s.gif Op maandag 21 november 2016 22:42 schreef Njosnavelin het volgende:
Ik breek even in met een ontzettende noobvraag. Ik ben zo slecht in statistiek en het is ook alweer even geleden voor mij. Heb al van alles opgezocht maar ik kom er niet uit.

Ik heb de volgende tabel en moet daarbij dus de 95% CI en p-waarden berekenen.
Iemand enig idee hoe ik dit aan moet pakken?
Je zou me ontzettend helpen!!

[ afbeelding ]
http://www.measuringu.com/blog/ci-five-steps.php
Die Schule des Lebens kennt keine Ferien
pi_166814928
quote:
Dankje voor de link!
Alleen kom ik precies weer uit waar ik net ook zat: hoe kom ik bij een SD, als de 'mean' het verschil is tussen 2 means? (zie mijn tabel).
Dan kan ik toch geen SD berekenen?
deux filles
qui faisaient la paire
riaient si fort que la plus belle
a bien failli mourir ... mourir de joie
  maandag 21 november 2016 @ 23:05:29 #106
42322 MCH
Can you feel it cumming?
pi_166815100
quote:
5s.gif Op maandag 21 november 2016 23:00 schreef Njosnavelin het volgende:

[..]

Dankje voor de link!
Alleen kom ik precies weer uit waar ik net ook zat: hoe kom ik bij een SD, als de 'mean' het verschil is tussen 2 means? (zie mijn tabel).
Dan kan ik toch geen SD berekenen?
de SD is gegeven?
Die Schule des Lebens kennt keine Ferien
pi_166815285
quote:
0s.gif Op maandag 21 november 2016 23:05 schreef MCH het volgende:

[..]

de SD is gegeven?
Ja, maar in die 5e kolom, dat is het verschil tussen de means van A en B. En daar moet ik het CI van berekenen. Dan moet ik toch ook de SD hebben die bij het verschil (dus de mean uit kolom 5) hoort?
deux filles
qui faisaient la paire
riaient si fort que la plus belle
a bien failli mourir ... mourir de joie
  maandag 21 november 2016 @ 23:17:24 #108
42322 MCH
Can you feel it cumming?
pi_166815540
quote:
0s.gif Op maandag 21 november 2016 23:10 schreef Njosnavelin het volgende:

[..]

Ja, maar in die 5e kolom, dat is het verschil tussen de means van A en B. En daar moet ik het CI van berekenen. Dan moet ik toch ook de SD hebben die bij het verschil (dus de mean uit kolom 5) hoort?
http://onlinestatbook.com(...)dist_diff_means.html ?
Die Schule des Lebens kennt keine Ferien
  maandag 21 november 2016 @ 23:21:32 #109
42322 MCH
Can you feel it cumming?
pi_166815694
of dit http://stats.stackexchang(...)etween-two-data-sets

je vraag letterlijk googlen werkt :+
Die Schule des Lebens kennt keine Ferien
pi_166815778
quote:
Thanks! Alleen hebben ze het daar wel steeds over twee verschillende populaties, terwijl mijn subsets gewoon twee gerandomiseerde groepen zijn uit 1 populatie. Enig idee of ik daar dan een andere methode voor moet gebruiken?
deux filles
qui faisaient la paire
riaient si fort que la plus belle
a bien failli mourir ... mourir de joie
pi_166820703
Hierbij nog even weer een vraag.

Ik wil graag verschil en/of samenhang tussen verschillende variabelen toetsen.

De variabelen hebben de volgende schaal:
NominaalxNominaal
NominaalxOrdinaal
OrdinaalxOrdinaal.

Hiervoor wil ik graag de Chi-Kwadraattoets (Chi-square) gebruiken. Is dit de juiste toets voor al mijn variabelen (bestaande uit nominale of ordinale schaal)?

Hiervoor gebruik ik de volgende hypothesen:
H0: Er is in de populatie geen verband tussen de variabelen (vb. leeftijd en hoe vaak mensen internetaankopen doen).
H1: Er is in de populatie wel een verband tussen deze variabelen.

Graag hoor ik van jullie!! Alvast bedankt.
  dinsdag 22 november 2016 @ 11:14:14 #112
42322 MCH
Can you feel it cumming?
pi_166821151
quote:
0s.gif Op dinsdag 22 november 2016 10:45 schreef Verpakkingen het volgende:
Hierbij nog even weer een vraag.

Ik wil graag verschil en/of samenhang tussen verschillende variabelen toetsen.

De variabelen hebben de volgende schaal:
NominaalxNominaal
NominaalxOrdinaal
OrdinaalxOrdinaal.

Hiervoor wil ik graag de Chi-Kwadraattoets (Chi-square) gebruiken. Is dit de juiste toets voor al mijn variabelen (bestaande uit nominale of ordinale schaal)?

Hiervoor gebruik ik de volgende hypothesen:
H0: Er is in de populatie geen verband tussen de variabelen (vb. leeftijd en hoe vaak mensen internetaankopen doen).
H1: Er is in de populatie wel een verband tussen deze variabelen.

Graag hoor ik van jullie!! Alvast bedankt.
is dit huiswerk?
Die Schule des Lebens kennt keine Ferien
pi_166821529
quote:
0s.gif Op dinsdag 22 november 2016 11:14 schreef MCH het volgende:

[..]

is dit huiswerk?
Nee, ik wilde even checken of ik de juiste toets heb gebruikt.
Dus is de Chi-square de juiste toets hiervoor?
  dinsdag 22 november 2016 @ 11:37:00 #114
42322 MCH
Can you feel it cumming?
pi_166821535
quote:
0s.gif Op dinsdag 22 november 2016 11:36 schreef Verpakkingen het volgende:

[..]

Nee, ik wilde even checken of ik de juiste toets heb gebruikt.
Dus is de Chi-square de juiste toets hiervoor?
Kan
Die Schule des Lebens kennt keine Ferien
  dinsdag 22 november 2016 @ 11:38:01 #115
42322 MCH
Can you feel it cumming?
pi_166821556
En spearman's rank
Die Schule des Lebens kennt keine Ferien
pi_166827479
Hallo!

Ik ben bezig met een statistiekonderzoek voor mijn studie, maar weet niet hoe ik een bepaalde berekening uit moet voeren.

Het betreft een onderzoek waarbij twee variabelen negatief correleren. twee variabelen samen moeten gebruikt worden om te onderzoeken of ze samen verband houden met een andere variabele.

(A <--> B) <--> C

Heeft iemand een suggestie voor welke methode ik het beste kan gebruiken om te onderzoeken of er een relatie is tussen de negatief correlerende variabelen en de andere variabele? In eerste instantie dacht ik er zelf aan één van de twee als mediator te gebruiken, maar omdat niet gezegd kan worden welke van de twee dan een mediator zou zijn kan dit niet, de twee variabelen moeten als gelijk gezien worden (als ik mijn docent goed begrepen heb).

Alvast bedankt voor het meedenken!

[ Bericht 2% gewijzigd door ABZ op 22-11-2016 17:12:58 ]
  dinsdag 22 november 2016 @ 16:58:33 #117
42322 MCH
Can you feel it cumming?
pi_166827522
quote:
0s.gif Op dinsdag 22 november 2016 16:56 schreef ABZ het volgende:
Hallo!

Ik ben bezig met een statistiekonderzoek voor mijn studie, maar weet niet hoe ik een bepaalde berekening uit moet voeren.

Het betreft een onderzoek waarbij twee variabelen negatief correleren. twee variabelen samen moeten gebruikt worden om te onderzoeken of ze samen verband houden met een andere variabele.

Heeft iemand een suggestie voor welke methode ik het beste kan gebruiken om te onderzoeken of er een relatie is tussen de negatief correlerende variabelen en de andere variabele? In eerste instantie dacht ik er zelf aan één van de twee als mediator te gebruiken, maar omdat niet gezegd kan worden welke van de twee dan een mediator zou zijn kan dit niet, de twee variabelen moeten als gelijk gezien worden (als ik mijn docent goed begrepen heb).

Alvast bedankt voor het meedenken!
Lekker duidelijk verhaal weer Hans. ;(
Die Schule des Lebens kennt keine Ferien
pi_166830363
quote:
0s.gif Op dinsdag 22 november 2016 16:56 schreef ABZ het volgende:
Hallo!

Ik ben bezig met een statistiekonderzoek voor mijn studie, maar weet niet hoe ik een bepaalde berekening uit moet voeren.

Het betreft een onderzoek waarbij twee variabelen negatief correleren. twee variabelen samen moeten gebruikt worden om te onderzoeken of ze samen verband houden met een andere variabele.

(A <--> B) <--> C

Heeft iemand een suggestie voor welke methode ik het beste kan gebruiken om te onderzoeken of er een relatie is tussen de negatief correlerende variabelen en de andere variabele? In eerste instantie dacht ik er zelf aan één van de twee als mediator te gebruiken, maar omdat niet gezegd kan worden welke van de twee dan een mediator zou zijn kan dit niet, de twee variabelen moeten als gelijk gezien worden (als ik mijn docent goed begrepen heb).

Alvast bedankt voor het meedenken!
Hoezo 'of ze samen verband houden'? Ik weet niet of ik je goed begrijp maar ik zou een multipele lineaire regressie uitvoeren met A en B als onafhankelijke vars en C als afhankelijke var. Je kan eventueel een interactieterm toevoegen (A*B=AB toevoegen als onafhankelijke var). Daarnaast natuurlijk even kijken of de onderlinge correlatie tussen A en B niet te hoog is (ivm multicolineariteit).
'Expand my brain, learning juice!'
Last.fm
pi_167108440
Hey ppl,

Iemand die enig idee heeft hoe je in STATA groepen kunt aanmaken? Dus, bijvoorbeeld, twee groepen bestaande uit 10 variabelen per groep. Elk variabele heeft dan ook 20 observaties.
pi_167113059
quote:
0s.gif Op zondag 4 december 2016 23:18 schreef Super-B het volgende:
Hey ppl,

Iemand die enig idee heeft hoe je in STATA groepen kunt aanmaken? Dus, bijvoorbeeld, twee groepen bestaande uit 10 variabelen per groep. Elk variabele heeft dan ook 20 observaties.
Wat bedoel je precies met een groep? Wil je gewoon variabelen aanmaken? Dat kan (even uit m'n hoofd) met:
set obs 20
gen x = [waarde, bijvoorbeeld . of 1]
'Expand my brain, learning juice!'
Last.fm
pi_167113735
quote:
0s.gif Op maandag 5 december 2016 10:46 schreef crossover het volgende:

[..]

Wat bedoel je precies met een groep? Wil je gewoon variabelen aanmaken? Dat kan (even uit m'n hoofd) met:
set obs 20
gen x = [waarde, bijvoorbeeld . of 1]
Ik heb 20 variabelen met ieder 22 observaties. De bedoeling is om het gemiddelde te vergelijken tussen 10 vs 10 variabelen. Hiervoor is het doel om deze 20 variabelen te verdelen in twee groepen, zodat ik groep 1 met groep 2 kan vergelijken.

Sowieso moet ik een two sample independent T-test uitvoeren, maar je kan geen meerdere variabelen invoeren in STATA... Althans ik kan dat niet.
pi_167115121
extra variabele aanmaken (groep), geef die de waarde 0 als het bij groep 1 hoort, waarde 1 als het bij groep 2 hoort.
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_167119202
quote:
0s.gif Op maandag 5 december 2016 12:10 schreef Zith het volgende:
extra variabele aanmaken (groep), geef die de waarde 0 als het bij groep 1 hoort, waarde 1 als het bij groep 2 hoort.
Hoe kan ik ze toewijzen de dummy-variabele? Er is niet zoiets als age/gender of iets in die richting waarbij ik een voorwaarde kan stellen.

Het zijn gewoon 20 variabelen naast elkaar in kolommen, met daaronder de observaties in rijen. Het is niet dat ik de variabelen kan toewijzen op basis van die observaties zoals ''als observatie < 1'' dan is dummy= 1 anders 0.

[ Bericht 11% gewijzigd door Super-B op 05-12-2016 15:10:48 ]
pi_167120401
quote:
0s.gif Op maandag 5 december 2016 15:04 schreef Super-B het volgende:

[..]

Hoe kan ik ze toewijzen de dummy-variabele? Er is niet zoiets als age/gender of iets in die richting waarbij ik een voorwaarde kan stellen.

Het zijn gewoon 20 variabelen naast elkaar in kolommen, met daaronder de observaties in rijen. Het is niet dat ik de variabelen kan toewijzen op basis van die observaties zoals ''als observatie < 1'' dan is dummy= 1 anders 0.

Wat heeft het dan voor zin om te vergelijken als je zelf de groepen gaat indelen op basis van willekeur?
Als je het toch echt willekeurig wil doen kan je een variabele genereren met de runiform() funtie, en dan vervolgens afronden naar 1 of 0 met de round functie.
'Expand my brain, learning juice!'
Last.fm
pi_167120982
quote:
0s.gif Op maandag 5 december 2016 11:15 schreef Super-B het volgende:

[..]

Ik heb 20 variabelen met ieder 22 observaties. De bedoeling is om het gemiddelde te vergelijken tussen 10 vs 10 variabelen. Hiervoor is het doel om deze 20 variabelen te verdelen in twee groepen, zodat ik groep 1 met groep 2 kan vergelijken.

Sowieso moet ik een two sample independent T-test uitvoeren, maar je kan geen meerdere variabelen invoeren in STATA... Althans ik kan dat niet.

Begrijp ik goed dat je de gemiddelde score per observatie van variabele 1-10 met de gemiddelde score per observatie van variabele 11-21 wil vergelijken? In dat geval, nieuwe variabele aanmaken die het gemiddelde van variabele 1-10 heeft, datzelfde doen voor de variabelen 11-20 en dan een t-toets die die twee variabelen vergelijkt.
pi_167189734
Hoi kan iemand mij helpen met mijn vraag?

Het gaat namelijk om het volgende:
Ik heb een logistische regressie analyse uitgevoerd in SPSS. Nu geeft de goodness of fit test van hosmer and lemeshow een significant resultaat aan, wat betekent dat mijn data niet goed past met het model.

Mijn vraag is: is dit problematisch of kan ik gewoon verder gaan wetende dat mijn data niet goed past bij het model?

Hoop dat iemand mij kan helpen!!
Thanks
pi_167192666
Stel ik heb data die, als ik ze zou plotten, een beetje op een parabool zou lijken. Vervolgens voer ik een lineaire regressie uit. In dat geval past data die niet in de fit van het model, en dat heeft ten gevolge dat mijn voorspelde waarden (onder een lineair model) niet passen bij mijn geobserveerde waarden (want: exponentieel model). Je fit is slecht, dus je voorspelde waarden hebben een heel grote error component.

Wat denk je dan, dat je daarmee door kunt werken of dat je iets moet doen?
"The best way to cheer yourself is to try to cheer someone else up." - Mark Twain
pi_167193052
quote:
0s.gif Op donderdag 8 december 2016 16:56 schreef Sarasi het volgende:
Stel ik heb data die, als ik ze zou plotten, een beetje op een parabool zou lijken. Vervolgens voer ik een lineaire regressie uit. In dat geval past data die niet in de fit van het model, en dat heeft ten gevolge dat mijn voorspelde waarden (onder een lineair model) niet passen bij mijn geobserveerde waarden (want: exponentieel model). Je fit is slecht, dus je voorspelde waarden hebben een heel grote error component.

Wat denk je dan, dat je daarmee door kunt werken of dat je iets moet doen?
Hmm, maar ik las dat het dan meestal aan je sample size ligt.
Mijn scriptiebegeleider wilde namelijk per se dat ik deze analyse ging uitvoeren terwijl mijn data niet ervoor geschikt was. De data heb ik vervolgens zo moet omgooien dat een binary logistic regression analyse uitvoerbaar was.
Anyway enig idee hoe ik dit kan oplossen?
pi_167193822
Met je begeleider gaan overleggen. Als hij wil dat je een analyse doet op data die daar niet geschikt voor zijn, klopt daar iets niet. Als hij wil dat je de data transformeert zodat de analyse wel mogelijk is, moet je even je oude statistiekboeken induiken. Als je dat nooit geleerd hebt, hoort je begeleider je te helpen.

Als je zelf wat meer opzoekt, kun je straks met een concrete vraag waarschijnlijk beter terecht in het centrale statistiektopic.

Succes! :)
"The best way to cheer yourself is to try to cheer someone else up." - Mark Twain
pi_167447461
Ik ben momenteel bezig met een onderzoek naar de expertise van Nederland op het gebied van zeldzame ziekten. Hiervoor gebruik ik o.a. publicatie-data die ik nu redelijk netjes heb staan. Het format is:
Instituut X, uitland Y heeft in jaartal Z n aantal publicaties geschreven over ziekte Q.

Nu wil ik de ontwikkeling van het aantal publicaties over een ziekte over de tijd weergeven...en de invloed van de markt introductie van medicijnen en/of oprichting van patientenverenigingen hierop in kaart brengen.

Het gaat niet zo zeer om de absolute aantallen want die nemen eigenlijk altijd wel toe over de tijd. Ik wil vooral kijken naar de ontwikkeling van Nederland t.o.v. de wereld output en de ontwikkeling van de concentratie in Nederland binnen een instituut.

Eigenlijk zou ik na deze studie iets meer willen kunnen zeggen over de invloed van de onderstaande evenementen:
- Na marktintroductie medicijn nam het aandeel van Nederland in de wereld output af...
- Na oprichting patientenvereniging nam het aantal publicaties in Nederland toe
- Over de loop van de tijd zijn de publicaties van Nederland steeds meer geconcentreerd in Instituut X.

Ik zit te denken om een regressie te doen over de periode voor en na een evenement.
Op zich is dit niet een heel gecompliceerde vraagstuk maar ik zit er toch mee te stoeien...hoe dit op een wetenschappelijk verantwoorde manier weer te geven. Hierbij loop ik aan tegen zaken als:
- Wat doe je met jaren waarin geen publicaties geschreven zijn? (als ik output Nederland dan deel door wereld-output dan krijg ik uiteraard 0/0)
- Wat doe je met jaren waarin Nederland geen publicaties schreef?(Als ik de concentratie van de Nederlandse expertise in een instituut zou willen weergeven over de tijd dan moet ik publicaties instiuut delen door publicaties nederland...en dan krijgen we weer 0/0)

En stel ik krijg de volgende twee regressielijnen:
Voor evenement: y=1,5x +2
Na evenement: y= 2,0+ 3

- Hoe zou ik op basis van deze twee lijnen de invloed van het evenement kunnen quantificeren?

Alle hulp wordt gewaardeerd en vraag maar raak als iets je niet duidelijk is.
pi_167461267
quote:
0s.gif Op maandag 19 december 2016 17:13 schreef Mynheer007 het volgende:
Ik ben momenteel bezig met een onderzoek naar de expertise van Nederland op het gebied van zeldzame ziekten. Hiervoor gebruik ik o.a. publicatie-data die ik nu redelijk netjes heb staan. Het format is:
Instituut X, uitland Y heeft in jaartal Z n aantal publicaties geschreven over ziekte Q.

Nu wil ik de ontwikkeling van het aantal publicaties over een ziekte over de tijd weergeven...en de invloed van de markt introductie van medicijnen en/of oprichting van patientenverenigingen hierop in kaart brengen.

Het gaat niet zo zeer om de absolute aantallen want die nemen eigenlijk altijd wel toe over de tijd. Ik wil vooral kijken naar de ontwikkeling van Nederland t.o.v. de wereld output en de ontwikkeling van de concentratie in Nederland binnen een instituut.

Eigenlijk zou ik na deze studie iets meer willen kunnen zeggen over de invloed van de onderstaande evenementen:
- Na marktintroductie medicijn nam het aandeel van Nederland in de wereld output af...
- Na oprichting patientenvereniging nam het aantal publicaties in Nederland toe
- Over de loop van de tijd zijn de publicaties van Nederland steeds meer geconcentreerd in Instituut X.

Ik zit te denken om een regressie te doen over de periode voor en na een evenement.
Op zich is dit niet een heel gecompliceerde vraagstuk maar ik zit er toch mee te stoeien...hoe dit op een wetenschappelijk verantwoorde manier weer te geven. Hierbij loop ik aan tegen zaken als:
- Wat doe je met jaren waarin geen publicaties geschreven zijn? (als ik output Nederland dan deel door wereld-output dan krijg ik uiteraard 0/0)
- Wat doe je met jaren waarin Nederland geen publicaties schreef?(Als ik de concentratie van de Nederlandse expertise in een instituut zou willen weergeven over de tijd dan moet ik publicaties instiuut delen door publicaties nederland...en dan krijgen we weer 0/0)

En stel ik krijg de volgende twee regressielijnen:
Voor evenement: y=1,5x +2
Na evenement: y= 2,0+ 3

- Hoe zou ik op basis van deze twee lijnen de invloed van het evenement kunnen quantificeren?

Alle hulp wordt gewaardeerd en vraag maar raak als iets je niet duidelijk is.
Leuk onderzoek met raakvlakken op mijn PhD!

Ik raad je een difference-in-differences estimatie aan met Nederland als treatment group.


290px-Illustration_of_Difference_in_Differences.png

Dus twee dummies: Nederland (0/1), Ex-post (0/1). Periode na (ex-post) marktintroductie voor nederland is dus 1 & 1 voor beide dummies. Ik zou een periode nemen (bijv. 5 jaar na introducie, 5 jaar voor introductie) dan takkel je het probleem met nullen, per jaar kan ook, dan wordt het lastiger werk maar dan kan je zien of het effect na x jaar af neemt.

Y(publicaties?) = B0 + B1*Nederland + B2*ExPost + B3*Nederland*ExPost + BnXn + E.

Als de interactie NL*Expost significant en positief is dan heeft marktintroductie een positief effect op publicaties.

Mooist zou zijn als je een aantal landen neemt (US/UK/FR/DE/NL), dan kan je wellicht meerdere marktintroducties in meerdere landen bekijken.

Wellicht kan je ipv landen instituten gebruiken (en dan daarna bij resultaten ook bekijken of alle NL instituten vooruitgang boekten?

Je moet laten zien dat in gevallen zonder evenement er geen verschil is tussen beide groepen (dus dat ze bijv. beiden stijgen in publicaties)... kan je doen door naar vergelijkbare wetenschapspublicaties te kijken voor beide groepen (zie --->> parallel assumption test). Anders zou het kunnen dat een stijging van NLse publicaties komt omdat NL relatief meer subsidie is gaan geven terwijl andere landen dat minder zijn gaan doen.

Ik kan je eventueel mijn (in November gesubmit naar journal) working paper sturen, heeft raakvlakken in de zin dat het over wetenschap(pers) gaat en diff-in-diff na een evenement gaat.

[ Bericht 2% gewijzigd door Zith op 20-12-2016 00:40:31 ]
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_167463264
quote:
0s.gif Op maandag 19 december 2016 23:08 schreef Zith het volgende:

[..]

Leuk onderzoek met raakvlakken op mijn PhD!

Ik raad je een difference-in-differences estimatie aan met Nederland als treatment group.


[ afbeelding ]

Dus twee dummies: Nederland (0/1), Ex-post (0/1). Periode na (ex-post) marktintroductie voor nederland is dus 1 & 1 voor beide dummies. Ik zou een periode nemen (bijv. 5 jaar na introducie, 5 jaar voor introductie) dan takkel je het probleem met nullen, per jaar kan ook, dan wordt het lastiger werk maar dan kan je zien of het effect na x jaar af neemt.

Y(publicaties?) = B0 + B1*Nederland + B2*ExPost + B3*Nederland*ExPost + BnXn + E.

Als de interactie NL*Expost significant en positief is dan heeft marktintroductie een positief effect op publicaties.

Mooist zou zijn als je een aantal landen neemt (US/UK/FR/DE/NL), dan kan je wellicht meerdere marktintroducties in meerdere landen bekijken.

Wellicht kan je ipv landen instituten gebruiken (en dan daarna bij resultaten ook bekijken of alle NL instituten vooruitgang boekten?

Je moet laten zien dat in gevallen zonder evenement er geen verschil is tussen beide groepen (dus dat ze bijv. beiden stijgen in publicaties)... kan je doen door naar vergelijkbare wetenschapspublicaties te kijken voor beide groepen (zie --->> parallel assumption test)

Ik kan je eventueel mijn (in November gesubmit naar journal) working paper sturen, heeft raakvlakken in de zin dat het over wetenschap(pers) gaat en diff-in-diff na een evenement gaat.
Bedankt voor je uitgebreide reactie. Ik ga er morgen even goed voor zitten om te kijken hoe ver ik hier mee kan komen. Ik stuur je morgen ook wel even een pm want ik ben wel geïnteresseerd in hoe jij het hebt aangepakt.

[ Bericht 0% gewijzigd door Mynheer007 op 20-12-2016 00:08:19 ]
pi_167464263
tvp

ook ik moet eraan geloven
pi_167467254
quote:
1s.gif Op maandag 19 december 2016 23:58 schreef Mynheer007 het volgende:

[..]

Bedankt voor je uitgebreide reactie. Ik ga er morgen even goed voor zitten om te kijken hoe ver ik hier mee kan komen. Ik stuur je morgen ook wel even een pm want ik ben wel geïnteresseerd in hoe jij het hebt aangepakt.
Je kunt ook kijken naar een Chow test. Dan kijk je of er een structural break zit op een vooraf gespecificeerd punt. In jouw geval zou dat prima kunnen volgens mij, dan bekijk je de data voor en na de oprichting van een patientenvereniging etc.
Op dinsdag 23 november 2010 02:22 schreef Braddie het volgende:
Haal van internet af man.
pi_167501771
quote:
0s.gif Op dinsdag 20 december 2016 09:43 schreef wimjongil het volgende:

[..]

Je kunt ook kijken naar een Chow test. Dan kijk je of er een structural break zit op een vooraf gespecificeerd punt. In jouw geval zou dat prima kunnen volgens mij, dan bekijk je de data voor en na de oprichting van een patientenvereniging etc.
Bedankt voor de tip. Ik heb er al een paar mooie plaatjes mee kunnen maken en heb gevonden wat ik wilde; een hele duidelijk break op het moment dat er een medicijn geïntroduceerd werd. Echter is dat bij sommige ziekten weer net anders maar dan blijken er dus verschillende ontwikkelmodellen zijn:)
pi_168006703
Ik zit te klooien met de correlatie tussen meerdere metingen van dezelfde objecten in verschillende laboratoria. De schaal is continue, maar de waarden zijn niet normaal verdeeld, dus ik zou de spearmans rho kunnen gebruiken om de 2 laboratoria te kunnen vergelijken. Echter zit ik met het volgende.

De metingen in het lab zijn in duplo uitgevoerd. Met dat laatste weet ik niet goed om te gaan.

Vraag: hoe bepaal ik de correlatie tussen de metingen in 2 verschillende labs (lab-A en lab-B) waarbij de metingen n=80 (01_lab-A en 02_lab-A .... 80_lab-A) in de laboratoria ook in duplo (01_lab-A_1 en 01_lab-A_2) zijn uitgevoerd.
Dosis sola venenum facit
"An' though the rules of the road have been lodged
It's only people's games that you've got to dodge
And it's alright, Ma, I can make it"
pi_168268753
Hoi,

Ik heb tweemaal een correlogram gemaakt:

76a709e549.png

8c18ab9fcb.png

Wat is het verschil als ik kijk naar een correlogram van Y1 uit het model en als ik naar een correlogram kijk van de residuals uit het model? Meestal gaan de autocorrelaties van lags via de residuals het model binnendringen wat niet goed is en betekent dat je extra lags moet toevoegen, toch? Maar is de betekenis en intuitie als je kijkt naar een correlogram van de Y1 variabele ansich? En wat is het verschil tussen het kijken naar een correlogram van Y1 en het kijken naar een correlogram van de residuals?


Daarnaast... Waar moet ik naar kijken om te weten of er een autocorrelatie is en vanaf welke lag etc.?
pi_168290540
Vraagje O+
Even eenvoudig gesteld. Ik heb variabele A, B en ik meet interactie A*B.
Voor A heb ik hypothese 1.
Voor B heb ik hypothese 2.
Voor A*B heb ik hypothese 3.

Naar mijn idee moet ik dan drie losse regressies draaien:
Eerste egressie met de controlevariabelen en variabele A, om hypothese 1 te meten.
Tweede regressie 1 met de controlevariabelen en variabele B, om hypothese 2 te meten.

Maar ik twijfel over de derde regressie om hypothese 3 te meten, met de invloed van A*B. Moet ik dan enkel de interactie A*B meenemen, of ook de twee losse variabelen A en B?
Kan iemand mij uit de brand helpen? :@
I hope your day is as nice as your butt.
-
Please consider the environment before printing this post.
pi_168291028
quote:
2s.gif Op vrijdag 20 januari 2017 12:56 schreef KaBuf het volgende:
Vraagje O+
Even eenvoudig gesteld. Ik heb variabele A, B en ik meet interactie A*B.
Voor A heb ik hypothese 1.
Voor B heb ik hypothese 2.
Voor A*B heb ik hypothese 3.

Naar mijn idee moet ik dan drie losse regressies draaien:
Eerste egressie met de controlevariabelen en variabele A, om hypothese 1 te meten.
Tweede regressie 1 met de controlevariabelen en variabele B, om hypothese 2 te meten.

Maar ik twijfel over de derde regressie om hypothese 3 te meten, met de invloed van A*B. Moet ik dan enkel de interactie A*B meenemen, of ook de twee losse variabelen A en B?
Kan iemand mij uit de brand helpen? :@
Je moet 1 enkel model doen, waarin zowel beide variabelen als de interactie staan. Voor robistness checks eventueel een paar extra met verschillende extra controlevariabelen, maar wel elke keer met beide variabelen en de interactie. Als je daar een deel van uitlaat meet je immers niet langer het pure effect dat je zoekt.

Is het overigens bijna nooit het geval dat je het pure effect meet dat je zoekt, maar je probeert het uiteraard wel zo dicht mogelijk te benaderen.
  vrijdag 20 januari 2017 @ 13:31:28 #140
42322 MCH
Can you feel it cumming?
pi_168291277
Wel een slechte eerste begeleider die het op de manier zoals je het eerst hebt gedaan goedkeurt :')
Die Schule des Lebens kennt keine Ferien
pi_168292065
Tweede lezer zegt letterlijk:

quote:
volgens mij zou de student vier regressies kunnen draaien:
- Een zonder interacties (alleen main effects)
- Een met interactie RvC x PBetr
- Een met interactie AC x PBetr
- Een met interacties RcC x PBetr en AC x PBetr. (volledig model)
Dus die zegt ook verschillende regressies :P
I hope your day is as nice as your butt.
-
Please consider the environment before printing this post.
pi_168292085
quote:
0s.gif Op vrijdag 20 januari 2017 13:31 schreef MCH het volgende:
Wel een slechte eerste begeleider die het op de manier zoals je het eerst hebt gedaan goedkeurt :')
Mijn begeleider heeft letterlijk naar de tweede lezer gemaild:
quote:
ik denk dat ik het allemaal al significant genoeg vond
:X
I hope your day is as nice as your butt.
-
Please consider the environment before printing this post.
pi_168292307
quote:
2s.gif Op vrijdag 20 januari 2017 14:05 schreef KaBuf het volgende:
Tweede lezer zegt letterlijk:

[..]

Dus die zegt ook verschillende regressies :P
Het voordeel aan meerdere en steeds uitgebreidere regressies is ook dat je zo kunt zien hoe de coëfficiënten en p-waardes van de variabelen die je onderzoekt per model veranderen. Dat biedt meer zekerheid (of juist niet) over de werkelijke waardes ervan.
pi_168292406
quote:
0s.gif Op vrijdag 20 januari 2017 14:14 schreef Kaas- het volgende:

[..]

Het voordeel aan meerdere en steeds uitgebreidere regressies is ook dat je zo kunt zien hoe de coëfficiënten en p-waardes van de variabelen die je onderzoekt per model veranderen. Dat biedt meer zekerheid (of juist niet) over de werkelijke waardes ervan.
Zover was ik al ja :P

Maar als mijn hypothese dan is: A beinvloedt X.
Moet ik voor beantwoording dus wel het definitieve model pakken (dus incl B en A*B), maar kan ik (zoals jij zegt) wel overwegen in hoeverre A beinvloedbaar is door die kleinere regressies mee te nemen?

Oh man ik ben zo slecht in statistiek :')
I hope your day is as nice as your butt.
-
Please consider the environment before printing this post.
pi_168292671
quote:
2s.gif Op vrijdag 20 januari 2017 14:18 schreef KaBuf het volgende:

[..]

Zover was ik al ja :P

Maar als mijn hypothese dan is: A beinvloedt X.
Moet ik voor beantwoording dus wel het definitieve model pakken (dus incl B en A*B), maar kan ik (zoals jij zegt) wel overwegen in hoeverre A beinvloedbaar is door die kleinere regressies mee te nemen?

Oh man ik ben zo slecht in statistiek :')
Als in al die verschillende modellen A een p-waarde heeft die lager is dan bijvoorbeeld .01 of .05 en dat de coëfficiënt ook telkens redelijk gelijk is, en je daarnaast ook kwalitatief kan beredeneren waarom het logisch is dat A een directe invloed heeft op X en dat het niet door andere zaken komt, dan kan je prima stellen dat je bewijs hebt gevonden voor die hypothese.
pi_168292680
quote:
7s.gif Op vrijdag 20 januari 2017 14:32 schreef Kaas- het volgende:

[..]

Als in al die verschillende modellen A een p-waarde heeft die lager is dan bijvoorbeeld .01 of .05 en dat de coëfficiënt ook telkens redelijk gelijk is, en je daarnaast ook kwalitatief kan beredeneren waarom het logisch is dat A een directe invloed heeft op X en dat het niet door andere zaken komt, dan kan je prima stellen dat je bewijs hebt gevonden voor die hypothese.
Dank O+
I hope your day is as nice as your butt.
-
Please consider the environment before printing this post.
pi_168292760
quote:
2s.gif Op vrijdag 20 januari 2017 14:33 schreef KaBuf het volgende:

[..]

Dank O+
Het is zo basic en iets dat je veel gebruikt dat de meeste studenten er volgens mij al niet eens meer bij stil staan, maar een p-waarde van ca. 0 in een regressie betekent eigenlijk niets anders dan dat die coëfficiënt significant van nul afwijkt en er binnen je geschatte model dus een invloed van die onafhankelijke variabele op de afhankelijke variabele is.

Zonder robustness checks en zonder kwalitatieve analyse is dat echter op zichzelf nog geen bewijs dat er dus sprake is van een causaal verband.

Leuk trouwens dat je nu zo ver bent. Nog even de laatste wijzigingen en dan zal je wel klaar zijn. ^O^
pi_168292911
quote:
7s.gif Op vrijdag 20 januari 2017 14:37 schreef Kaas- het volgende:

[..]

Het is zo basic en iets dat je veel gebruikt dat de meeste studenten er volgens mij al niet eens meer bij stil staan, maar een p-waarde van ca. 0 in een regressie betekent eigenlijk niets anders dan dat die coëfficiënt significant van nul afwijkt en er binnen je geschatte model dus een invloed van die onafhankelijke variabele op de afhankelijke variabele is.

Zonder robustness checks en zonder kwalitatieve analyse is dat echter op zichzelf nog geen bewijs dat er dus sprake is van een causaal verband.

Leuk trouwens dat je nu zo ver bent. Nog even de laatste wijzigingen en dan zal je wel klaar zijn. ^O^
Ja heb ook (natuurlijk) robuustheidschecks enzo in mn onderzoek verwerkt. :Y
Op 9 februari staat mijn verdediging gepland, dus even knallen nog :Y
I hope your day is as nice as your butt.
-
Please consider the environment before printing this post.
pi_168573570
Hoi,

Kan iemand die verstand heeft van statistiek mij uit de brand helpen? Het gaat over de unit-root case van de Dickey and Fuller test... en het gaat om dit stukje:

''Consider the equation: Yt = 2Yt-1 - Yt-2 + ut

This is a I(2) series. This latter piece of terminology states that I(2) series contains two unit roots, a I(1) series contains one unit root and I(0) series is completely stationary. Because of the I(2) series in this case, we will need to difference the equation 2 times to get rid of the two unit roots and get a I(0) equation''

Wat ik mij dus afvraag is:

Als je het volgende hebt:

ffdc578621.png

Waarbij sprake is van een unit root als :

d1d6942ffc.png

Dan kan dat toch maar één keer gebeuren? Hoe kan er méér dan 1 unit roots zijn?!
pi_168743943
Weet iemand hoe ik dit moet interpreteren?:

3a52672f03.png

Ik begrijp dat een GARCH-model hetzelfde is als ARMA-model, maar dan een GARCH model er is voor de volatiliteit/varianties. Maar ik begrijp niet hoe de effecten van de volatiliteit te kunnen interpreteren door middel van een schatting van de regressie via STATA..
  dinsdag 7 februari 2017 @ 21:31:22 #151
376125 CapnIzzy
Geef aye voor de kapitein
pi_168744309
Youtube/professor/medestudenten al geprobeerd?
#onoverwinnelijk
https://www.playgwent.com/en/ - Official beta of Gwent: The Witcher Gard Game
pi_168744660
quote:
0s.gif Op dinsdag 7 februari 2017 21:31 schreef CapnIzzy het volgende:
Youtube/professor/medestudenten al geprobeerd?
Professor: reageert zelden en als die dan reageert dan zijn we al zeker 1.5-2weken verder. :')

Medestudenten: lopen achter.
  dinsdag 7 februari 2017 @ 22:49:58 #153
376125 CapnIzzy
Geef aye voor de kapitein
pi_168747267
quote:
0s.gif Op dinsdag 7 februari 2017 21:39 schreef RustCohle het volgende:

[..]

Professor: reageert zelden en als die dan reageert dan zijn we al zeker 1.5-2weken verder. :')

Medestudenten: lopen achter.
Kan je na college niks vragen dan? Anders wordt het gewoon youtube (welke vaak nog best handig is)
#onoverwinnelijk
https://www.playgwent.com/en/ - Official beta of Gwent: The Witcher Gard Game
pi_169310732
Iemand enig idee wat fout is aan de volgende formule voor excel ?

=ALS(OF(BW2 < 150, BW2 > 1500),1,0)
"the greatest enemy of knowledge is not ignorance, it is the illusion of knowledge." -Stephen W. Hawking
  zondag 5 maart 2017 @ 20:21:32 #155
235003 wimjongil
Harde man
pi_169313984
Moet die komma in de or-statement geen puntkomma zijn?
Op dinsdag 23 november 2010 02:22 schreef Braddie het volgende:
Haal van internet af man.
pi_169317158
Hoi!
Ik heb een vraag over mijn afstudeeronderzoek. Ik wil de test-hertest betrouwbaarheid en validiteit berekenen van een vragenlijst die bestaat uit twee schalen. De data is verzameld aan de hand van vragen op een 4-punts likertschaal (Helemaal mee eens, mee eens, oneens, helemaal oneens).

Op dit moment wil ik de assumpties testen voor de test-hertest betrouwbaarheid. Maar ik zit met de vraag of ik nu de schaal van de eerste afname en de schaal van de tweede afname tegelijkertijd moet testen op normaliteit, of moet ik dat eerst van elke schaal apart doen? Gezamenlijk zijn ze normaal verdeelt. Echter als ik naar ieder apart kijk, blijkt er dat een niet normaal verdeeld is.

Ik hoop dat jullie begrijpen wat ik bedoel en mij kunnen helpen.
pi_169324731
quote:
0s.gif Op zondag 5 maart 2017 21:31 schreef Droppiedrie het volgende:
Hoi!
Ik heb een vraag over mijn afstudeeronderzoek. Ik wil de test-hertest betrouwbaarheid en validiteit berekenen van een vragenlijst die bestaat uit twee schalen. De data is verzameld aan de hand van vragen op een 4-punts likertschaal (Helemaal mee eens, mee eens, oneens, helemaal oneens).

Op dit moment wil ik de assumpties testen voor de test-hertest betrouwbaarheid. Maar ik zit met de vraag of ik nu de schaal van de eerste afname en de schaal van de tweede afname tegelijkertijd moet testen op normaliteit, of moet ik dat eerst van elke schaal apart doen? Gezamenlijk zijn ze normaal verdeelt. Echter als ik naar ieder apart kijk, blijkt er dat een niet normaal verdeeld is.

Ik hoop dat jullie begrijpen wat ik bedoel en mij kunnen helpen.
Als je voldoende ruimte hebt om dit zo te beschrijven kan je er ook voor kiezen om alle varianten te presenteren. Als dat niet zo is, dan is er iets voor te zeggen om het bij de eerste keer te houden, want als je geen test-hertestbetrouwbaarheid had gedaan, had je ook de tweede set niet afgenomen.

Overigens, geeft het maar mooi aan dat er altijd iets bestaat als toevalstreffers, als dezelfde test op een ander moment een ander resultaat op je toets van assumptie geeft. Ik zou dus ook altijd een visuele inspectie doen om te kijken of je gekke dingen ziet. Normaliteitstoetsen zijn er in veel vormen en maten. Een simpele histogram helpt altijd wel wat, een Q-Q plot of P-P plot ook.

En daarbij komt de vraag, in hoeverre kan een vierpuntsschaal eigenlijk normaald verdeeld zijn? Je zal nooit een belvorm kunnen aantreffen omdat het geen continue schaal is. Dus ik zou t allemaal met een korreltje zout nemen.
'Expand my brain, learning juice!'
Last.fm
pi_169326110
quote:
0s.gif Op maandag 6 maart 2017 08:30 schreef crossover het volgende:

[..]

Als je voldoende ruimte hebt om dit zo te beschrijven kan je er ook voor kiezen om alle varianten te presenteren. Als dat niet zo is, dan is er iets voor te zeggen om het bij de eerste keer te houden, want als je geen test-hertestbetrouwbaarheid had gedaan, had je ook de tweede set niet afgenomen.

Overigens, geeft het maar mooi aan dat er altijd iets bestaat als toevalstreffers, als dezelfde test op een ander moment een ander resultaat op je toets van assumptie geeft. Ik zou dus ook altijd een visuele inspectie doen om te kijken of je gekke dingen ziet. Normaliteitstoetsen zijn er in veel vormen en maten. Een simpele histogram helpt altijd wel wat, een Q-Q plot of P-P plot ook.

En daarbij komt de vraag, in hoeverre kan een vierpuntsschaal eigenlijk normaald verdeeld zijn? Je zal nooit een belvorm kunnen aantreffen omdat het geen continue schaal is. Dus ik zou t allemaal met een korreltje zout nemen.
Heel erg bedankt voor je antwoord! Ik denk dat ik inderdaad op het verkeerde spoor zit en dat ik het discontinue zou moeten bekijken. Ik ga het verder uitzoeken :)
abonnementen ibood.com bol.com
Forum Opties
Forumhop:
Hop naar:
(afkorting, bv 'KLB')