abonnement Unibet Coolblue
pi_164197729
Dit is een topic voor alle vragen die je hebt over statistiek, SPSS, R, Excel etcetera.
pi_164197734
Laatste vraag van het vorige topic:

quote:
0s.gif Op dinsdag 2 augustus 2016 13:08 schreef Operc het volgende:
Een student hier heeft een analyse gedaan en ik ben even de weg kwijt. :@

Kort samengevat:

3 soorten schilderijen beoordeeld (tekeningen, houtskool, verfwerken) en vervolgens is een van de variabelen een categorisatie van wat er op het schilderij staat. (fruitmand, voertuig, mens, gebouw). Nu wil de student kijken of wat er op het schilderij staat verschilt per type schilderij. Kun je hier qua Chi-square iets mee? En kun je per soort voorwerp op het schilderij een chi-square doen om te zien of die wezenlijk van elkaar verschillen in hoe vaak ze voorkomen in de drie groepen? Ik heb het idee dat dat lastig is omdat die verschillen niet onafhankelijk zijn, maar misschien zie ik iets over het hoofd.
quote:
0s.gif Op dinsdag 2 augustus 2016 17:46 schreef crossover het volgende:

[..]

Chi2 kan inderdaad.

Wat je dan ook kan doen is percentages berekenen per rij of kolom (afhankelijk wat waar staat). Dan zie je of het soort voorwerp groter is per groep.
Of: je laat uitrekenen wat de het verwachte aantal is op basis van de totalen en dan zie je of het geobserveerde aantal afwijkt.
quote:
0s.gif Op woensdag 3 augustus 2016 12:06 schreef Operc het volgende:

[..]

Oke, maar kun je dan daarna ook nog individuele groepen vergelijken (buiten de percentages) via een chi-square of dat niet? (Aangezien de data niet onafhankelijk zijn enzo.) En zou je daarvoor moeten heroveren naar meerdere variabelen met 0 en 1?
pi_164218133
quote:
0s.gif Op woensdag 3 augustus 2016 13:13 schreef Operc het volgende:
Laatste vraag van het vorige topic:

[..]

[..]

[..]

Als de data niet ofafhankelijk zijn zou ik me sowieso afvragen wat voor zin het heeft om er een dergelijke analyse op los te laten. Dan zal je dit ook terugzien in je toets.

De assumptie in de regel bij statistische toetsen is dat de variabelen onafhankelijk zijn. Dat is wat je toetst. (Bij de frequentistische benadering in ieder geval, en er zijn vast nog wel meer uitzonderingen).
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164218316
Ik hanteer soms de regel "zo onafhankelijk mogelijk".
Aldus.
pi_164222357
Iemand hier tips om je voor te bereiden op de lessen statistiek van een Premaster als Sociology / Organization Studies / Human Resource Studies? Dus bijvoorbeeld een boek dat begint bij de basis voor iemand die eerst mbo en toen hbo gedaan heeft en dus totaal geen ervaring met statistiek maar toch een beetje voorkennis op wil doen.
pi_164222513
quote:
0s.gif Op donderdag 4 augustus 2016 14:09 schreef ZuidGrens het volgende:
Iemand hier tips om je voor te bereiden op de lessen statistiek van een Premaster als Sociology / Organization Studies / Human Resource Studies? Dus bijvoorbeeld een boek dat begint bij de basis voor iemand die eerst mbo en toen hbo gedaan heeft en dus totaal geen ervaring met statistiek maar toch een beetje voorkennis op wil doen.
Dan zou ik een boek als Statistiek in woorden aanschaffen. Daarin worden de veel gebruikte begrippen heel helder uitgelegd met simpele voorbeelden. Dat helpt denk ik enorm voor en universitaire studie want dan kan je toch wat makkelijker mee komen met de stof.

Als je interesse hebt dan mag je mijn exemplaar wel overnemen :)
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164223768
quote:
0s.gif Op donderdag 4 augustus 2016 10:03 schreef crossover het volgende:

[..]

Als de data niet ofafhankelijk zijn zou ik me sowieso afvragen wat voor zin het heeft om er een dergelijke analyse op los te laten. Dan zal je dit ook terugzien in je toets.

De assumptie in de regel bij statistische toetsen is dat de variabelen onafhankelijk zijn. Dat is wat je toetst. (Bij de frequentistische benadering in ieder geval, en er zijn vast nog wel meer uitzonderingen).
Voorbeeldje qua data:
1
2
3
4
          Tekening houtskool verf
Voertuig  20       40        20
Mens      40       20        20
Gebouw    20       20        40
Stel de chi-square is significant, kan mijn student daarna nog een test doen om aan te tonen dat voertuig bij houtskool vaker voorkomen en mens bij tekening etc? Want als er op houtskool meer voertuigen staan, zorgt dat er automatisch voor dat op die werken geen mensen of gebouwen staan. (En dus lijkt me de data niet onafhankelijk, maar misschien zie ik het fout.)
pi_164227012
quote:
0s.gif Op donderdag 4 augustus 2016 15:19 schreef Operc het volgende:

[..]

Voorbeeldje qua data:
[ code verwijderd ]

Stel de chi-square is significant, kan mijn student daarna nog een test doen om aan te tonen dat voertuig bij houtskool vaker voorkomen en mens bij tekening etc? Want als er op houtskool meer voertuigen staan, zorgt dat er automatisch voor dat op die werken geen mensen of gebouwen staan. (En dus lijkt me de data niet onafhankelijk, maar misschien zie ik het fout.)
Dat is altijd zo als je data in een kruistabel weergeeft.. tenzij je werkt met meerkeuze-antwoorden maar dat is hier volgens mij niet zo.

Die toets waar je het over hebt, om aan te tonen waar verschillen zitten, dat doe je met percentages of het toekennen/laten berekenen van de verwachte celwaarden (op basis van de totalen).

Wat betreft de onafhankelijkheid van data hebben we hier wat verwarring, omdat jij spreekt van onafhankelijkheid binnen één variabele, maar dat is niet wat er met (on)afhankelijkheid bedoeld wordt.
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164355828
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
age    mean     stdv
23    20.44    11.2
23    20.65    9.18
23    14.24    7.18
23    16.09    7.61
24    21.32    11.94
24    18.04    9.16
25    18.87    10.12
25    20.43    10.15
25    20.39    10.15
25    14.9    6.7
--    --    --
54    22.95    11.02
55    17.96    9.42
59    42.5    24.38
59    63.67    28.56
60    22.33    11.86
61    38.19    20.09
63    85.37    40.76
63    36.9    20.88
65    17.41    10
65    24.77    13

Als het om statistiek gaat, dan kom ik niet veel verder dan een gemiddeld en een standaarddeviatie. Ik gebruik het spul tot nu toe te weinig om me er echt in te verdiepen (alhoewel dat wel eens rap kan veranderen binnenkort, maar dat terzijde).

In de bovenstaande tabel staan de meetgegevens van een bepaalde variabele van 10 jonge proefpersonen, die vanwege hun leeftijd geen last kunnen hebben van een niet-nader-te-noemen ouderdomsziekte. We hebben een gemiddelde waarde per proefpersoon gemeten, en een standaarddeviatie.

Daarnaast hebben we ook tien oudere proefpersonen doorgemeten.

Beetje uit de losse pols zijn de proefpersonen die een rood stipje hebben, "suspect".



Welke oudere proefpersonen vallen buiten de range die als "normaal" bestempeld kan worden, gebaseerd op de meetgegevens van de jonge proefpersonen? Welke methode moet ik gebruiken om dat aan te tonen?
Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson
pi_164355926
Misschien heb je hier wat aan:

"Happiness is not getting more, but wanting less"
pi_164356314
quote:
0s.gif Op dinsdag 9 augustus 2016 09:14 schreef Lyrebird het volgende:

[ code verwijderd ]

Als het om statistiek gaat, dan kom ik niet veel verder dan een gemiddeld en een standaarddeviatie. Ik gebruik het spul tot nu toe te weinig om me er echt in te verdiepen (alhoewel dat wel eens rap kan veranderen binnenkort, maar dat terzijde).

In de bovenstaande tabel staan de meetgegevens van een bepaalde variabele van 10 jonge proefpersonen, die vanwege hun leeftijd geen last kunnen hebben van een niet-nader-te-noemen ouderdomsziekte. We hebben een gemiddelde waarde per proefpersoon gemeten, en een standaarddeviatie.

Daarnaast hebben we ook tien oudere proefpersonen doorgemeten.

Beetje uit de losse pols zijn de proefpersonen die een rood stipje hebben, "suspect".

[ afbeelding ]

Welke oudere proefpersonen vallen buiten de range die als "normaal" bestempeld kan worden, gebaseerd op de meetgegevens van de jonge proefpersonen? Welke methode moet ik gebruiken om dat aan te tonen?
Dan zou ik het gemiddelde en de standaarddeviatie gebruiken van de jonge personen.

Als de leeftijd van een oudere proefpersoon hoger is dan [gemiddelde jongere groep + 2*stddev jongere groep] dan zou je kunnen spreken van een relevant verschil. Dat is de meest voor de hand liggende benadering, omdat bij een normale verdeling 5% van de steekproef/populatie boven en beneden 2*de stdev t.o.v. het gemiddelde zit.
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164357703
Ik heb een praktische vraag over hoe iets in SPSS werkt. Ik wil meerdere datasets samenvoegen tot één dataset en weet niet hoe dat werkt en vraag me af of iemand daarbij kan helpen.

Beschrijving van mijn data:
• Ik heb 30 datasets/databestanden (steeds een soortgelijke dataset over de jaren 1981, 1982, ... , 2010).
• Per dataset zijn er duizenden entries. Het is een jaarlijkse survey en per entry heb je dan gegevens als leeftijd, geslacht, opleiding etc. etc.

Beschrijving van wat ik ermee wil.
• Uit elke dataset zijn er van de ca. 100 variabelen slechts 6 die ik wil gebruiken.
• Ik wil één grote dataset creëren waarin voor al die 30 jaar, uit al die 30 datasets, alle entries samenkomen voor de variabelen die ik wil bekijken.
• Omdat ik dan een tijdreeksanalyse ga doen is het nodig dat in de nieuwe dataset ook per entrie wordt aangegeven uit welk jaar (1981, 1982 etc.) die komt. Het jaartal staat er nu nog niet in, aangezien elke dataset gewoon het jaartal als titel heeft.

Voorbeeld om het te verduidelijken:
• Ik heb nu dertig datasets waarin telkens in opeenvolgende jaren aan duizend (telkens verschillende) mensen wordt gevraagd wat hun leeftijd, geslacht, opleiding etc. is. Ik wil die samenvoegen tot één dataset waar ze allemaal in staan, en dan met als extra variabele het jaartal waaruit die dataset komt. Dit zodat ik kan onderzoeken of er in die dertig jaar een trend kan worden waargenomen in de relatie tussen enkele van die variabelen.

Hoe doe ik het dit? Alle advies is welkom. :)
pi_164357861
quote:
3s.gif Op dinsdag 9 augustus 2016 10:46 schreef Kaas- het volgende:
Ik heb een praktische vraag over hoe iets in SPSS werkt. Ik wil meerdere datasets samenvoegen tot één dataset en weet niet hoe dat werkt en vraag me af of iemand daarbij kan helpen.

Beschrijving van mijn data:
• Ik heb 30 datasets/databestanden (steeds een soortgelijke dataset over de jaren 1981, 1982, ... , 2010).
• Per dataset zijn er duizenden entries. Het is een jaarlijkse survey en per entry heb je dan gegevens als leeftijd, geslacht, opleiding etc. etc.

Beschrijving van wat ik ermee wil.
• Uit elke dataset zijn er van de ca. 100 variabelen slechts 6 die ik wil gebruiken.
• Ik wil één grote dataset creëren waarin voor al die 30 jaar, uit al die 30 datasets, alle entries samenkomen voor de variabelen die ik wil bekijken.
• Omdat ik dan een tijdreeksanalyse ga doen is het nodig dat in de nieuwe dataset ook per entrie wordt aangegeven uit welk jaar (1981, 1982 etc.) die komt. Het jaartal staat er nu nog niet in, aangezien elke dataset gewoon het jaartal als titel heeft.

Voorbeeld om het te verduidelijken:
• Ik heb nu dertig datasets waarin telkens in opeenvolgende jaren aan duizend (telkens verschillende) mensen wordt gevraagd wat hun leeftijd, geslacht, opleiding etc. is. Ik wil die samenvoegen tot één dataset waar ze allemaal in staan, en dan met als extra variabele het jaartal waaruit die dataset komt. Dit zodat ik kan onderzoeken of er in die dertig jaar een trend kan worden waargenomen in de relatie tussen enkele van die variabelen.

Hoe doe ik het dit? Alle advies is welkom. :)
Ik heb SPSS even niet bij de hand dus ik kan het niet opzoeken, maar ergens onder data of iets dergelijks staat iets van merge data(sets) ofzo? Daar kun je dat doen. :P En dan kun je kiezen welke variabelen over moeten blijven en welke niet enzo. Ik weet niet of je daar een variabele kunt toevoegen die stelt uit welke dataset je data komt (die 'jaar' variabele), maar anders kun je dat altijd nog in elke dataset doen (kost wel meer werk. :P) Dan voeg je gewoon een variabele toe met Jaar en trek je die door voor alle cases. (Of via compute variable en dan gewoon alleen het getal invoeren.)
pi_164357983
quote:
0s.gif Op dinsdag 9 augustus 2016 10:55 schreef Operc het volgende:

[..]

Ik heb SPSS even niet bij de hand dus ik kan het niet opzoeken, maar ergens onder data of iets dergelijks staat iets van merge data(sets) ofzo? Daar kun je dat doen. :P En dan kun je kiezen welke variabelen over moeten blijven en welke niet enzo. Ik weet niet of je daar een variabele kunt toevoegen die stelt uit welke dataset je data komt (die 'jaar' variabele), maar anders kun je dat altijd nog in elke dataset doen (kost wel meer werk. :P) Dan voeg je gewoon een variabele toe met Jaar en trek je die door voor alle cases. (Of via compute variable en dan gewoon alleen het getal invoeren.)
Ik ga dit zo even proberen. In ieder geval bedankt voor de suggestie kerel.
pi_164358127
quote:
0s.gif Op dinsdag 9 augustus 2016 09:20 schreef ssebass het volgende:
Misschien heb je hier wat aan:

[ afbeelding ]
Ja, dat is wel handig.

Eens kijken, ik heb een variabele, en de vraag is of ik meer dan een populatie heb? De variances zijn niet homogeen?
Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson
pi_164358184
quote:
0s.gif Op dinsdag 9 augustus 2016 09:43 schreef crossover het volgende:

[..]

Dan zou ik het gemiddelde en de standaarddeviatie gebruiken van de jonge personen.

Als de leeftijd van een oudere proefpersoon hoger is dan [gemiddelde jongere groep + 2*stddev jongere groep] dan zou je kunnen spreken van een relevant verschil. Dat is de meest voor de hand liggende benadering, omdat bij een normale verdeling 5% van de steekproef/populatie boven en beneden 2*de stdev t.o.v. het gemiddelde zit.
Alle resultaten van de jonge p.p. op een hoop gooien, mean + stddev berekenen, en dan kijken of het gemiddelde van de jongere groep + 2 x stddev kleiner is dan een individuele oudere?

Of toch een statistische test met een moeilijk woord?
Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson
pi_164358414
quote:
0s.gif Op dinsdag 9 augustus 2016 11:14 schreef Lyrebird het volgende:

[..]

Alle resultaten van de jonge p.p. op een hoop gooien, mean + stddev berekenen, en dan kijken of het gemiddelde van de jongere groep + 2 x stddev kleiner is dan een individuele oudere?

Of toch een statistische test met een moeilijk woord?
Ik zou doen wat crossover zegt. Normale statistische toetsen gaan op groepsniveau. Dus als je bijvoorbeeld wilt testen of ouderen gemiddeld hoger scoren dan jongeren, dan zou je een t-toets doen. (En dan volg je het schema van ssebass). Maar omdat jij een individuele score wilt vergelijken met een groep, zou ik zoals crossover zegt het gemiddelde en de standaarddeviatie van de groep jongeren gebruiken. :)
pi_164358582
Het concept is me nu duidelijk. Hoe zit het met de specifieke invulling? Moet ik het gemiddelde van alle jongeren berekenen, en dan de standaard deviatie van de gemiddelden gebruiken?

Of moeten alle metingen van de jongeren (iedere pp. heeft 50.000 metingen, waaruit een gemiddelde en stddev bepaald worden) op een hoop worden gegooid, om daar dan het gemiddelde en stddev van te bepalen?
Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson
pi_164359154
quote:
0s.gif Op dinsdag 9 augustus 2016 11:37 schreef Lyrebird het volgende:
Het concept is me nu duidelijk. Hoe zit het met de specifieke invulling? Moet ik het gemiddelde van alle jongeren berekenen, en dan de standaard deviatie van de gemiddelden gebruiken?

Of moeten alle metingen van de jongeren (iedere pp. heeft 50.000 metingen, waaruit een gemiddelde en stddev bepaald worden) op een hoop worden gegooid, om daar dan het gemiddelde en stddev van te bepalen?
Je zou het inderdaad ook kunnen toetsen. In Stata kan dat met commanto -ttesti. Dan voer je het aantal observaties in, de mean en stddev en de waarde waarvan je wil kijken of het significant afwijkt t.o.v. de steekproef. In SPSS heb ik het ook wel eens gezien. Statistisch gezien stelt het niet zo veel voor, alleen is het probleem dat bij zulke grote aantallen een verschil van een honderdste al statistisch significant is (zie onder, heb het even voor je ingevoerd). Het gaat om 10*50.000 observaties. Dus je zal er misschien een andere toets op los moeten laten (of een minimaal klinisch relevant verschil berekenen).

https://www.dropbox.com/s/tvw6r10vse7sw51/Knipsel5.PNG?dl=0
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164359490
quote:
0s.gif Op dinsdag 9 augustus 2016 11:37 schreef Lyrebird het volgende:
Het concept is me nu duidelijk. Hoe zit het met de specifieke invulling? Moet ik het gemiddelde van alle jongeren berekenen, en dan de standaard deviatie van de gemiddelden gebruiken?

Of moeten alle metingen van de jongeren (iedere pp. heeft 50.000 metingen, waaruit een gemiddelde en stddev bepaald worden) op een hoop worden gegooid, om daar dan het gemiddelde en stddev van te bepalen?
Ja, maar je krijgt dan maar één gemiddelde en één stddev. Dus je gooit alles op een hoop (van de jongeren) en die (geaggregeerde) gegevens gebruik je om de individuele waarde van de oudere groep mee te vergeijken.

Mijn advies, houd het simpel :')

Ik heb me voor een thesis verdiept in het minimaal klinisch relevant verschil en minimaal detecteerbaar verschil, er zijn enorm veel verschillende termen en varianten.
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164365313
quote:
0s.gif Op dinsdag 9 augustus 2016 10:55 schreef Operc het volgende:

[..]

Ik heb SPSS even niet bij de hand dus ik kan het niet opzoeken, maar ergens onder data of iets dergelijks staat iets van merge data(sets) ofzo? Daar kun je dat doen. :P En dan kun je kiezen welke variabelen over moeten blijven en welke niet enzo. Ik weet niet of je daar een variabele kunt toevoegen die stelt uit welke dataset je data komt (die 'jaar' variabele), maar anders kun je dat altijd nog in elke dataset doen (kost wel meer werk. :P) Dan voeg je gewoon een variabele toe met Jaar en trek je die door voor alle cases. (Of via compute variable en dan gewoon alleen het getal invoeren.)
Het mergen lukt, bedankt.

Een variabele ("jaar") toevoegen ook wel. Maar is er geen snelle manier om daaronder alle waardes van de variabele "jaar" gelijk te zetten aan bijvoorbeeld "1980"? Niet alleen vind ik niet hoe je het kan 'slepen', het zou ook veel te lang duren omdat er ongeveer 30.000 respondenten per survey zijn, dus bijna een miljoen in de dataset die ik ambieer.
pi_164365602
quote:
0s.gif Op dinsdag 9 augustus 2016 15:38 schreef Kaas- het volgende:

[..]

Het mergen lukt, bedankt.

Een variabele ("jaar") toevoegen ook wel. Maar is er geen snelle manier om daaronder alle waardes van de variabele "jaar" gelijk te zetten aan bijvoorbeeld "1980"? Niet alleen vind ik niet hoe je het kan 'slepen', het zou ook veel te lang duren omdat er ongeveer 30.000 respondenten per survey zijn, dus bijna een miljoen in de dataset die ik ambieer.
Kun je niet compute variable doen? En dan in plaats van vervolgens te rekenen met variabelen, gewoon 1980 daar neer zetten? (Dit zou je dan wel per dataset moeten doen, niet heel praktisch, maar makkelijker dan 30.000 keer invullen.)

Edit, dat werkt, zo dus bijvoorbeeld:
1
2
COMPUTE Jaar=1980.
EXECUTE.
Doe dat in syntax (of via Transform -> compute variable) en dan maakt SPSS een variabele aan genaamd Jaar met de waarde 1980 voor alle rijen waar data in staan.
pi_164366057
Thanks Operc.

Maar ik begin wel aardig te stressen, omdat ik zie dat dat mergen niet goed werkt. Er ontbreekt dan plotseling echt een hoop in plaats van dat alle entries van de mergende bestanden in het nieuwe bestand staan.
pi_164366109
Hallo,
Ik heb enkele brandende vragen.
Voor mijn afstudeerthesis doe ik een onderzoek. Hierbij maak ik gebruik van een experiment met drie condities en een controle conditie. Na dit experiment heb ik nog enkele vragen die verschillende variabelen testen. De vragen bestaan uit verschillende items die zijn gemeten via een 7 punt likert schaal. Deze variabelen heb ik door middel van verschillende vragen naar evaluatie en het gewicht dat aan elke referentiegroep wordt toegekend per variabele onderzocht. Om de variabele te berekenen heb ik via compute de evaluatie vermenigvuldigd met het gewicht en deze allemaal bij elkaar opgeteld.

Nu ben ik aan het analyseren met een multivariate regressie en krijg ik hele grote getallen door deze sommaties waar ik uiteindelijk niets zinnigs over kan zeggen.
Ik heb de schaalscores aangepast door gemiddelde te nemen maar nu zou ik deze scores graag gewoon van 1 tot 7 zien zoals de likert schaal.
En verder nog de vraag of het slimmer is om deze regressie per conditie apart te analyseren.
Alvast super bedankt!

[ Bericht 9% gewijzigd door nonamnietje op 09-08-2016 17:20:14 ]
pi_164366832
quote:
0s.gif Op dinsdag 9 augustus 2016 16:05 schreef Kaas- het volgende:
Thanks Operc.

Maar ik begin wel aardig te stressen, omdat ik zie dat dat mergen niet goed werkt. Er ontbreekt dan plotseling echt een hoop in plaats van dat alle entries van de mergende bestanden in het nieuwe bestand staan.
Wat lastig om vanaf hier te zien wat er fout gaat natuurlijk. :P Maar zijn de variabelen die je wil mergen allemaal in dezelfde stijl? (dus niet 1,00 en 1.00, of scale vs ordinal vs nominal) Kun je zien of er een specifiek type variabele is dat niet goed werkt?
pi_164369073
quote:
0s.gif Op dinsdag 9 augustus 2016 16:31 schreef Operc het volgende:

[..]

Wat lastig om vanaf hier te zien wat er fout gaat natuurlijk. :P Maar zijn de variabelen die je wil mergen allemaal in dezelfde stijl? (dus niet 1,00 en 1.00, of scale vs ordinal vs nominal) Kun je zien of er een specifiek type variabele is dat niet goed werkt?
Even prutsen...
pi_164375671
Bij de merge kan je aangeven welke van de twee files dominant is (key tabled ofzo). Kies je de verkeerde dan kan je cases kwijtraken. Een miljoen cases, succes daarmee, dat is niet per se een sterke kant van SPSS.
Aldus.
pi_164376104
quote:
2s.gif Op dinsdag 9 augustus 2016 21:16 schreef Z het volgende:
Bij de merge kan je aangeven welke van de twee files dominant is (key tabled ofzo). Kies je de verkeerde dan kan je cases kwijtraken. Een miljoen cases, succes daarmee, dat is niet per se een sterke kant van SPSS.
Het zijn bij elkaar opgeteld een miljoen entries voor ongeveer duizend variabelen. Als er dan iets misgaat heb ik het pas na enkele uren werk door, wanneer er rare resultaten uitkomen. :P
pi_164392923
- verwijderd -

ik ben er al uit ^O^

[ Bericht 26% gewijzigd door Kaas- op 10-08-2016 14:02:40 ]
pi_164406694
Hoi allemaal,

SPSS vraag: ik heb een lineaire regressie gemaakt met afhankelijke variabele kwaliteit van leven. Hier heb ik verschillende onafhankelijke variabelen voor:
- leeftijd (met gemiddelde leeftijd),
- geslacht (0 = nee; 1 = ja)
- employment (0 = geen werk; 1 = wel werk)
- roken (0=nee; 1=ja)
- opleidingsniveau (0=laag; 1= hoog)
- huwelijkse status (0=single, 1 = gehuwd/samenwonend)
- physical activity, met hoeveel dagen per week actief (0 = 0 dagen actief, 1 = 1 dag per week actief; 2=2 dagen per week actief; 3 = 3 dagen per week actief)

en om deze laatste gaat het nu. die andere snap ik, hoe ik deze moet invullen. Maar hoe vul ik physical activity in? Ik heb de resultaten uit spss in excel gezet en een screenshot toegevoegd in dit bericht: de rode vraagtekens weet ik dus niet..
Zet ik in C7 dan 0? of ook -0.091? en C8? en E7 en E8?

Never assume, because then you make an ass out of u and me.
pi_164408562
Ik denk dat je variabele geslacht niet helemaal klopt :D
Nomnomnomnomnomnomnomnomnomnom
pi_164409708
quote:
0s.gif Op woensdag 10 augustus 2016 20:06 schreef Liedje_ het volgende:
Hoi allemaal,

SPSS vraag: ik heb een lineaire regressie gemaakt met afhankelijke variabele kwaliteit van leven. Hier heb ik verschillende onafhankelijke variabelen voor:
- leeftijd (met gemiddelde leeftijd),
- geslacht (0 = nee; 1 = ja)
- employment (0 = geen werk; 1 = wel werk)
- roken (0=nee; 1=ja)
- opleidingsniveau (0=laag; 1= hoog)
- huwelijkse status (0=single, 1 = gehuwd/samenwonend)
- physical activity, met hoeveel dagen per week actief (0 = 0 dagen actief, 1 = 1 dag per week actief; 2=2 dagen per week actief; 3 = 3 dagen per week actief)

en om deze laatste gaat het nu. die andere snap ik, hoe ik deze moet invullen. Maar hoe vul ik physical activity in? Ik heb de resultaten uit spss in excel gezet en een screenshot toegevoegd in dit bericht: de rode vraagtekens weet ik dus niet..
Zet ik in C7 dan 0? of ook -0.091? en C8? en E7 en E8?

[ afbeelding ]
Zoals je het nu doet doe je het fout. Je moet werken met dummies. Kijk maar eens in het boek van Field.
pi_164409763
Zo dus:

1 Count the number of groups you want to recode and subtract 1.
2 Create as many new variables as the value you calculated in step 1. These are your
dummy variables.
3 Choose one of your groups as a baseline (i.e. a group against which all other groups
should be compared). This should usually be a control group, or, if you don’t have
a specific hypothesis, it should be the group that represents the majority of people
(because it might be interesting to compare other groups against the majority).
4 Having chosen a baseline group, assign that group values of 0 for all of your dummy
variables.
5 For your first dummy variable, assign the value 1 to the first group that you want to
compare against the baseline group. Assign all other groups 0 for this variable.
6 For the second dummy variable assign the value 1 to the second group that you want
to compare against the baseline group. Assign all other groups 0 for this variable.
7 Repeat this until you run out of dummy variables.
8 Place all of your dummy variables into the regression analysis!
pi_164421055
quote:
0s.gif Op woensdag 10 augustus 2016 21:10 schreef PluisigNijntje het volgende:
Ik denk dat je variabele geslacht niet helemaal klopt :D
Inderdaad, het handigste vind ik altijd om de variabele 'man' of 'vrouw' te noemen, zodat je weet wat 1 betekent.
quote:
0s.gif Op woensdag 10 augustus 2016 21:48 schreef MCH het volgende:

[..]

Zoals je het nu doet doe je het fout. Je moet werken met dummies. Kijk maar eens in het boek van Field.
Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164421071
quote:
0s.gif Op woensdag 10 augustus 2016 20:06 schreef Liedje_ het volgende:
Hoi allemaal,

SPSS vraag: ik heb een lineaire regressie gemaakt met afhankelijke variabele kwaliteit van leven. Hier heb ik verschillende onafhankelijke variabelen voor:
- leeftijd (met gemiddelde leeftijd),
- geslacht (0 = nee; 1 = ja)
- employment (0 = geen werk; 1 = wel werk)
- roken (0=nee; 1=ja)
- opleidingsniveau (0=laag; 1= hoog)
- huwelijkse status (0=single, 1 = gehuwd/samenwonend)
- physical activity, met hoeveel dagen per week actief (0 = 0 dagen actief, 1 = 1 dag per week actief; 2=2 dagen per week actief; 3 = 3 dagen per week actief)

en om deze laatste gaat het nu. die andere snap ik, hoe ik deze moet invullen. Maar hoe vul ik physical activity in? Ik heb de resultaten uit spss in excel gezet en een screenshot toegevoegd in dit bericht: de rode vraagtekens weet ik dus niet..
Zet ik in C7 dan 0? of ook -0.091? en C8? en E7 en E8?

[ afbeelding ]
Ik snap die tabel niet. De rijen staan ook niet gelijk, waarom staat Physical activity 0 days achter de intercept? Daar hoort niets te staan.
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164429425
quote:
0s.gif Op dinsdag 9 augustus 2016 12:12 schreef crossover het volgende:

[..]

Ja, maar je krijgt dan maar één gemiddelde en één stddev. Dus je gooit alles op een hoop (van de jongeren) en die (geaggregeerde) gegevens gebruik je om de individuele waarde van de oudere groep mee te vergeijken.

Mijn advies, houd het simpel :')

Ik heb me voor een thesis verdiept in het minimaal klinisch relevant verschil en minimaal detecteerbaar verschil, er zijn enorm veel verschillende termen en varianten.
Ik heb er nog eens goed over nagedacht.

Dit is mijn plan van aanpak: van de tien jonge proefpersonen worden alle pixelwaarden gebruikt om een gemiddelde en standaard deviatie te berekenen. Met mean + 2*stddev wordt dan de grens bepaald van pixelwaarden die verdacht zijn.

In de plaatjes van de oudere proefpersonen wordt die grens dan gebruikt om pixels te isoleren die verdacht zijn. Die kunnen dan gehighlight worden, om de arts te wijzen op gebieden die verdacht zijn.

Kan dan ook nog per oudere proefpersoon een histogram maken, om te bepalen welke fractie van de pixels verdacht is. Bij de proefpersoon uit het plaatje met een gemiddelde van rond de 90 zou dat best wel eens om meer dan 50% van de pixels kunnen gaan. Klinische waarde van zo'n histogram? Geen idee - dat zal de praktijk moeten uitwijzen.

Bedankt!
Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson
pi_164439128
quote:
0s.gif Op donderdag 11 augustus 2016 10:05 schreef crossover het volgende:


[..]

Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.
Allereerst:
Bedankt voor de reacties!!


Over dit punt, dat wil ik inderdaad graag, dus in 1 keer erin. Ik moet ook toegeven dat ik nu de verkorte versie heb gegeven, maar de variabele bestaat idd van 0 tot 7 (dagen per week).
Maar ik snap niet wat de coefficienten van de verschillende values zijn.
Voor 0, is de coefficient 0 (Als beginpunt/vergelijkingspunt).
Voor 1 is de coefficient 0.091 (uit SPSS gehaald) - er staat in de tabel (-0.091) maar dit is verkeerd door mij opgeschreven! het is 0.091.

Het verschil tussen iemand met 0 dagen actief en 1 dag per week actief is 0.091 (dus kwaliteit van leven is dan 0.091 hoger voor iemand die 1 dag actief is ten opzichte van iemand die 0 dagen actief is, alle covarieten gelijk gelaten.

Maar welke coefficienten gebruik ik voor 2, 3, 4, 5, 6 en 7 dagen per week actief zijn?
Is het dan:
2*0.091
3*0.091
tot en met 7*0.091?
Never assume, because then you make an ass out of u and me.
pi_164450361
quote:
0s.gif Op dinsdag 9 augustus 2016 16:05 schreef Kaas- het volgende:
Thanks Operc.

Maar ik begin wel aardig te stressen, omdat ik zie dat dat mergen niet goed werkt. Er ontbreekt dan plotseling echt een hoop in plaats van dat alle entries van de mergende bestanden in het nieuwe bestand staan.
Niet gaan stressen, SPSS kan stress ruiken en misbruikt dat.
Heb je wel de goede manier van mergen te pakken?
Kijk anders hier even: http://www.ats.ucla.edu/stat/spss/modules/merge.htm
Regenboog, regenboog
gelukkig ben je krom,
anders heette je regenstreep,
en dat klinkt toch wel zo stom
pi_164455534
quote:
11s.gif Op donderdag 11 augustus 2016 20:50 schreef Liedje_ het volgende:

[..]

Allereerst:
Bedankt voor de reacties!!

Over dit punt, dat wil ik inderdaad graag, dus in 1 keer erin. Ik moet ook toegeven dat ik nu de verkorte versie heb gegeven, maar de variabele bestaat idd van 0 tot 7 (dagen per week).
Maar ik snap niet wat de coefficienten van de verschillende values zijn.
Voor 0, is de coefficient 0 (Als beginpunt/vergelijkingspunt).
Voor 1 is de coefficient 0.091 (uit SPSS gehaald) - er staat in de tabel (-0.091) maar dit is verkeerd door mij opgeschreven! het is 0.091.

Het verschil tussen iemand met 0 dagen actief en 1 dag per week actief is 0.091 (dus kwaliteit van leven is dan 0.091 hoger voor iemand die 1 dag actief is ten opzichte van iemand die 0 dagen actief is, alle covarieten gelijk gelaten.

Maar welke coefficienten gebruik ik voor 2, 3, 4, 5, 6 en 7 dagen per week actief zijn?
Is het dan:
2*0.091
3*0.091
tot en met 7*0.091?
Waarom zou je dat willen uitleggen? Vermeld gewoon dat het significant is of niet icm met de eventuele coëfficiënt.

[ Bericht 0% gewijzigd door #ANONIEM op 12-08-2016 11:24:26 ]
pi_164455563
quote:
0s.gif Op donderdag 11 augustus 2016 10:05 schreef crossover het volgende:

[..]

Inderdaad, het handigste vind ik altijd om de variabele 'man' of 'vrouw' te noemen, zodat je weet wat 1 betekent.

[..]

Daar kan je over twisten; het is in principe een variabele met interval niveau, omdat het een absoluut nulpunt heeft en kan oplopen tot 7. In het kader van het beperken van vrijheidsgraden zou je zelfs kunnen zeggen dat je 'm er juist in 1 keer in wil hebben zonder er dummies van te maken.
Dat klopt, als de vraagsteller ook wat vollediger was geweest had ik natuurlijk deze oplossing niet aangedragen.

[ Bericht 0% gewijzigd door #ANONIEM op 12-08-2016 11:25:46 ]
pi_164463778
quote:
0s.gif Op vrijdag 12 augustus 2016 11:21 schreef MCH het volgende:

[..]

Waarom zou je dat willen uitleggen? Vermeld gewoon dat het significant is of niet icm met de eventuele coëfficiënt.
Nee ik wil het gewoon graag beter begrijpen wat er nu staat. Want als ik het goed begrijp, kan ik bijvoorbeeld voor geslacht zeggen:
als alle andere variabelen gelijk blijven, varieert voor man en vrouw kwaliteit van leven met 0.061 units. Zou kwaliteit van leven voor een vrouw 0.70 zijn, dan voor een man 0.649.

Maar ik snap gewoon niet hoe ik dit voor fysiek actief zijn omschrijf.
Kwaliteit van leven verschilt bij 0 of 1 dag fysiek actief met 0.091, dus zou kwaliteit van leven 0.70 zijn voor 0 dagen actief, dan 0.791 voor 1 dag fysiek actief. Maar ik snap gewoon niet wat ik zou zeggen voor bijvoorbeeld 2 dagen fysiek actief?

quote:
0s.gif Op vrijdag 12 augustus 2016 11:22 schreef MCH het volgende:

[..]

Dat klopt, als de vraagsteller ook wat vollediger was geweest had ik natuurlijk deze oplossing niet aangedragen.
Sorry! Was niet handig van me..
Never assume, because then you make an ass out of u and me.
pi_164463849
quote:
0s.gif Op vrijdag 12 augustus 2016 15:32 schreef Liedje_ het volgende:

[..]

Nee ik wil het gewoon graag beter begrijpen wat er nu staat. Want als ik het goed begrijp, kan ik bijvoorbeeld voor geslacht zeggen:
als alle andere variabelen gelijk blijven, varieert voor man en vrouw kwaliteit van leven met 0.061 units. Zou kwaliteit van leven voor een vrouw 0.70 zijn, dan voor een man 0.649.

Maar ik snap gewoon niet hoe ik dit voor fysiek actief zijn omschrijf.
Kwaliteit van leven verschilt bij 0 of 1 dag fysiek actief met 0.091, dus zou kwaliteit van leven 0.70 zijn voor 0 dagen actief, dan 0.791 voor 1 dag fysiek actief. Maar ik snap gewoon niet wat ik zou zeggen voor bijvoorbeeld 2 dagen fysiek actief?



[..]

Sorry! Was niet handig van me..
Zijn ze uberhaupt significant?
pi_164465142
quote:
0s.gif Op vrijdag 12 augustus 2016 15:34 schreef MCH het volgende:

[..]

Zijn ze uberhaupt significant?
Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).


"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..

Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?

[ Bericht 11% gewijzigd door Liedje_ op 13-08-2016 13:45:58 ]
Never assume, because then you make an ass out of u and me.
pi_164490142
- ik wilde m'n bericht hierboven wijzigen maar klikte blijkbaar op quote, niet de bedoeling -
Never assume, because then you make an ass out of u and me.
pi_164490990
quote:
0s.gif Op vrijdag 12 augustus 2016 16:02 schreef Liedje_ het volgende:

[..]

Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).
[ afbeelding ]

"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..

Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?
Ja volgens mij klopt dat zo. :)
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164518722
quote:
0s.gif Op zaterdag 13 augustus 2016 14:27 schreef crossover het volgende:

[..]

Ja volgens mij klopt dat zo. :)
Schrijf gewoon op dat (meer) sporten een positief effect heeft op kwaliteit van leven. Net alsof 7 dagen sporten bijdraagt aan 0.812 levenskwaliteit iets zegt. :')
pi_164518899
De relatie aantal dagen per week sporten en levenskwaliteit lijkt me trouwens niet lineair, maar met een top ergens in het midden. Lineaire regressie zou in dat geval niet echt veel informatie prijsgeven.
  † In Memoriam † zondag 14 augustus 2016 @ 14:07:08 #48
230491 Zith
pls tip
pi_164519317
quote:
1s.gif Op zondag 14 augustus 2016 13:46 schreef Kaas- het volgende:
De relatie aantal dagen per week sporten en levenskwaliteit lijkt me trouwens niet lineair, maar met een top ergens in het midden. Lineaire regressie zou in dat geval niet echt veel informatie prijsgeven.
Gewoon een squared versie toevoegen..



http://essedunet.nsd.uib.no/cms/topics/multilevel/ch1/5.html

Wat ik dus ook zeker zou aanraden want je maakt een goede observatie.

[ Bericht 7% gewijzigd door Zith op 14-08-2016 14:19:27 ]
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_164532012
quote:
0s.gif Op dinsdag 9 augustus 2016 09:14 schreef Lyrebird het volgende:

[ code verwijderd ]

Als het om statistiek gaat, dan kom ik niet veel verder dan een gemiddeld en een standaarddeviatie. Ik gebruik het spul tot nu toe te weinig om me er echt in te verdiepen (alhoewel dat wel eens rap kan veranderen binnenkort, maar dat terzijde).

In de bovenstaande tabel staan de meetgegevens van een bepaalde variabele van 10 jonge proefpersonen, die vanwege hun leeftijd geen last kunnen hebben van een niet-nader-te-noemen ouderdomsziekte. We hebben een gemiddelde waarde per proefpersoon gemeten, en een standaarddeviatie.

Daarnaast hebben we ook tien oudere proefpersonen doorgemeten.

Beetje uit de losse pols zijn de proefpersonen die een rood stipje hebben, "suspect".

[ afbeelding ]

Welke oudere proefpersonen vallen buiten de range die als "normaal" bestempeld kan worden, gebaseerd op de meetgegevens van de jonge proefpersonen? Welke methode moet ik gebruiken om dat aan te tonen?
Als je de verschillen per de drie groepen wil testen op significantie kun je een t-test gebruiken, als je tenminste een normale distributie kunt aannemen (wat niet per se zo lijkt te zijn). Als je per invidu een waarde van verschil met de rest wil bepalen kun je het beste een resampling methode gebruiken. Hierbij bepaal je de distributie door heel vaak (100,000x) random waarden te selecteren uit de gehele dataset. Vervolgens vergelijk je de waarden van ieder individu met die achtergrond verdeling. In feite test je hoe vaak het profiel dat je experimenteel hebt bepaald voorkomt als je een random profiel samenstelt.
Jesus saves but death prevails.
pi_164532349
quote:
1s.gif Op zondag 14 augustus 2016 14:07 schreef Zith het volgende:

[..]

Gewoon een squared versie toevoegen..

[ afbeelding ]

http://essedunet.nsd.uib.no/cms/topics/multilevel/ch1/5.html

Wat ik dus ook zeker zou aanraden want je maakt een goede observatie.
Yes. Is gelukkig een eenvoudige oplossing voor.
  vrijdag 19 augustus 2016 @ 11:45:46 #51
100126 Maraca
#cijferfetisjist
pi_164675317
Ik wil een attributieve steekproef uitvoeren, maar snap niet helemaal wat ze bedoelen met onderstaande bij het kopje "populatie"

quote:
Dit is het aantal steekproefeenheden in de populatie waaruit de steekproef getrokken is. Indien u niet zeker bent welke hoeveelheid u in moet vullen, kunt u voor de zekerheid beter een groot getal invullen. U moet een getal opgeven tussen 1 en 2.147.483.646
Stel ik heb een totale populatie van 7.000. Ik wil alleen een steekproef uitvoeren op de items die aan bepaalde kenmerken voldoen. Dus stel dat dit er 4.000 zijn. Op die 4.000 wil ik dus mijn steekproef uitvoeren en ook alleen deze items zal ik inlezen in het programma. Is mijn populatie op basis van bovenstaande tekst dan 7.000 of 4.000? Als ik het zo lees dan zou ik zeggen dat het de 4.000 is, maar ik vind het apart dat ik dat dan nog moet invullen als dat mijn dataset is.

edit: uiteindelijk moet ik wel iets zeggen over die 7.000 en die 4.000 zal ook nog eens in 2 subsets worden ingedeeld waardoor dus 2 aparte steekproeven uitgevoerd zullen worden.
Verily i say unto you; dost thou even hoist, brethren? - Jesus (Psalm 22)
pi_164702440
quote:
0s.gif Op vrijdag 19 augustus 2016 11:45 schreef Maraca het volgende:
Ik wil een attributieve steekproef uitvoeren, maar snap niet helemaal wat ze bedoelen met onderstaande bij het kopje "populatie"

[..]

Stel ik heb een totale populatie van 7.000. Ik wil alleen een steekproef uitvoeren op de items die aan bepaalde kenmerken voldoen. Dus stel dat dit er 4.000 zijn. Op die 4.000 wil ik dus mijn steekproef uitvoeren en ook alleen deze items zal ik inlezen in het programma. Is mijn populatie op basis van bovenstaande tekst dan 7.000 of 4.000? Als ik het zo lees dan zou ik zeggen dat het de 4.000 is, maar ik vind het apart dat ik dat dan nog moet invullen als dat mijn dataset is.

edit: uiteindelijk moet ik wel iets zeggen over die 7.000 en die 4.000 zal ook nog eens in 2 subsets worden ingedeeld waardoor dus 2 aparte steekproeven uitgevoerd zullen worden.
De kern van het antwoord zit hem in de eerste zin van je citaat:

quote:
Dit is het aantal steekproefeenheden in de populatie waaruit de steekproef getrokken is.
Als je dus een steekproef aan het trekken bent en alle 7.000 eenheden doen mee (= zouden kunnen worden geselecteerd voor de steekproef) dan is het aantal steekproefeenheden 7.000.

Als je eerst 4.000 eenheden selecteert op basis van een bepaalde eigenschap, en vervolgens een steekproeftrekking doet waarvoor je alleen gaat trekken uit die 4.000, dan is het aantal steekproefeenheden 4.000.
  zaterdag 20 augustus 2016 @ 10:30:47 #53
100126 Maraca
#cijferfetisjist
pi_164703361
quote:
0s.gif Op zaterdag 20 augustus 2016 09:07 schreef Banktoestel het volgende:

[..]

De kern van het antwoord zit hem in de eerste zin van je citaat:

[..]

Als je dus een steekproef aan het trekken bent en alle 7.000 eenheden doen mee (= zouden kunnen worden geselecteerd voor de steekproef) dan is het aantal steekproefeenheden 7.000.

Als je eerst 4.000 eenheden selecteert op basis van een bepaalde eigenschap, en vervolgens een steekproeftrekking doet waarvoor je alleen gaat trekken uit die 4.000, dan is het aantal steekproefeenheden 4.000.
Thnx! Ik had al zo'n vermoeden maar vond het vreemd dat ik dat nog eens aan moest geven omdat mijn dataset al uit die 4.000 bestaat. Maar goed, het programma zal zijn redenen daar wel voor hebben :P
Verily i say unto you; dost thou even hoist, brethren? - Jesus (Psalm 22)
pi_164794693
quote:
0s.gif Op donderdag 4 augustus 2016 18:18 schreef crossover het volgende:

[..]

Dat is altijd zo als je data in een kruistabel weergeeft.. tenzij je werkt met meerkeuze-antwoorden maar dat is hier volgens mij niet zo.

Die toets waar je het over hebt, om aan te tonen waar verschillen zitten, dat doe je met percentages of het toekennen/laten berekenen van de verwachte celwaarden (op basis van de totalen).
Dus dat is meer face-value zeg maar? Welke categorie het hoogste percentage heeft?
quote:
Wat betreft de onafhankelijkheid van data hebben we hier wat verwarring, omdat jij spreekt van onafhankelijkheid binnen één variabele, maar dat is niet wat er met (on)afhankelijkheid bedoeld wordt.
Dat dacht ik al, dus dat wilde ik even checken. :P
pi_164835635
quote:
0s.gif Op dinsdag 23 augustus 2016 20:19 schreef Operc het volgende:

[..]

Dus dat is meer face-value zeg maar? Welke categorie het hoogste percentage heeft?

Ja, in principe wel :)
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164836374
quote:
0s.gif Op donderdag 25 augustus 2016 09:24 schreef crossover het volgende:

[..]

Ja, in principe wel :)
Bedankt. :) Dan had mijn student het een heel eind goed. :P
pi_164836500
quote:
0s.gif Op donderdag 25 augustus 2016 10:12 schreef Operc het volgende:

[..]

Bedankt. :) Dan had mijn student het een heel eind goed. :P
Misschien ben ik jouw student wel :P
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_164836971
quote:
10s.gif Op donderdag 25 augustus 2016 10:21 schreef crossover het volgende:

[..]

Misschien ben ik jouw student wel :P
Dan spreek je opeens bizar goed Nederlands. :P
pi_164878534
quote:
0s.gif Op vrijdag 12 augustus 2016 16:02 schreef Liedje_ het volgende:

[..]

Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).
[ afbeelding ]

"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..

Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?
Doe anders gewoon 7 dummy's van activiteit, waarvan je er eentje uit de regressie laat om multicollineariteit te voorkomen, om zo een niet-lineaire relatie te kunnen blootleggen. Eenvoudigst te interpreteren.
pi_165003007
quote:
0s.gif Op dinsdag 9 augustus 2016 09:43 schreef crossover het volgende:

[..]

Dan zou ik het gemiddelde en de standaarddeviatie gebruiken van de jonge personen.

Als de leeftijd van een oudere proefpersoon hoger is dan [gemiddelde jongere groep + 2*stddev jongere groep] dan zou je kunnen spreken van een relevant verschil. Dat is de meest voor de hand liggende benadering, omdat bij een normale verdeling 5% van de steekproef/populatie boven en beneden 2*de stdev t.o.v. het gemiddelde zit.
Zeg, een histogram van alle 500.000 datapunten van de jonge proefpersonen ziet er zo uit:



In Origin zit een test om te testen of de verdeling normaal is, en dat is ie niet, dus de regel van gemiddelde + 2* stdev gaat hier niet op. Niet erg, want met de verdeling is het een koud kunstje om de verschillende cut-offs te vinden.

p95 = 36.4
p99 = 48.6
p99.9 = 67.8

Als ik de p95 loslaat op een plaatje gemaakt van een oudere proefpersoon, dan kan tegen de 100% (!) van alle datapunten boven die cut-off liggen. Dat is op zich goed nieuws, want dat betekent dat bijna alle datapunten in het plaatje 'suspect' zijn, omdat datapunten met zulke hoge waardes niet voorkomen bij jonge proefpersonen. Wat ik minder vind, is dat het hele plaatje van zo'n oude proefpersoon 'grijs' kleurt na het toepassen van de p95,waardoor je eigenlijk niets meer ziet. Ook vraag ik me af hoe sterk deze analyse is, want 5% van de datapunten die van de jonge groep afkomstig is, liggen ook boven de p95. Zelfs bij de p99 kleurt erg veel grijs. p99.9 lijkt me daarom redelijker.

Mijn volgende vraag is nu wat normaal is om als cut-off te gebruiken. Met mijn engineering-achtergrond gebruik ik het liefst de hoogste waarde (p99.9), want zelfs bij deze cut-off is het overduidelijk dat sommige oudere proefpersonen (de 5 die ik rood had gekleurd) hele andere data hebben dan de jonge proefpersonen. En bij de andere vijf oudere proefpersonen krijg je percentages boven de cut-off die erg lijken op de jonge populatie, dus daar is niets mee aan de hand. Ook prima.

Iets zegt me dat statistici liever het 99e percentiel gebruiken, of zelfs het 95e percentiel. Met die laatste ga je aggressief pixels die misschien niet zo suspect zijn als suspect aangeven, terwijl die bij gebruik van het 99.9e percentiel als cut-off als normaal worden gezien (terwijl ze dat misschien niet zijn). Wat is wijsheid?

[ Bericht 1% gewijzigd door Lyrebird op 02-09-2016 10:39:18 ]
Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson
pi_165003752
quote:
0s.gif Op donderdag 1 september 2016 07:11 schreef Lyrebird het volgende:

[..]

Zeg, een histogram van alle 500.000 datapunten van de jonge proefpersonen ziet er zo uit:

[ afbeelding ]

In Origin zit een test om te testen of de verdeling normaal is, en dat is ie niet, dus de regel van gemiddelde + 2* stdev gaat hier niet op. Niet erg, want met de verdeling is het een koud kunstje om de verschillende cut-offs te vinden.

p95 = 36.4
p99 = 48.6
p99.9 = 67.8

Als ik de p95 loslaat op een plaatje gemaakt van een oudere proefpersoon, dan kan tegen de 100% (!) van alle datapunten boven die cut-off liggen. Dat is op zich goed nieuws, want dat betekent dat bijna alle datapunten in het plaatje 'suspect' zijn, omdat datapunten met zulke hoge waardes niet voorkomen bij jonge proefpersonen. Wat ik minder vind, is dat het hele plaatje van zo'n oude proefpersoon 'grijs' kleurt na het toepassen van de p95,waardoor je eigenlijk niets meer ziet. Ook vraag ik me af hoe sterk deze analyse is, want 5% van de datapunten die van de jonge groep afkomstig is, liggen ook boven de p95. Zelfs bij de p99 kleurt erg veel grijs. p99.9 lijkt me daarom redelijker:

[ afbeelding ]

Mijn volgende vraag is nu wat normaal is om als cut-off te gebruiken. Met mijn engineering-achtergrond gebruik ik het liefst de hoogste waarde (p99.9), want zelfs bij deze cut-off is het overduidelijk dat sommige oudere proefpersonen (de 5 die ik rood had gekleurd) hele andere data hebben dan de jonge proefpersonen. En bij de andere vijf oudere proefpersonen krijg je percentages boven de cut-off die erg lijken op de jonge populatie, dus daar is niets mee aan de hand. Ook prima.

Iets zegt me dat statistici liever het 99e percentiel gebruiken, of zelfs het 95e percentiel. Met die laatste ga je aggressief pixels die misschien niet zo suspect zijn als suspect aangeven, terwijl die bij gebruik van het 99.9e percentiel als cut-off als normaal worden gezien (terwijl ze dat misschien niet zijn). Wat is wijsheid?
Dit wordt ook wel sensitiviteit en specificiteit genoemd. In welke mate is een test geschikt om de positieven correct te selecteren, en de negatieven (niet) te selecteren. En eigenlijk ontbreekt er bij jou ook een soort van ankerwaarde, of externe maat waaraan je kunt toetsen of je test geschikt is (of eigenlijk meer: bij welke cut off je het beste resultaat hebt). Dat zou je kunnen achterhalen door die vijf geselecteerden uit te nodigen voor een medisch onderzoek, om even in dit voorbeeld te blijven.

Welke cut-off je gebruikt, moet je dus relateren aan een extern criterium.
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_165004264
Sensitivity & specificity... That rings a bell. Ik ga me eens inlezen.
Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson
pi_165004314
Btw, over die 5 mensen uitnodigen voor een extra onderzoek: dat is al uitgevoerd, en iedereen in deze studie was zo fit als een hoentje. De meting die we gedaan hebben, laat dus een variabele zien die pre-klinisch is, maar die wel de eerste (meetbare) stap in een heel vervelend proces is.
Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson
pi_166190364
Vraagje m.b.t. SPSS: Voor een (pilot)onderzoek ben ik wat gegevens aan het invoeren op SPSS. Hier is o.a. een N(P)RS bij aanwezig (Numeric pain rating scale). Dit een schaal van 1 t/m 10 waarbij mensen hun pijn kunnen aangeven/scoren.

Geldt dit als een 'scale' of als ordinaal? Er is dus wel een bepaalde rangorde (1 t/m 10) in aanwezig, maar het is geen gegeven dat mensen na een behandeling bijv. minder pijn hebben dan ervoor.
pi_166190404
quote:
0s.gif Op dinsdag 25 oktober 2016 12:16 schreef nickhguitar het volgende:
Er is dus wel een bepaalde rangorde (1 t/m 10) in aanwezig, maar het is geen gegeven dat mensen na een behandeling bijv. minder pijn hebben dan ervoor.
Als je het zoals voor de komma interpreteert dan mag het schaal zijn, dat komt soms al voor bij slechts 5 categorieën.
pi_166190440
quote:
0s.gif Op dinsdag 25 oktober 2016 12:18 schreef MCH het volgende:

[..]

Als je het zoals voor de komma interpreteert dan mag het schaal zijn, dat komt soms al voor bij slechts 5 categorieën.
Maar klopt het dan dat hier in principe 2 mogelijkheden beide goed zijn? Valt voor beide wel iets te zeggen toch?
pi_166190463
Ik zou zeggen schaal. Lijkt me ook niet heel handig om hier een choice model met tien categorieën in de afhankelijke variabele op te nemen.

Anders zou het zijn als die cijfers voor categorieën (slecht, slechter, valt mee, goed etc.) zouden staan, aangezien de verschillen tussen categorieën dan niet even groot zijn.
pi_166190471
quote:
0s.gif Op dinsdag 25 oktober 2016 12:20 schreef nickhguitar het volgende:

[..]

Maar klopt het dan dat hier in principe 2 mogelijkheden beide goed zijn? Valt voor beide wel iets te zeggen toch?
Bedoel je dat ze een 5 voor de behandeling anders beoordelen als een 5 na de behandeling? In principe kun je met interval variabelen ook 'meer'.

[ Bericht 0% gewijzigd door #ANONIEM op 25-10-2016 12:21:53 ]
pi_166190502
quote:
1s.gif Op dinsdag 25 oktober 2016 12:21 schreef Kaas- het volgende:
Schaal. Lijkt me ook niet heel handig om hier een choice model met tien categorieën in de afhankelijke variabele op te nemen.
Hm. valt ook wat voor te zeggen idd.

quote:
0s.gif Op dinsdag 25 oktober 2016 12:21 schreef MCH het volgende:

[..]

Bedoel je dat ze een 5 voor de behandeling anders beoordelen als een 5 na de behandeling? In principe kun je met interval variabelen ook 'meer'.
Ons onderzoekje is vrij simpel. We meten een pijnscore voor de behandeling, passen een behandeling toe en meten dan weer een pijnscore. In theorie kan iemand voor de behandeling weinig pijn hebben en na de tijd heel veel.
pi_166190524
quote:
0s.gif Op dinsdag 25 oktober 2016 12:16 schreef nickhguitar het volgende:
maar het is geen gegeven dat mensen na een behandeling bijv. minder pijn hebben dan ervoor.
Waarom is dat relevant voor deze vraag?
pi_166190545
quote:
0s.gif Op dinsdag 25 oktober 2016 12:23 schreef nickhguitar het volgende:

[..]

Hm. valt ook wat voor te zeggen idd.

[..]

Ons onderzoekje is vrij simpel. We meten een pijnscore voor de behandeling, passen een behandeling toe en meten dan weer een pijnscore. In theorie kan iemand voor de behandeling weinig pijn hebben en na de tijd heel veel.
Ja dat kan. En je gaat dus meten of het ook zo is. Die variatie ben je juist naar op zoek. :P
pi_166190596
quote:
1s.gif Op dinsdag 25 oktober 2016 12:24 schreef Kaas- het volgende:

[..]

Ja dat kan. En je gaat dus meten of het ook zo is. Die variatie ben je juist naar op zoek. :P
En zou jij dus scale of ordinaal gebruiken voor de pijnschaal?
pi_166190648
quote:
0s.gif Op dinsdag 25 oktober 2016 12:27 schreef nickhguitar het volgende:

[..]

En zou jij dus scale of ordinaal gebruiken voor de pijnschaal?
Schaal.

Wat is je n eigenlijk? Die mag ook wel berehoog zijn om bij een ordinale schaal uberhaupt significante resultaten te krijgen, aangezien de verdeling over die categorieën ook niet gelijkmatig zal zijn.
pi_166190678
quote:
1s.gif Op dinsdag 25 oktober 2016 12:29 schreef Kaas- het volgende:

[..]

Schaal.

Wat is je n eigenlijk? Die mag ook wel berehoog zijn om bij een ordinale schaal uberhaupt significante resultaten te krijgen, aangezien de verdeling over die categorieën ook niet gelijkmatig zal zijn.
N is het aantal mensen die meedoen neem ik aan? We mikken op 16. Dat is ook het minimale wat benodigd is voor deze pilot.
pi_166190717
Zou dus gewoon een simpele OLS doen op schaalvariabele pijn met B0 + B1x[dummy voor behandeling] + controleshizzle.
pi_166190749
quote:
0s.gif Op dinsdag 25 oktober 2016 12:30 schreef nickhguitar het volgende:

[..]

N is het aantal mensen die meedoen neem ik aan? We mikken op 16. Dat is ook het minimale wat benodigd is voor deze pilot.
Oh joh. Dude.

Dan zou ik gewoon de plusjestest doen. Ik weet niet zeker of het zo heet, maar gewoon plusjes (of minnetjes) tellen na de behandeling en checken of het significant is in een bepaalde richting.
pi_166190806
quote:
10s.gif Op dinsdag 25 oktober 2016 12:34 schreef Kaas- het volgende:

[..]

Oh joh. Dude.

Dan zou ik gewoon de plusjestest doen. Ik weet niet zeker of het zo heet, maar gewoon plusjes (of minnetjes) tellen na de behandeling en checken of het significant is in een bepaalde richting.
Ik ben echt de grootste leek op dit gebied wat uberhaupt mogelijk is. We hebben van de opleiding uit een soort 'draaiboek' gekregen waarin we gaan kijken of de data normaal verdeeld is en aan de hand daarvan gaan we een aantal testen doen.
pi_166225624
quote:
0s.gif Op dinsdag 25 oktober 2016 12:37 schreef nickhguitar het volgende:

[..]

Ik ben echt de grootste leek op dit gebied wat uberhaupt mogelijk is. We hebben van de opleiding uit een soort 'draaiboek' gekregen waarin we gaan kijken of de data normaal verdeeld is en aan de hand daarvan gaan we een aantal testen doen.
Met 16 datapunten is het lastig aantonen of iets normaal verdeeld is.
pi_166229844
Waarom niet gewoon paired t-test?
Op dinsdag 1 november 2016 00:05 schreef JanCees het volgende:
De polls worden ook in 9 van de 10 gevallen gepeild met een meerderheid democraten. Soms zelf +10% _O-
pi_166574587
Ik wil een lineaire OLS-regressie uitvoeren met behulp van Excel. Ik ben in het bezit van twee data-variabelen: de gemiddelde (log) inflatie en de interest.

Wat ik mij dus afvraag, is het volgende: hoe weet ik of en wanneer ik data transformaties (log-variabelen of lag-variabelen aanmaken) moet uitvoeren?
pi_166574829
quote:
0s.gif Op donderdag 10 november 2016 23:33 schreef Super-B het volgende:
Ik wil een lineaire OLS-regressie uitvoeren met behulp van Excel. Ik ben in het bezit van twee data-variabelen: de gemiddelde (log) inflatie en de interest.

Wat ik mij dus afvraag, is het volgende: hoe weet ik of en wanneer ik data transformaties (log-variabelen of lag-variabelen aanmaken) moet uitvoeren?
Lag variabele gebruiken ligt meer aan je onderzoeksvraag denk ik, dat is geen datatransformatie.
  † In Memoriam † vrijdag 11 november 2016 @ 00:05:20 #82
230491 Zith
pls tip
pi_166575367
Dit soort analyses vragen eigenlijk altijd om autoregressie, omdat de huidige interest/inflatie 99% afhankelijk is van de vorige*, dus inderdaad lags gebruiken. In programmas als STATA heb je methodes om te analyseren hoever je terug in de tijd moet gaan (bijv. is het seizoen/cyclus gebonden).

Maar goed.. in Excel... heb je de Analysis Toolpak? Zo ja:


Ik zou dan reeks lags toevoegen om te kijken of er bepaalde lags significant zijn, als je ziet dat lag t-7 significant is dan kan je tot t-7 gaan...Het is allemaal niet zo netjes maar goed.. 2 variabelen en excel.

By the way, je lost er je niet altijd je endogeneity (/reversed causality) probleem mee op.

Logs/NatLog zou ik niet zo snel naar grijpen. Dat is relevanter als er een groter verschil zit tussen de observaties (bijv.. ln1000 en ln1,000,000 = 6.9 en 13,8), nu ga je (lijkt me) van 2.2% naar 2.1%

*overdreven, soms.

[ Bericht 6% gewijzigd door Zith op 11-11-2016 00:10:58 ]
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_166575672
quote:
0s.gif Op vrijdag 11 november 2016 00:05 schreef Zith het volgende:
Dit soort analyses vragen eigenlijk altijd om autoregressie, omdat de huidige interest/inflatie 99% afhankelijk is van de vorige*, dus inderdaad lags gebruiken. In programmas als STATA heb je methodes om te analyseren hoever je terug in de tijd moet gaan (bijv. is het seizoen/cyclus gebonden).

Maar goed.. in Excel... heb je de Analysis Toolpak? Zo ja:


Ik zou dan reeks lags toevoegen om te kijken of er bepaalde lags significant zijn, als je ziet dat lag t-7 significant is dan kan je tot t-7 gaan...Het is allemaal niet zo netjes maar goed.. 2 variabelen en excel.

By the way, je lost er je niet altijd je endogeneity (/reversed causality) probleem mee op.

Logs/NatLog zou ik niet zo snel naar grijpen. Dat is relevanter als er een groter verschil zit tussen de observaties (bijv.. ln1000 en ln1,000,000 = 6.9 en 13,8), nu ga je (lijkt me) van 2.2% naar 2.1%

*overdreven, soms.
Ik heb de Analysis Toolpak ja. Mijn stappenplan zag er als volgt uit:

1. Eventuele data-transformaties

2. Test voor autocorrelatie (Residual Plot, Lagrange Multiplier Test)

3. Test voor heteroskedasticiteit

4. T-test/F-Test & OLS-regressie
  † In Memoriam † vrijdag 11 november 2016 @ 00:24:53 #84
230491 Zith
pls tip
pi_166575711
Als het mogelijk is binnen excel kan je White's S/E gebruiken als je vindt dat er heteroskedasticity is (heteroskedasticity robust standard errors).
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_166575859
quote:
0s.gif Op vrijdag 11 november 2016 00:24 schreef Zith het volgende:
White's S/E
?
  † In Memoriam † vrijdag 11 november 2016 @ 08:36:33 #86
230491 Zith
pls tip
pi_166577416
quote:
0s.gif Op vrijdag 11 november 2016 00:35 schreef Super-B het volgende:

[..]

?
quote:
(heteroskedasticity robust standard errors).
Dat is een manier om de standard errors zo te berekenen dat het geen last ondervindt van de heteroskedasticity (dat de afstand van error tot gemiddelde niet random is). Bij stata doe je vce(robust) aan het einde maar hoe het in excel moet weet ik niet :P

https://en.wikipedia.org/(...)tent_standard_errors
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_166586528
quote:
0s.gif Op vrijdag 11 november 2016 08:36 schreef Zith het volgende:

[..]

[..]

Dat is een manier om de standard errors zo te berekenen dat het geen last ondervindt van de heteroskedasticity (dat de afstand van error tot gemiddelde niet random is). Bij stata doe je vce(robust) aan het einde maar hoe het in excel moet weet ik niet :P

https://en.wikipedia.org/(...)tent_standard_errors

Ik heb een beetje zitten knoeien met de data in Excel en uit mijn residual plot komt het volgende uitrollen:



Is er sprake van autocorrelatie? Mijn data betreft een time-series.
  † In Memoriam † vrijdag 11 november 2016 @ 19:59:40 #88
230491 Zith
pls tip
pi_166588879
Ik zou toch vast blijven houden aan de durbin watson of lagrange multiplier, zie

http://higheredbcs.wiley.(...)f_econometrics3e.pdf

Hoofdstuk Detecting Autocorrelation

(net dit boek gevonden, ziet er uit als een top boek voor je onderzoek :) )
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_166589143
quote:
0s.gif Op vrijdag 11 november 2016 19:59 schreef Zith het volgende:
Ik zou toch vast blijven houden aan de durbin watson of lagrange multiplier, zie

http://higheredbcs.wiley.(...)f_econometrics3e.pdf

Hoofdstuk Detecting Autocorrelation

(net dit boek gevonden, ziet er uit als een top boek voor je onderzoek :) )

Durbin H's toch ipv Durbin Watson:

In the presence of a lagged criterion variable among the predictor variables, the
DW statistic is biased towards finding no autocorrelation. For such models Durbin
(1970) proposed a statistic (Durbin’s h)

:@

[ Bericht 6% gewijzigd door #ANONIEM op 11-11-2016 20:14:20 ]
  † In Memoriam † vrijdag 11 november 2016 @ 23:00:01 #90
230491 Zith
pls tip
pi_166594502
quote:
0s.gif Op vrijdag 11 november 2016 20:13 schreef MCH het volgende:

[..]

Durbin H's toch ipv Durbin Watson:

In the presence of a lagged criterion variable among the predictor variables, the
DW statistic is biased towards finding no autocorrelation. For such models Durbin
(1970) proposed a statistic (Durbin’s h)

:@
Aight! Weer wat geleerd :) Nog nooit een autoregressive model gemaakt, alleen wat over gehoord tijdens de colleges...
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_166634307
Ik heb twee vragen. De vraag is beknopt weergegeven, alleen de relevante informatie is opgenomen. Mocht je toch een vraag hebben, laat mij weten.

Algemene informatie dataset
Y = tussen 0 en 1
Independent variabe X = tussen 1 en 4
Overige controle variabelen --> niet echt relevant hier
alpha = 5%

De samenhang tussen independent variable X met dependent variable Y moest ik op twee manieren aantonen. Zie hieronder

quote:
Manier 1: Regressieanalyse Y = b0 + b1X1 + b2Xcontrol

Uitkomst
beta 1 = 0,028 en P = 0,038. Significant want Pval < alpha
quote:
Manier 2: Pearson R analyse

Uitkomst R = 0,101 en P = 0,124. Niet significant want Pval > alpha.
Kan het kloppen dat de samenhang/verband (beta) bij de regressie wel significant is, maar bij Pearson R niet?

En volgende vraag: welke van de twee analyses geeft het meeste duidelijke beeld van de samenhang tussen de variabelen weer?
pi_166634665
quote:
0s.gif Op zondag 13 november 2016 19:30 schreef JohnKimble het volgende:
Ik heb twee vragen. De vraag is beknopt weergegeven, alleen de relevante informatie is opgenomen. Mocht je toch een vraag hebben, laat mij weten.

Algemene informatie dataset
Y = tussen 0 en 1
Independent variabe X = tussen 1 en 4
Overige controle variabelen --> niet echt relevant hier
alpha = 5%

De samenhang tussen independent variable X met dependent variable Y moest ik op twee manieren aantonen. Zie hieronder

[..]

[..]

Kan het kloppen dat de samenhang/verband (beta) bij de regressie wel significant is, maar bij Pearson R niet?

En volgende vraag: welke van de twee analyses geeft het meeste duidelijke beeld van de samenhang tussen de variabelen weer?
Het kan prima zo zijn dat bepaalde variabelen door het toevoegen van andere variabelen opeens wel significant zijn. Je ziet zelf ook wel dat de lage R al aangeeft dat het ook niet een bijster sterk verband, eerder zwak zeg maar.
pi_166634711
quote:
0s.gif Op zondag 13 november 2016 19:30 schreef JohnKimble het volgende:
Ik heb twee vragen. De vraag is beknopt weergegeven, alleen de relevante informatie is opgenomen. Mocht je toch een vraag hebben, laat mij weten.

Algemene informatie dataset
Y = tussen 0 en 1
Independent variabe X = tussen 1 en 4
Overige controle variabelen --> niet echt relevant hier
alpha = 5%

De samenhang tussen independent variable X met dependent variable Y moest ik op twee manieren aantonen. Zie hieronder

[..]

[..]

Kan het kloppen dat de samenhang/verband (beta) bij de regressie wel significant is, maar bij Pearson R niet?

En volgende vraag: welke van de twee analyses geeft het meeste duidelijke beeld van de samenhang tussen de variabelen weer?
Lees dit topic maar eens door.
pi_166634889
quote:
0s.gif Op zondag 13 november 2016 19:30 schreef JohnKimble het volgende:
Ik heb twee vragen. De vraag is beknopt weergegeven, alleen de relevante informatie is opgenomen. Mocht je toch een vraag hebben, laat mij weten.

Algemene informatie dataset
Y = tussen 0 en 1
Independent variabe X = tussen 1 en 4
Overige controle variabelen --> niet echt relevant hier
alpha = 5%

De samenhang tussen independent variable X met dependent variable Y moest ik op twee manieren aantonen. Zie hieronder

[..]


[..]

Kan het kloppen dat de samenhang/verband (beta) bij de regressie wel significant is, maar bij Pearson R niet?

En volgende vraag: welke van de twee analyses geeft het meeste duidelijke beeld van de samenhang tussen de variabelen weer?
1. Ja, dat kan.
2. De regressie met controlevariabelen geeft meer het 'pure effect' van X op Y weer.
pi_166635818
quote:
0s.gif Op zondag 13 november 2016 19:40 schreef MCH het volgende:

[..]

Lees dit topic maar eens door.
quote:
1s.gif Op zondag 13 november 2016 19:44 schreef Kaas- het volgende:

[..]

1. Ja, dat kan.
2. De regressie met controlevariabelen geeft meer het 'pure effect' van X op Y weer.
Thanks! Dus als ik het goed begrijp, dan geeft de regressieanalyse de theoretische causale relatie weer, terwijl de correlatieanalyse R dat niet doet.

De reden omdat X en Y niet correleert bij R, komt omdat een ander verband/beta (controlevariabel) de Y omlaag trekt, waardoor als je alleen X en Y vergelijkt zonder naar de overige variabelen te kijken dit nauwelijks een verband heeft?

Dit zeg ik omdat ik zie dat er een andere variabel is met beta -0,077. Zie hieronder

pi_166636542
Daar komt het wel ongeveer op neer, al kan je overigens nooit zo gemakkelijk zeggen dat een regressie-analyse een causaal verband weergeeft. Er kunnen immers nog een hoop belangrijke controlevariabelen ontbreken, er kan sprake van reverse causality zijn, etc etc.
pi_166636730
Regressie-analyse is géén indicatie voor causaliteit. Er is wat dat betreft geen verschil tussen regressie en correlatie. De regressiecoefficienten zijn wel gerelateerd aan de partiele correlatiecoefficienten, en hebben daarmee dus dezelfde beperkingen. Dit is een groot misverstand onder mensen die gebruik maken van statistiek.
pi_166636838
quote:
0s.gif Op zondag 13 november 2016 20:25 schreef Banktoestel het volgende:
Regressie-analyse is géén indicatie voor causaliteit. Er is wat dat betreft geen verschil tussen regressie en correlatie. De regressiecoefficienten zijn wel gerelateerd aan de partiele correlatiecoefficienten, en hebben daarmee dus dezelfde beperkingen. Dit is een groot misverstand onder mensen die gebruik maken van statistiek.
Hier spreekt het levende handboek der statistiek. _O_
pi_166637390
Klopt, ik bedoelde met 'theoretische causale verband' het verband wat in het regressiemodel staat met in mijn achterhoofd wat in mijn statistiekboek staat namelijk:

'When we propose a regression model, we might have a causal mechanism in mind, but
cause and effect is not proven by a simple regression. We cannot assume that the explanatory
variable is “causing” the variation we see in the response variable.'
pi_166720535
Hallo,

Voor mijn onderzoek ben ik bezig om gegevens te analyseren. Hiervoor wil ik graag weten of mijn resultaten significant zijn. Ik heb mijn resultaten nu overzichtelijk in Excel staan. Is het mogelijk om de significantie in Excel te berekenen?

Voorbeeld van mijn resultaten in een 'tabel':

A B G
2 1 0
1 0 1
1 0 0
2 2 0
2 1 1
2 0 0
2 1 0
2 2 1
2 0 1
0 2 0

A=Antwoord 1 (0=sterk, 1=voldoende/redelijk, 2=matig, 3=niet),
B=Antwoord 2 (0=Hoog, 1=Midden, 2=Laag),
G=Geslacht. (0=Man en 1=Vrouw)

Vervolgens wil ik bijvoorbeeld weten of mannen meer voorkeur hebben voor product A dan vrouwen. Hoe kan ik de significantie hiervoor berekenen? Moet ik hiervoor misschien de T-Toets gebruiken?

Alvast bedankt!
pi_166720929
Heb er toevallig vorige week ook mee zitten klooien in excel, een stuk of 4 uur. Alleen ging het toen om correlatie. Toen alles uit pure ellende maar naar SPSS gekopieerd en binnen een kwartier resultaat. Dus dat zou ik je aanraden.
pi_166734129
quote:
7s.gif Op donderdag 17 november 2016 20:18 schreef Verpakkingen het volgende:
Hallo,

Voor mijn onderzoek ben ik bezig om gegevens te analyseren. Hiervoor wil ik graag weten of mijn resultaten significant zijn. Ik heb mijn resultaten nu overzichtelijk in Excel staan. Is het mogelijk om de significantie in Excel te berekenen?

Voorbeeld van mijn resultaten in een 'tabel':

A B G
2 1 0
1 0 1
1 0 0
2 2 0
2 1 1
2 0 0
2 1 0
2 2 1
2 0 1
0 2 0

A=Antwoord 1 (0=sterk, 1=voldoende/redelijk, 2=matig, 3=niet),
B=Antwoord 2 (0=Hoog, 1=Midden, 2=Laag),
G=Geslacht. (0=Man en 1=Vrouw)

Vervolgens wil ik bijvoorbeeld weten of mannen meer voorkeur hebben voor product A dan vrouwen. Hoe kan ik de significantie hiervoor berekenen? Moet ik hiervoor misschien de T-Toets gebruiken?

Alvast bedankt!
Ik zou hiervoor geen t-toets gebruiken maar de niet-parametrische versie daarvan (Wilcoxon rank toets). Dit omdat je 'uitkomstvariabele' (waardering voor product) geen continue maar een ordinale variabele is.

Je kan dan 2 Wilcoxon toetsen doen; één om te toetsen of mannen en vrouwen verschillen in hun waardering van product A en nog een om te toetsen of mannen en vrouwen verschillen in hun waardering van product B.

Ik zou het ook handig vinden om je uitkomstvariabelen te hercoderen zodat een hoger cijfer staat voor een hogere waardering, maar dat terzijde.
pi_166814270
Ik breek even in met een ontzettende noobvraag. Ik ben zo slecht in statistiek en het is ook alweer even geleden voor mij. Heb al van alles opgezocht maar ik kom er niet uit.

Ik heb de volgende tabel en moet daarbij dus de 95% CI en p-waarden berekenen.
Iemand enig idee hoe ik dit aan moet pakken?
Je zou me ontzettend helpen!!

But while the earth sinks to its grave
You sail to the sky on the crest of a wave
pi_166814774
quote:
0s.gif Op maandag 21 november 2016 22:42 schreef Njosnavelin het volgende:
Ik breek even in met een ontzettende noobvraag. Ik ben zo slecht in statistiek en het is ook alweer even geleden voor mij. Heb al van alles opgezocht maar ik kom er niet uit.

Ik heb de volgende tabel en moet daarbij dus de 95% CI en p-waarden berekenen.
Iemand enig idee hoe ik dit aan moet pakken?
Je zou me ontzettend helpen!!

[ afbeelding ]
http://www.measuringu.com/blog/ci-five-steps.php
pi_166814928
quote:
Dankje voor de link!
Alleen kom ik precies weer uit waar ik net ook zat: hoe kom ik bij een SD, als de 'mean' het verschil is tussen 2 means? (zie mijn tabel).
Dan kan ik toch geen SD berekenen?
But while the earth sinks to its grave
You sail to the sky on the crest of a wave
pi_166815100
quote:
5s.gif Op maandag 21 november 2016 23:00 schreef Njosnavelin het volgende:

[..]

Dankje voor de link!
Alleen kom ik precies weer uit waar ik net ook zat: hoe kom ik bij een SD, als de 'mean' het verschil is tussen 2 means? (zie mijn tabel).
Dan kan ik toch geen SD berekenen?
de SD is gegeven?
pi_166815285
quote:
0s.gif Op maandag 21 november 2016 23:05 schreef MCH het volgende:

[..]

de SD is gegeven?
Ja, maar in die 5e kolom, dat is het verschil tussen de means van A en B. En daar moet ik het CI van berekenen. Dan moet ik toch ook de SD hebben die bij het verschil (dus de mean uit kolom 5) hoort?
But while the earth sinks to its grave
You sail to the sky on the crest of a wave
pi_166815540
quote:
0s.gif Op maandag 21 november 2016 23:10 schreef Njosnavelin het volgende:

[..]

Ja, maar in die 5e kolom, dat is het verschil tussen de means van A en B. En daar moet ik het CI van berekenen. Dan moet ik toch ook de SD hebben die bij het verschil (dus de mean uit kolom 5) hoort?
http://onlinestatbook.com(...)dist_diff_means.html ?
pi_166815694
of dit http://stats.stackexchang(...)etween-two-data-sets

je vraag letterlijk googlen werkt :+
pi_166815778
quote:
Thanks! Alleen hebben ze het daar wel steeds over twee verschillende populaties, terwijl mijn subsets gewoon twee gerandomiseerde groepen zijn uit 1 populatie. Enig idee of ik daar dan een andere methode voor moet gebruiken?
But while the earth sinks to its grave
You sail to the sky on the crest of a wave
pi_166820703
Hierbij nog even weer een vraag.

Ik wil graag verschil en/of samenhang tussen verschillende variabelen toetsen.

De variabelen hebben de volgende schaal:
NominaalxNominaal
NominaalxOrdinaal
OrdinaalxOrdinaal.

Hiervoor wil ik graag de Chi-Kwadraattoets (Chi-square) gebruiken. Is dit de juiste toets voor al mijn variabelen (bestaande uit nominale of ordinale schaal)?

Hiervoor gebruik ik de volgende hypothesen:
H0: Er is in de populatie geen verband tussen de variabelen (vb. leeftijd en hoe vaak mensen internetaankopen doen).
H1: Er is in de populatie wel een verband tussen deze variabelen.

Graag hoor ik van jullie!! Alvast bedankt.
pi_166821151
quote:
0s.gif Op dinsdag 22 november 2016 10:45 schreef Verpakkingen het volgende:
Hierbij nog even weer een vraag.

Ik wil graag verschil en/of samenhang tussen verschillende variabelen toetsen.

De variabelen hebben de volgende schaal:
NominaalxNominaal
NominaalxOrdinaal
OrdinaalxOrdinaal.

Hiervoor wil ik graag de Chi-Kwadraattoets (Chi-square) gebruiken. Is dit de juiste toets voor al mijn variabelen (bestaande uit nominale of ordinale schaal)?

Hiervoor gebruik ik de volgende hypothesen:
H0: Er is in de populatie geen verband tussen de variabelen (vb. leeftijd en hoe vaak mensen internetaankopen doen).
H1: Er is in de populatie wel een verband tussen deze variabelen.

Graag hoor ik van jullie!! Alvast bedankt.
is dit huiswerk?
pi_166821529
quote:
0s.gif Op dinsdag 22 november 2016 11:14 schreef MCH het volgende:

[..]

is dit huiswerk?
Nee, ik wilde even checken of ik de juiste toets heb gebruikt.
Dus is de Chi-square de juiste toets hiervoor?
pi_166821535
quote:
0s.gif Op dinsdag 22 november 2016 11:36 schreef Verpakkingen het volgende:

[..]

Nee, ik wilde even checken of ik de juiste toets heb gebruikt.
Dus is de Chi-square de juiste toets hiervoor?
Kan
pi_166821556
En spearman's rank
pi_166827479
Hallo!

Ik ben bezig met een statistiekonderzoek voor mijn studie, maar weet niet hoe ik een bepaalde berekening uit moet voeren.

Het betreft een onderzoek waarbij twee variabelen negatief correleren. twee variabelen samen moeten gebruikt worden om te onderzoeken of ze samen verband houden met een andere variabele.

(A <--> B) <--> C

Heeft iemand een suggestie voor welke methode ik het beste kan gebruiken om te onderzoeken of er een relatie is tussen de negatief correlerende variabelen en de andere variabele? In eerste instantie dacht ik er zelf aan één van de twee als mediator te gebruiken, maar omdat niet gezegd kan worden welke van de twee dan een mediator zou zijn kan dit niet, de twee variabelen moeten als gelijk gezien worden (als ik mijn docent goed begrepen heb).

Alvast bedankt voor het meedenken!

[ Bericht 2% gewijzigd door ABZ op 22-11-2016 17:12:58 ]
pi_166827522
quote:
0s.gif Op dinsdag 22 november 2016 16:56 schreef ABZ het volgende:
Hallo!

Ik ben bezig met een statistiekonderzoek voor mijn studie, maar weet niet hoe ik een bepaalde berekening uit moet voeren.

Het betreft een onderzoek waarbij twee variabelen negatief correleren. twee variabelen samen moeten gebruikt worden om te onderzoeken of ze samen verband houden met een andere variabele.

Heeft iemand een suggestie voor welke methode ik het beste kan gebruiken om te onderzoeken of er een relatie is tussen de negatief correlerende variabelen en de andere variabele? In eerste instantie dacht ik er zelf aan één van de twee als mediator te gebruiken, maar omdat niet gezegd kan worden welke van de twee dan een mediator zou zijn kan dit niet, de twee variabelen moeten als gelijk gezien worden (als ik mijn docent goed begrepen heb).

Alvast bedankt voor het meedenken!
Lekker duidelijk verhaal weer Hans. ;(
pi_166830363
quote:
0s.gif Op dinsdag 22 november 2016 16:56 schreef ABZ het volgende:
Hallo!

Ik ben bezig met een statistiekonderzoek voor mijn studie, maar weet niet hoe ik een bepaalde berekening uit moet voeren.

Het betreft een onderzoek waarbij twee variabelen negatief correleren. twee variabelen samen moeten gebruikt worden om te onderzoeken of ze samen verband houden met een andere variabele.

(A <--> B) <--> C

Heeft iemand een suggestie voor welke methode ik het beste kan gebruiken om te onderzoeken of er een relatie is tussen de negatief correlerende variabelen en de andere variabele? In eerste instantie dacht ik er zelf aan één van de twee als mediator te gebruiken, maar omdat niet gezegd kan worden welke van de twee dan een mediator zou zijn kan dit niet, de twee variabelen moeten als gelijk gezien worden (als ik mijn docent goed begrepen heb).

Alvast bedankt voor het meedenken!
Hoezo 'of ze samen verband houden'? Ik weet niet of ik je goed begrijp maar ik zou een multipele lineaire regressie uitvoeren met A en B als onafhankelijke vars en C als afhankelijke var. Je kan eventueel een interactieterm toevoegen (A*B=AB toevoegen als onafhankelijke var). Daarnaast natuurlijk even kijken of de onderlinge correlatie tussen A en B niet te hoog is (ivm multicolineariteit).
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_167108440
Hey ppl,

Iemand die enig idee heeft hoe je in STATA groepen kunt aanmaken? Dus, bijvoorbeeld, twee groepen bestaande uit 10 variabelen per groep. Elk variabele heeft dan ook 20 observaties.
pi_167113059
quote:
0s.gif Op zondag 4 december 2016 23:18 schreef Super-B het volgende:
Hey ppl,

Iemand die enig idee heeft hoe je in STATA groepen kunt aanmaken? Dus, bijvoorbeeld, twee groepen bestaande uit 10 variabelen per groep. Elk variabele heeft dan ook 20 observaties.
Wat bedoel je precies met een groep? Wil je gewoon variabelen aanmaken? Dat kan (even uit m'n hoofd) met:
set obs 20
gen x = [waarde, bijvoorbeeld . of 1]
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_167113735
quote:
0s.gif Op maandag 5 december 2016 10:46 schreef crossover het volgende:

[..]

Wat bedoel je precies met een groep? Wil je gewoon variabelen aanmaken? Dat kan (even uit m'n hoofd) met:
set obs 20
gen x = [waarde, bijvoorbeeld . of 1]
Ik heb 20 variabelen met ieder 22 observaties. De bedoeling is om het gemiddelde te vergelijken tussen 10 vs 10 variabelen. Hiervoor is het doel om deze 20 variabelen te verdelen in twee groepen, zodat ik groep 1 met groep 2 kan vergelijken.

Sowieso moet ik een two sample independent T-test uitvoeren, maar je kan geen meerdere variabelen invoeren in STATA... Althans ik kan dat niet.
  † In Memoriam † maandag 5 december 2016 @ 12:10:46 #122
230491 Zith
pls tip
pi_167115121
extra variabele aanmaken (groep), geef die de waarde 0 als het bij groep 1 hoort, waarde 1 als het bij groep 2 hoort.
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_167119202
quote:
0s.gif Op maandag 5 december 2016 12:10 schreef Zith het volgende:
extra variabele aanmaken (groep), geef die de waarde 0 als het bij groep 1 hoort, waarde 1 als het bij groep 2 hoort.
Hoe kan ik ze toewijzen de dummy-variabele? Er is niet zoiets als age/gender of iets in die richting waarbij ik een voorwaarde kan stellen.

Het zijn gewoon 20 variabelen naast elkaar in kolommen, met daaronder de observaties in rijen. Het is niet dat ik de variabelen kan toewijzen op basis van die observaties zoals ''als observatie < 1'' dan is dummy= 1 anders 0.

[ Bericht 11% gewijzigd door Super-B op 05-12-2016 15:10:48 ]
pi_167120401
quote:
0s.gif Op maandag 5 december 2016 15:04 schreef Super-B het volgende:

[..]

Hoe kan ik ze toewijzen de dummy-variabele? Er is niet zoiets als age/gender of iets in die richting waarbij ik een voorwaarde kan stellen.

Het zijn gewoon 20 variabelen naast elkaar in kolommen, met daaronder de observaties in rijen. Het is niet dat ik de variabelen kan toewijzen op basis van die observaties zoals ''als observatie < 1'' dan is dummy= 1 anders 0.

Wat heeft het dan voor zin om te vergelijken als je zelf de groepen gaat indelen op basis van willekeur?
Als je het toch echt willekeurig wil doen kan je een variabele genereren met de runiform() funtie, en dan vervolgens afronden naar 1 of 0 met de round functie.
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_167120982
quote:
0s.gif Op maandag 5 december 2016 11:15 schreef Super-B het volgende:

[..]

Ik heb 20 variabelen met ieder 22 observaties. De bedoeling is om het gemiddelde te vergelijken tussen 10 vs 10 variabelen. Hiervoor is het doel om deze 20 variabelen te verdelen in twee groepen, zodat ik groep 1 met groep 2 kan vergelijken.

Sowieso moet ik een two sample independent T-test uitvoeren, maar je kan geen meerdere variabelen invoeren in STATA... Althans ik kan dat niet.

Begrijp ik goed dat je de gemiddelde score per observatie van variabele 1-10 met de gemiddelde score per observatie van variabele 11-21 wil vergelijken? In dat geval, nieuwe variabele aanmaken die het gemiddelde van variabele 1-10 heeft, datzelfde doen voor de variabelen 11-20 en dan een t-toets die die twee variabelen vergelijkt.
pi_167189734
Hoi kan iemand mij helpen met mijn vraag?

Het gaat namelijk om het volgende:
Ik heb een logistische regressie analyse uitgevoerd in SPSS. Nu geeft de goodness of fit test van hosmer and lemeshow een significant resultaat aan, wat betekent dat mijn data niet goed past met het model.

Mijn vraag is: is dit problematisch of kan ik gewoon verder gaan wetende dat mijn data niet goed past bij het model?

Hoop dat iemand mij kan helpen!!
Thanks
pi_167192666
Stel ik heb data die, als ik ze zou plotten, een beetje op een parabool zou lijken. Vervolgens voer ik een lineaire regressie uit. In dat geval past data die niet in de fit van het model, en dat heeft ten gevolge dat mijn voorspelde waarden (onder een lineair model) niet passen bij mijn geobserveerde waarden (want: exponentieel model). Je fit is slecht, dus je voorspelde waarden hebben een heel grote error component.

Wat denk je dan, dat je daarmee door kunt werken of dat je iets moet doen?
Your opinion of me is none of my business.
pi_167193052
quote:
0s.gif Op donderdag 8 december 2016 16:56 schreef Sarasi het volgende:
Stel ik heb data die, als ik ze zou plotten, een beetje op een parabool zou lijken. Vervolgens voer ik een lineaire regressie uit. In dat geval past data die niet in de fit van het model, en dat heeft ten gevolge dat mijn voorspelde waarden (onder een lineair model) niet passen bij mijn geobserveerde waarden (want: exponentieel model). Je fit is slecht, dus je voorspelde waarden hebben een heel grote error component.

Wat denk je dan, dat je daarmee door kunt werken of dat je iets moet doen?
Hmm, maar ik las dat het dan meestal aan je sample size ligt.
Mijn scriptiebegeleider wilde namelijk per se dat ik deze analyse ging uitvoeren terwijl mijn data niet ervoor geschikt was. De data heb ik vervolgens zo moet omgooien dat een binary logistic regression analyse uitvoerbaar was.
Anyway enig idee hoe ik dit kan oplossen?
pi_167193822
Met je begeleider gaan overleggen. Als hij wil dat je een analyse doet op data die daar niet geschikt voor zijn, klopt daar iets niet. Als hij wil dat je de data transformeert zodat de analyse wel mogelijk is, moet je even je oude statistiekboeken induiken. Als je dat nooit geleerd hebt, hoort je begeleider je te helpen.

Als je zelf wat meer opzoekt, kun je straks met een concrete vraag waarschijnlijk beter terecht in het centrale statistiektopic.

Succes! :)
Your opinion of me is none of my business.
pi_167447461
Ik ben momenteel bezig met een onderzoek naar de expertise van Nederland op het gebied van zeldzame ziekten. Hiervoor gebruik ik o.a. publicatie-data die ik nu redelijk netjes heb staan. Het format is:
Instituut X, uitland Y heeft in jaartal Z n aantal publicaties geschreven over ziekte Q.

Nu wil ik de ontwikkeling van het aantal publicaties over een ziekte over de tijd weergeven...en de invloed van de markt introductie van medicijnen en/of oprichting van patientenverenigingen hierop in kaart brengen.

Het gaat niet zo zeer om de absolute aantallen want die nemen eigenlijk altijd wel toe over de tijd. Ik wil vooral kijken naar de ontwikkeling van Nederland t.o.v. de wereld output en de ontwikkeling van de concentratie in Nederland binnen een instituut.

Eigenlijk zou ik na deze studie iets meer willen kunnen zeggen over de invloed van de onderstaande evenementen:
- Na marktintroductie medicijn nam het aandeel van Nederland in de wereld output af...
- Na oprichting patientenvereniging nam het aantal publicaties in Nederland toe
- Over de loop van de tijd zijn de publicaties van Nederland steeds meer geconcentreerd in Instituut X.

Ik zit te denken om een regressie te doen over de periode voor en na een evenement.
Op zich is dit niet een heel gecompliceerde vraagstuk maar ik zit er toch mee te stoeien...hoe dit op een wetenschappelijk verantwoorde manier weer te geven. Hierbij loop ik aan tegen zaken als:
- Wat doe je met jaren waarin geen publicaties geschreven zijn? (als ik output Nederland dan deel door wereld-output dan krijg ik uiteraard 0/0)
- Wat doe je met jaren waarin Nederland geen publicaties schreef?(Als ik de concentratie van de Nederlandse expertise in een instituut zou willen weergeven over de tijd dan moet ik publicaties instiuut delen door publicaties nederland...en dan krijgen we weer 0/0)

En stel ik krijg de volgende twee regressielijnen:
Voor evenement: y=1,5x +2
Na evenement: y= 2,0+ 3

- Hoe zou ik op basis van deze twee lijnen de invloed van het evenement kunnen quantificeren?

Alle hulp wordt gewaardeerd en vraag maar raak als iets je niet duidelijk is.
  † In Memoriam † maandag 19 december 2016 @ 23:08:56 #131
230491 Zith
pls tip
pi_167461267
quote:
0s.gif Op maandag 19 december 2016 17:13 schreef Mynheer007 het volgende:
Ik ben momenteel bezig met een onderzoek naar de expertise van Nederland op het gebied van zeldzame ziekten. Hiervoor gebruik ik o.a. publicatie-data die ik nu redelijk netjes heb staan. Het format is:
Instituut X, uitland Y heeft in jaartal Z n aantal publicaties geschreven over ziekte Q.

Nu wil ik de ontwikkeling van het aantal publicaties over een ziekte over de tijd weergeven...en de invloed van de markt introductie van medicijnen en/of oprichting van patientenverenigingen hierop in kaart brengen.

Het gaat niet zo zeer om de absolute aantallen want die nemen eigenlijk altijd wel toe over de tijd. Ik wil vooral kijken naar de ontwikkeling van Nederland t.o.v. de wereld output en de ontwikkeling van de concentratie in Nederland binnen een instituut.

Eigenlijk zou ik na deze studie iets meer willen kunnen zeggen over de invloed van de onderstaande evenementen:
- Na marktintroductie medicijn nam het aandeel van Nederland in de wereld output af...
- Na oprichting patientenvereniging nam het aantal publicaties in Nederland toe
- Over de loop van de tijd zijn de publicaties van Nederland steeds meer geconcentreerd in Instituut X.

Ik zit te denken om een regressie te doen over de periode voor en na een evenement.
Op zich is dit niet een heel gecompliceerde vraagstuk maar ik zit er toch mee te stoeien...hoe dit op een wetenschappelijk verantwoorde manier weer te geven. Hierbij loop ik aan tegen zaken als:
- Wat doe je met jaren waarin geen publicaties geschreven zijn? (als ik output Nederland dan deel door wereld-output dan krijg ik uiteraard 0/0)
- Wat doe je met jaren waarin Nederland geen publicaties schreef?(Als ik de concentratie van de Nederlandse expertise in een instituut zou willen weergeven over de tijd dan moet ik publicaties instiuut delen door publicaties nederland...en dan krijgen we weer 0/0)

En stel ik krijg de volgende twee regressielijnen:
Voor evenement: y=1,5x +2
Na evenement: y= 2,0+ 3

- Hoe zou ik op basis van deze twee lijnen de invloed van het evenement kunnen quantificeren?

Alle hulp wordt gewaardeerd en vraag maar raak als iets je niet duidelijk is.
Leuk onderzoek met raakvlakken op mijn PhD!

Ik raad je een difference-in-differences estimatie aan met Nederland als treatment group.




Dus twee dummies: Nederland (0/1), Ex-post (0/1). Periode na (ex-post) marktintroductie voor nederland is dus 1 & 1 voor beide dummies. Ik zou een periode nemen (bijv. 5 jaar na introducie, 5 jaar voor introductie) dan takkel je het probleem met nullen, per jaar kan ook, dan wordt het lastiger werk maar dan kan je zien of het effect na x jaar af neemt.

Y(publicaties?) = B0 + B1*Nederland + B2*ExPost + B3*Nederland*ExPost + BnXn + E.

Als de interactie NL*Expost significant en positief is dan heeft marktintroductie een positief effect op publicaties.

Mooist zou zijn als je een aantal landen neemt (US/UK/FR/DE/NL), dan kan je wellicht meerdere marktintroducties in meerdere landen bekijken.

Wellicht kan je ipv landen instituten gebruiken (en dan daarna bij resultaten ook bekijken of alle NL instituten vooruitgang boekten?

Je moet laten zien dat in gevallen zonder evenement er geen verschil is tussen beide groepen (dus dat ze bijv. beiden stijgen in publicaties)... kan je doen door naar vergelijkbare wetenschapspublicaties te kijken voor beide groepen (zie --->> parallel assumption test). Anders zou het kunnen dat een stijging van NLse publicaties komt omdat NL relatief meer subsidie is gaan geven terwijl andere landen dat minder zijn gaan doen.

Ik kan je eventueel mijn (in November gesubmit naar journal) working paper sturen, heeft raakvlakken in de zin dat het over wetenschap(pers) gaat en diff-in-diff na een evenement gaat.

[ Bericht 2% gewijzigd door Zith op 20-12-2016 00:40:31 ]
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_167463264
quote:
0s.gif Op maandag 19 december 2016 23:08 schreef Zith het volgende:

[..]

Leuk onderzoek met raakvlakken op mijn PhD!

Ik raad je een difference-in-differences estimatie aan met Nederland als treatment group.


[ afbeelding ]

Dus twee dummies: Nederland (0/1), Ex-post (0/1). Periode na (ex-post) marktintroductie voor nederland is dus 1 & 1 voor beide dummies. Ik zou een periode nemen (bijv. 5 jaar na introducie, 5 jaar voor introductie) dan takkel je het probleem met nullen, per jaar kan ook, dan wordt het lastiger werk maar dan kan je zien of het effect na x jaar af neemt.

Y(publicaties?) = B0 + B1*Nederland + B2*ExPost + B3*Nederland*ExPost + BnXn + E.

Als de interactie NL*Expost significant en positief is dan heeft marktintroductie een positief effect op publicaties.

Mooist zou zijn als je een aantal landen neemt (US/UK/FR/DE/NL), dan kan je wellicht meerdere marktintroducties in meerdere landen bekijken.

Wellicht kan je ipv landen instituten gebruiken (en dan daarna bij resultaten ook bekijken of alle NL instituten vooruitgang boekten?

Je moet laten zien dat in gevallen zonder evenement er geen verschil is tussen beide groepen (dus dat ze bijv. beiden stijgen in publicaties)... kan je doen door naar vergelijkbare wetenschapspublicaties te kijken voor beide groepen (zie --->> parallel assumption test)

Ik kan je eventueel mijn (in November gesubmit naar journal) working paper sturen, heeft raakvlakken in de zin dat het over wetenschap(pers) gaat en diff-in-diff na een evenement gaat.
Bedankt voor je uitgebreide reactie. Ik ga er morgen even goed voor zitten om te kijken hoe ver ik hier mee kan komen. Ik stuur je morgen ook wel even een pm want ik ben wel geïnteresseerd in hoe jij het hebt aangepakt.

[ Bericht 0% gewijzigd door Mynheer007 op 20-12-2016 00:08:19 ]
  dinsdag 20 december 2016 @ 00:36:43 #133
343486 KingRoland
#TEAMJOHANNES
pi_167464263
tvp

ook ik moet eraan geloven
pi_167467254
quote:
1s.gif Op maandag 19 december 2016 23:58 schreef Mynheer007 het volgende:

[..]

Bedankt voor je uitgebreide reactie. Ik ga er morgen even goed voor zitten om te kijken hoe ver ik hier mee kan komen. Ik stuur je morgen ook wel even een pm want ik ben wel geïnteresseerd in hoe jij het hebt aangepakt.
Je kunt ook kijken naar een Chow test. Dan kijk je of er een structural break zit op een vooraf gespecificeerd punt. In jouw geval zou dat prima kunnen volgens mij, dan bekijk je de data voor en na de oprichting van een patientenvereniging etc.
Op dinsdag 23 november 2010 02:22 schreef Braddie het volgende:
Haal van internet af man.
pi_167501771
quote:
0s.gif Op dinsdag 20 december 2016 09:43 schreef wimjongil het volgende:

[..]

Je kunt ook kijken naar een Chow test. Dan kijk je of er een structural break zit op een vooraf gespecificeerd punt. In jouw geval zou dat prima kunnen volgens mij, dan bekijk je de data voor en na de oprichting van een patientenvereniging etc.
Bedankt voor de tip. Ik heb er al een paar mooie plaatjes mee kunnen maken en heb gevonden wat ik wilde; een hele duidelijk break op het moment dat er een medicijn geïntroduceerd werd. Echter is dat bij sommige ziekten weer net anders maar dan blijken er dus verschillende ontwikkelmodellen zijn:)
  maandag 9 januari 2017 @ 17:03:40 #136
85618 No-P
Dosis sola venenum facit
pi_168006703
Ik zit te klooien met de correlatie tussen meerdere metingen van dezelfde objecten in verschillende laboratoria. De schaal is continue, maar de waarden zijn niet normaal verdeeld, dus ik zou de spearmans rho kunnen gebruiken om de 2 laboratoria te kunnen vergelijken. Echter zit ik met het volgende.

De metingen in het lab zijn in duplo uitgevoerd. Met dat laatste weet ik niet goed om te gaan.

Vraag: hoe bepaal ik de correlatie tussen de metingen in 2 verschillende labs (lab-A en lab-B) waarbij de metingen n=80 (01_lab-A en 02_lab-A .... 80_lab-A) in de laboratoria ook in duplo (01_lab-A_1 en 01_lab-A_2) zijn uitgevoerd.
Sei wachsam,
Fall nicht auf sie rein! Paß auf, daß du deine Freiheit nutzt,
Die Freiheit nutzt sich ab, wenn du sie nicht nutzt!
pi_168268753
Hoi,

Ik heb tweemaal een correlogram gemaakt:





Wat is het verschil als ik kijk naar een correlogram van Y1 uit het model en als ik naar een correlogram kijk van de residuals uit het model? Meestal gaan de autocorrelaties van lags via de residuals het model binnendringen wat niet goed is en betekent dat je extra lags moet toevoegen, toch? Maar is de betekenis en intuitie als je kijkt naar een correlogram van de Y1 variabele ansich? En wat is het verschil tussen het kijken naar een correlogram van Y1 en het kijken naar een correlogram van de residuals?


Daarnaast... Waar moet ik naar kijken om te weten of er een autocorrelatie is en vanaf welke lag etc.?
  vrijdag 20 januari 2017 @ 12:56:02 #138
304004 KaBuf
#teamfriet
pi_168290540
Vraagje O+
Even eenvoudig gesteld. Ik heb variabele A, B en ik meet interactie A*B.
Voor A heb ik hypothese 1.
Voor B heb ik hypothese 2.
Voor A*B heb ik hypothese 3.

Naar mijn idee moet ik dan drie losse regressies draaien:
Eerste egressie met de controlevariabelen en variabele A, om hypothese 1 te meten.
Tweede regressie 1 met de controlevariabelen en variabele B, om hypothese 2 te meten.

Maar ik twijfel over de derde regressie om hypothese 3 te meten, met de invloed van A*B. Moet ik dan enkel de interactie A*B meenemen, of ook de twee losse variabelen A en B?
Kan iemand mij uit de brand helpen? :@
Please consider the environment before printing this post.
Op zaterdag 27 mei 2017 00:36 schreef d4v1d het volgende:
Kabuf is af en toe best een prima kerel.
pi_168291028
quote:
2s.gif Op vrijdag 20 januari 2017 12:56 schreef KaBuf het volgende:
Vraagje O+
Even eenvoudig gesteld. Ik heb variabele A, B en ik meet interactie A*B.
Voor A heb ik hypothese 1.
Voor B heb ik hypothese 2.
Voor A*B heb ik hypothese 3.

Naar mijn idee moet ik dan drie losse regressies draaien:
Eerste egressie met de controlevariabelen en variabele A, om hypothese 1 te meten.
Tweede regressie 1 met de controlevariabelen en variabele B, om hypothese 2 te meten.

Maar ik twijfel over de derde regressie om hypothese 3 te meten, met de invloed van A*B. Moet ik dan enkel de interactie A*B meenemen, of ook de twee losse variabelen A en B?
Kan iemand mij uit de brand helpen? :@
Je moet 1 enkel model doen, waarin zowel beide variabelen als de interactie staan. Voor robistness checks eventueel een paar extra met verschillende extra controlevariabelen, maar wel elke keer met beide variabelen en de interactie. Als je daar een deel van uitlaat meet je immers niet langer het pure effect dat je zoekt.

Is het overigens bijna nooit het geval dat je het pure effect meet dat je zoekt, maar je probeert het uiteraard wel zo dicht mogelijk te benaderen.
pi_168291277
Wel een slechte eerste begeleider die het op de manier zoals je het eerst hebt gedaan goedkeurt :')
  vrijdag 20 januari 2017 @ 14:05:02 #141
304004 KaBuf
#teamfriet
pi_168292065
Tweede lezer zegt letterlijk:

quote:
volgens mij zou de student vier regressies kunnen draaien:
- Een zonder interacties (alleen main effects)
- Een met interactie RvC x PBetr
- Een met interactie AC x PBetr
- Een met interacties RcC x PBetr en AC x PBetr. (volledig model)
Dus die zegt ook verschillende regressies :P
Please consider the environment before printing this post.
Op zaterdag 27 mei 2017 00:36 schreef d4v1d het volgende:
Kabuf is af en toe best een prima kerel.
  vrijdag 20 januari 2017 @ 14:06:01 #142
304004 KaBuf
#teamfriet
pi_168292085
quote:
0s.gif Op vrijdag 20 januari 2017 13:31 schreef MCH het volgende:
Wel een slechte eerste begeleider die het op de manier zoals je het eerst hebt gedaan goedkeurt :')
Mijn begeleider heeft letterlijk naar de tweede lezer gemaild:
quote:
ik denk dat ik het allemaal al significant genoeg vond
:X
Please consider the environment before printing this post.
Op zaterdag 27 mei 2017 00:36 schreef d4v1d het volgende:
Kabuf is af en toe best een prima kerel.
pi_168292307
quote:
2s.gif Op vrijdag 20 januari 2017 14:05 schreef KaBuf het volgende:
Tweede lezer zegt letterlijk:

[..]

Dus die zegt ook verschillende regressies :P
Het voordeel aan meerdere en steeds uitgebreidere regressies is ook dat je zo kunt zien hoe de coëfficiënten en p-waardes van de variabelen die je onderzoekt per model veranderen. Dat biedt meer zekerheid (of juist niet) over de werkelijke waardes ervan.
  vrijdag 20 januari 2017 @ 14:18:51 #144
304004 KaBuf
#teamfriet
pi_168292406
quote:
0s.gif Op vrijdag 20 januari 2017 14:14 schreef Kaas- het volgende:

[..]

Het voordeel aan meerdere en steeds uitgebreidere regressies is ook dat je zo kunt zien hoe de coëfficiënten en p-waardes van de variabelen die je onderzoekt per model veranderen. Dat biedt meer zekerheid (of juist niet) over de werkelijke waardes ervan.
Zover was ik al ja :P

Maar als mijn hypothese dan is: A beinvloedt X.
Moet ik voor beantwoording dus wel het definitieve model pakken (dus incl B en A*B), maar kan ik (zoals jij zegt) wel overwegen in hoeverre A beinvloedbaar is door die kleinere regressies mee te nemen?

Oh man ik ben zo slecht in statistiek :')
Please consider the environment before printing this post.
Op zaterdag 27 mei 2017 00:36 schreef d4v1d het volgende:
Kabuf is af en toe best een prima kerel.
pi_168292671
quote:
2s.gif Op vrijdag 20 januari 2017 14:18 schreef KaBuf het volgende:

[..]

Zover was ik al ja :P

Maar als mijn hypothese dan is: A beinvloedt X.
Moet ik voor beantwoording dus wel het definitieve model pakken (dus incl B en A*B), maar kan ik (zoals jij zegt) wel overwegen in hoeverre A beinvloedbaar is door die kleinere regressies mee te nemen?

Oh man ik ben zo slecht in statistiek :')
Als in al die verschillende modellen A een p-waarde heeft die lager is dan bijvoorbeeld .01 of .05 en dat de coëfficiënt ook telkens redelijk gelijk is, en je daarnaast ook kwalitatief kan beredeneren waarom het logisch is dat A een directe invloed heeft op X en dat het niet door andere zaken komt, dan kan je prima stellen dat je bewijs hebt gevonden voor die hypothese.
  vrijdag 20 januari 2017 @ 14:33:28 #146
304004 KaBuf
#teamfriet
pi_168292680
quote:
7s.gif Op vrijdag 20 januari 2017 14:32 schreef Kaas- het volgende:

[..]

Als in al die verschillende modellen A een p-waarde heeft die lager is dan bijvoorbeeld .01 of .05 en dat de coëfficiënt ook telkens redelijk gelijk is, en je daarnaast ook kwalitatief kan beredeneren waarom het logisch is dat A een directe invloed heeft op X en dat het niet door andere zaken komt, dan kan je prima stellen dat je bewijs hebt gevonden voor die hypothese.
Dank O+
Please consider the environment before printing this post.
Op zaterdag 27 mei 2017 00:36 schreef d4v1d het volgende:
Kabuf is af en toe best een prima kerel.
pi_168292760
quote:
2s.gif Op vrijdag 20 januari 2017 14:33 schreef KaBuf het volgende:

[..]

Dank O+
Het is zo basic en iets dat je veel gebruikt dat de meeste studenten er volgens mij al niet eens meer bij stil staan, maar een p-waarde van ca. 0 in een regressie betekent eigenlijk niets anders dan dat die coëfficiënt significant van nul afwijkt en er binnen je geschatte model dus een invloed van die onafhankelijke variabele op de afhankelijke variabele is.

Zonder robustness checks en zonder kwalitatieve analyse is dat echter op zichzelf nog geen bewijs dat er dus sprake is van een causaal verband.

Leuk trouwens dat je nu zo ver bent. Nog even de laatste wijzigingen en dan zal je wel klaar zijn. ^O^
  vrijdag 20 januari 2017 @ 14:45:11 #148
304004 KaBuf
#teamfriet
pi_168292911
quote:
7s.gif Op vrijdag 20 januari 2017 14:37 schreef Kaas- het volgende:

[..]

Het is zo basic en iets dat je veel gebruikt dat de meeste studenten er volgens mij al niet eens meer bij stil staan, maar een p-waarde van ca. 0 in een regressie betekent eigenlijk niets anders dan dat die coëfficiënt significant van nul afwijkt en er binnen je geschatte model dus een invloed van die onafhankelijke variabele op de afhankelijke variabele is.

Zonder robustness checks en zonder kwalitatieve analyse is dat echter op zichzelf nog geen bewijs dat er dus sprake is van een causaal verband.

Leuk trouwens dat je nu zo ver bent. Nog even de laatste wijzigingen en dan zal je wel klaar zijn. ^O^
Ja heb ook (natuurlijk) robuustheidschecks enzo in mn onderzoek verwerkt. :Y
Op 9 februari staat mijn verdediging gepland, dus even knallen nog :Y
Please consider the environment before printing this post.
Op zaterdag 27 mei 2017 00:36 schreef d4v1d het volgende:
Kabuf is af en toe best een prima kerel.
pi_168573570
Hoi,

Kan iemand die verstand heeft van statistiek mij uit de brand helpen? Het gaat over de unit-root case van de Dickey and Fuller test... en het gaat om dit stukje:

''Consider the equation: Yt = 2Yt-1 - Yt-2 + ut

This is a I(2) series. This latter piece of terminology states that I(2) series contains two unit roots, a I(1) series contains one unit root and I(0) series is completely stationary. Because of the I(2) series in this case, we will need to difference the equation 2 times to get rid of the two unit roots and get a I(0) equation''

Wat ik mij dus afvraag is:

Als je het volgende hebt:



Waarbij sprake is van een unit root als :



Dan kan dat toch maar één keer gebeuren? Hoe kan er méér dan 1 unit roots zijn?!
pi_168743943
Weet iemand hoe ik dit moet interpreteren?:



Ik begrijp dat een GARCH-model hetzelfde is als ARMA-model, maar dan een GARCH model er is voor de volatiliteit/varianties. Maar ik begrijp niet hoe de effecten van de volatiliteit te kunnen interpreteren door middel van een schatting van de regressie via STATA..
  dinsdag 7 februari 2017 @ 21:31:22 #151
376125 CapnIzzy
Geef aye voor de kapitein
pi_168744309
Youtube/professor/medestudenten al geprobeerd?
Onoverwinnelijk/Rotterdam/Zeerover
https://www.playgwent.com/en/ - Official beta of Gwent: The Witcher Gard Game
pi_168744660
quote:
0s.gif Op dinsdag 7 februari 2017 21:31 schreef CapnIzzy het volgende:
Youtube/professor/medestudenten al geprobeerd?
Professor: reageert zelden en als die dan reageert dan zijn we al zeker 1.5-2weken verder. :')

Medestudenten: lopen achter.
  dinsdag 7 februari 2017 @ 22:49:58 #153
376125 CapnIzzy
Geef aye voor de kapitein
pi_168747267
quote:
0s.gif Op dinsdag 7 februari 2017 21:39 schreef RustCohle het volgende:

[..]

Professor: reageert zelden en als die dan reageert dan zijn we al zeker 1.5-2weken verder. :')

Medestudenten: lopen achter.
Kan je na college niks vragen dan? Anders wordt het gewoon youtube (welke vaak nog best handig is)
Onoverwinnelijk/Rotterdam/Zeerover
https://www.playgwent.com/en/ - Official beta of Gwent: The Witcher Gard Game
pi_169310732
Iemand enig idee wat fout is aan de volgende formule voor excel ?

=ALS(OF(BW2 < 150, BW2 > 1500),1,0)
"the greatest enemy of knowledge is not ignorance, it is the illusion of knowledge." -Stephen W. Hawking
  zondag 5 maart 2017 @ 20:21:32 #155
235003 wimjongil
Harde man
pi_169313984
Moet die komma in de or-statement geen puntkomma zijn?
Op dinsdag 23 november 2010 02:22 schreef Braddie het volgende:
Haal van internet af man.
pi_169317158
Hoi!
Ik heb een vraag over mijn afstudeeronderzoek. Ik wil de test-hertest betrouwbaarheid en validiteit berekenen van een vragenlijst die bestaat uit twee schalen. De data is verzameld aan de hand van vragen op een 4-punts likertschaal (Helemaal mee eens, mee eens, oneens, helemaal oneens).

Op dit moment wil ik de assumpties testen voor de test-hertest betrouwbaarheid. Maar ik zit met de vraag of ik nu de schaal van de eerste afname en de schaal van de tweede afname tegelijkertijd moet testen op normaliteit, of moet ik dat eerst van elke schaal apart doen? Gezamenlijk zijn ze normaal verdeelt. Echter als ik naar ieder apart kijk, blijkt er dat een niet normaal verdeeld is.

Ik hoop dat jullie begrijpen wat ik bedoel en mij kunnen helpen.
pi_169324731
quote:
0s.gif Op zondag 5 maart 2017 21:31 schreef Droppiedrie het volgende:
Hoi!
Ik heb een vraag over mijn afstudeeronderzoek. Ik wil de test-hertest betrouwbaarheid en validiteit berekenen van een vragenlijst die bestaat uit twee schalen. De data is verzameld aan de hand van vragen op een 4-punts likertschaal (Helemaal mee eens, mee eens, oneens, helemaal oneens).

Op dit moment wil ik de assumpties testen voor de test-hertest betrouwbaarheid. Maar ik zit met de vraag of ik nu de schaal van de eerste afname en de schaal van de tweede afname tegelijkertijd moet testen op normaliteit, of moet ik dat eerst van elke schaal apart doen? Gezamenlijk zijn ze normaal verdeelt. Echter als ik naar ieder apart kijk, blijkt er dat een niet normaal verdeeld is.

Ik hoop dat jullie begrijpen wat ik bedoel en mij kunnen helpen.
Als je voldoende ruimte hebt om dit zo te beschrijven kan je er ook voor kiezen om alle varianten te presenteren. Als dat niet zo is, dan is er iets voor te zeggen om het bij de eerste keer te houden, want als je geen test-hertestbetrouwbaarheid had gedaan, had je ook de tweede set niet afgenomen.

Overigens, geeft het maar mooi aan dat er altijd iets bestaat als toevalstreffers, als dezelfde test op een ander moment een ander resultaat op je toets van assumptie geeft. Ik zou dus ook altijd een visuele inspectie doen om te kijken of je gekke dingen ziet. Normaliteitstoetsen zijn er in veel vormen en maten. Een simpele histogram helpt altijd wel wat, een Q-Q plot of P-P plot ook.

En daarbij komt de vraag, in hoeverre kan een vierpuntsschaal eigenlijk normaald verdeeld zijn? Je zal nooit een belvorm kunnen aantreffen omdat het geen continue schaal is. Dus ik zou t allemaal met een korreltje zout nemen.
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_169326110
quote:
0s.gif Op maandag 6 maart 2017 08:30 schreef crossover het volgende:

[..]

Als je voldoende ruimte hebt om dit zo te beschrijven kan je er ook voor kiezen om alle varianten te presenteren. Als dat niet zo is, dan is er iets voor te zeggen om het bij de eerste keer te houden, want als je geen test-hertestbetrouwbaarheid had gedaan, had je ook de tweede set niet afgenomen.

Overigens, geeft het maar mooi aan dat er altijd iets bestaat als toevalstreffers, als dezelfde test op een ander moment een ander resultaat op je toets van assumptie geeft. Ik zou dus ook altijd een visuele inspectie doen om te kijken of je gekke dingen ziet. Normaliteitstoetsen zijn er in veel vormen en maten. Een simpele histogram helpt altijd wel wat, een Q-Q plot of P-P plot ook.

En daarbij komt de vraag, in hoeverre kan een vierpuntsschaal eigenlijk normaald verdeeld zijn? Je zal nooit een belvorm kunnen aantreffen omdat het geen continue schaal is. Dus ik zou t allemaal met een korreltje zout nemen.
Heel erg bedankt voor je antwoord! Ik denk dat ik inderdaad op het verkeerde spoor zit en dat ik het discontinue zou moeten bekijken. Ik ga het verder uitzoeken :)
  donderdag 6 april 2017 @ 21:41:45 #159
310793 Mishu
Fok verslaafde
pi_170052202
Hallo. Ik wil een multivariabele logistische regressie analyse uitvoeren. Gaat allemaal goed, yolo, maar: hoe meer variabelen ik selecteer hoe kleiner mijn steekproef wordt en langzaamaan zijn mijn resultaten dan ook niet meer significant ;(

Wat is hiervoor een goede oplossing? Minder variabelen nemen en proberen tot een optimaal voorspellend model te komen?

Wat is eigenlijk de ondergrens qua steekproefgrootte bij logistische regressie?
  † In Memoriam † donderdag 6 april 2017 @ 22:12:46 #160
230491 Zith
pls tip
pi_170053159
Je hebt variabelen ertussen zonder waardes bij observaties. Observaties met missende waardes voor variabelen worden niet meegenomen in de regressie.

Oplossing : vul de missende waardes in
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
  donderdag 6 april 2017 @ 22:36:30 #161
310793 Mishu
Fok verslaafde
pi_170053990
quote:
0s.gif Op donderdag 6 april 2017 22:12 schreef Zith het volgende:
Je hebt variabelen ertussen zonder waardes bij observaties. Observaties met missende waardes voor variabelen worden niet meegenomen in de regressie.

Oplossing : vul de missende waardes in
Oftewel, de vragen zijn dan niet ingevuld? In dat geval kan ik dat niet doen want dan fraudeer ik :P
  † In Memoriam † donderdag 6 april 2017 @ 23:17:53 #162
230491 Zith
pls tip
pi_170055134
Inderdaad... ik heb in het verleden wel eens missende cijfers de gemiddelde waarde gegeven van de rest, maar daar zit een handvol problemen aan (minder variabiliteit, bias, leugens, etc).

Ik denk dat je of moet accepteren dat je weinig observaties heb met het hele model, of bekijken welke variabelen degene zijn met veel missende waardes en bedenken of je het kan verdedigen om die eruit te laten.
I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!
pi_170082727
Dit probleem kan je 'oplossen' met behulp van (multipele) imputatie, maar inderdaad geldt garbage in, garbage out.
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_170236875
Hallo,

Ik ben bezig met mijn thesis en loop een beetje vast met de analyses. De onderzoeksvraag is of de relatie tussen effortful control (een temperamentkenmerk) en externaliserend probleemgedrag gemodereerd wordt door sekse. Zowel effortful control als externaliserend probleemgedrag hebben een interval meetniveau. Sekse heeft een nominaal/dichotoom meetniveau. De analyse die ik wil doen is een multipele regressie waarbij ik zowel sekse als effortful control moet centreren. Nou kan ik van effortful control een gemiddelde uitrekenen en centreren met SPSS door een nieuwe variabele te maken. Hoe moet ik dan sekse centreren? Ik kan geen gemiddelde uitrekenen van jongen en meisje.

Ik hoop dat jullie mij kunnen helpen!!
pi_170351908
Hey,

Weet iemand hoe je in STATA het beste stocks kunt sorteren op basis van bepaalde karakteristieken en hoe je daaropvolgend portfolio's kunt aanmaken?
  vrijdag 21 april 2017 @ 14:08:23 #166
310793 Mishu
Fok verslaafde
pi_170382029
quote:
0s.gif Op zaterdag 15 april 2017 13:53 schreef fatma.95 het volgende:
Hallo,

Ik ben bezig met mijn thesis en loop een beetje vast met de analyses. De onderzoeksvraag is of de relatie tussen effortful control (een temperamentkenmerk) en externaliserend probleemgedrag gemodereerd wordt door sekse. Zowel effortful control als externaliserend probleemgedrag hebben een interval meetniveau. Sekse heeft een nominaal/dichotoom meetniveau. De analyse die ik wil doen is een multipele regressie waarbij ik zowel sekse als effortful control moet centreren. Nou kan ik van effortful control een gemiddelde uitrekenen en centreren met SPSS door een nieuwe variabele te maken. Hoe moet ik dan sekse centreren? Ik kan geen gemiddelde uitrekenen van jongen en meisje.

Ik hoop dat jullie mij kunnen helpen!!
Volgens mij centreer je die gewoon niet dan:

http://oupsy.nl/help/1393/wanneer-centreren-en-standaardiseren
  vrijdag 21 april 2017 @ 14:14:45 #167
310793 Mishu
Fok verslaafde
pi_170382197
Vraagje: wat is de motivatie om bijvoorbeeld 'aantal kinderen' op interval of op nominaal (wel of geen kinderen) te meten?

Bij beiden is het effect significant, bij nominaal nog iets sterker.

Iemand een idee?
pi_170382345
quote:
0s.gif Op vrijdag 21 april 2017 14:14 schreef Mishu het volgende:
Vraagje: wat is de motivatie om bijvoorbeeld 'aantal kinderen' op interval of op nominaal (wel of geen kinderen) te meten?

Bij beiden is het effect significant, bij nominaal nog iets sterker.

Iemand een idee?
:')

Dat is zo'n beetje het basisbeginsel van statistiek. Met intervaldata kun je veel meer informatie uit je gegevens halen.
pi_170384354
Hoi,

Ik heb een vraag over SPSS. Ik heb een vragenlijst gemaakt via LimeSurvey (misschien heeft iemand hier ook ervaring mee). Ik heb nu de data/resultaten geëxporteerd naar SPSS.

Als je in SPSS een analyse wilt uitvoeren moet je de afhankelijke variabelen en de onafhankelijke variabelen selecteren. Mijn afhankelijke variabelen is mijn vragenlijst. Alleen is het probleem, dat ik nu dus in SPSS niet 1 variabele (mijn vragenlijst) heb, maar heel veel variabelen en elke variabele stelt 1 vraag/item voor uit mijn vragenlijst. Ik kan nu dus de analyses niet uitvoeren. Heb ik iets fout gedaan? Moet ik iets veranderen in SPSS?

Ik hoop dat iemand me kan helpen.
pi_170384378
quote:
0s.gif Op vrijdag 21 april 2017 16:25 schreef student_123 het volgende:
Hoi,

Ik heb een vraag over SPSS. Ik heb een vragenlijst gemaakt via LimeSurvey (misschien heeft iemand hier ook ervaring mee). Ik heb nu de data/resultaten geëxporteerd naar SPSS.

Als je in SPSS een analyse wilt uitvoeren moet je de afhankelijke variabelen en de onafhankelijke variabelen selecteren. Mijn afhankelijke variabelen is mijn vragenlijst. Alleen is het probleem, dat ik nu dus in SPSS niet 1 variabele (mijn vragenlijst) heb, maar heel veel variabelen en elke variabele stelt 1 vraag/item voor uit mijn vragenlijst. Ik kan nu dus de analyses niet uitvoeren. Heb ik iets fout gedaan? Moet ik iets veranderen in SPSS?

Ik hoop dat iemand me kan helpen.
Weet je überhaupt wel wat een afhankelijke variabele is?
pi_170384403
quote:
0s.gif Op vrijdag 21 april 2017 16:25 schreef student_123 het volgende:
Hoi,

Ik heb een vraag over SPSS. Ik heb een vragenlijst gemaakt via LimeSurvey (misschien heeft iemand hier ook ervaring mee). Ik heb nu de data/resultaten geëxporteerd naar SPSS.

Als je in SPSS een analyse wilt uitvoeren moet je de afhankelijke variabelen en de onafhankelijke variabelen selecteren. Mijn afhankelijke variabelen is mijn vragenlijst. Alleen is het probleem, dat ik nu dus in SPSS niet 1 variabele (mijn vragenlijst) heb, maar heel veel variabelen en elke variabele stelt 1 vraag/item voor uit mijn vragenlijst. Ik kan nu dus de analyses niet uitvoeren. Heb ik iets fout gedaan? Moet ik iets veranderen in SPSS?

Ik hoop dat iemand me kan helpen.
Wat is je onderzoeksvraag? Want ookal heb je een vragenlijst, dan kunnen de variabelen daarin nog steeds de onafhankelijke variabele(n) en afhankele variabele(n) zijn. :)
pi_170394180
Heb een behoorlijk probleem met missing values (ongeveer 300.000 observations). Iemand die hier truucjes mee weet met STATA of Excel, zo ja wie wil mij helpen? Als iemand dat wil, dan leg ik precies uit wat het probleem is. Het is niet zo simpel als dat het lijkt helaas :D
pi_170415156
quote:
0s.gif Op vrijdag 21 april 2017 23:31 schreef Super-B het volgende:
Heb een behoorlijk probleem met missing values (ongeveer 300.000 observations). Iemand die hier truucjes mee weet met STATA of Excel, zo ja wie wil mij helpen? Als iemand dat wil, dan leg ik precies uit wat het probleem is. Het is niet zo simpel als dat het lijkt helaas :D
Ik heb twee Excel-data files uit CompuStat global gehaald:

1. Maandelijkse MSCI-World index prices

2. Maandelijkse financial statement data (zoals P/E ratio, B/P ratio) van verschillende bedrijven over de periode 1990-2017. De bedrijven hebben allemaal een company-key als filter-optie in Excel.

Wat ik moet doen, en waar ik niet uit kom, is het volgende:

- In dataset 2 zijn er een hoop missing values:

* sommige bedrijven hebben geen waarden voor één of meerdere variabelen op bepaalde tijdspunten. En daarnaast hebben niet alle bedrijven een tijdsperiode van 1950 tot 2017, sommige hebben een periode van 1993-2017, bijvoorbeeld.


Dan is mijn vraag dus, hoe los ik dit op en hoe kan ik dit het beste mergen in Excel/STATA?

[ Bericht 4% gewijzigd door Super-B op 24-04-2017 21:08:58 ]
  zondag 23 april 2017 @ 14:05:04 #174
310793 Mishu
Fok verslaafde
pi_170425683
quote:
0s.gif Op zaterdag 22 april 2017 22:28 schreef Super-B het volgende:

[..]

Ik heb drie Excel-data files uit CompuStat global gehaald:

1. Maandelijkse MSCI-World index prices

2. Maandelijkse financial statement data (zoals P/E ratio, B/P ratio) van verschillende bedrijven over de periode 1990-2017. De bedrijven hebben allemaal een company-key als filter-optie in Excel.

Wat ik moet doen, en waar ik niet uit kom, is het volgende:

- In dataset 2 zijn er een hoop missing values:

* sommige bedrijven hebben geen waarden voor één of meerdere variabelen op bepaalde tijdspunten. En daarnaast hebben niet alle bedrijven een tijdsperiode van 1950 tot 2017, sommige hebben een periode van 1993-2017, bijvoorbeeld.


Dan is mijn vraag dus, hoe los ik dit op en hoe kan ik dit het beste mergen in Excel/STATA?
Ik werk met een voorbereide dataset maar ik wil best proberen om met je mee te denken: als er data ontbreekt, dan ontbreekt er gewoon data. Jammer dan.

In mijn dataset zitten er 'sysmis' variabelen waar de missende data en mensen die 0 of neutraal hebben geantwoord eruit zijn gehaald.
  zondag 23 april 2017 @ 14:06:21 #175
310793 Mishu
Fok verslaafde
pi_170425713
quote:
0s.gif Op vrijdag 21 april 2017 16:25 schreef student_123 het volgende:
Hoi,

Ik heb een vraag over SPSS. Ik heb een vragenlijst gemaakt via LimeSurvey (misschien heeft iemand hier ook ervaring mee). Ik heb nu de data/resultaten geëxporteerd naar SPSS.

Als je in SPSS een analyse wilt uitvoeren moet je de afhankelijke variabelen en de onafhankelijke variabelen selecteren. Mijn afhankelijke variabelen is mijn vragenlijst. Alleen is het probleem, dat ik nu dus in SPSS niet 1 variabele (mijn vragenlijst) heb, maar heel veel variabelen en elke variabele stelt 1 vraag/item voor uit mijn vragenlijst. Ik kan nu dus de analyses niet uitvoeren. Heb ik iets fout gedaan? Moet ik iets veranderen in SPSS?

Ik hoop dat iemand me kan helpen.
Je afhankelijke variabele is waar je onafhankelijke variabelen effect op hebben. Je hebt dus maar 1 afhankelijke variabele. Je test de invloed van 1 of meerdere onafhankelijke variabelen op die afhankelijke variabele.
  zondag 23 april 2017 @ 23:57:22 #176
310793 Mishu
Fok verslaafde
pi_170446026
quote:
0s.gif Op zaterdag 22 april 2017 22:28 schreef Super-B het volgende:

[..]

Ik heb drie Excel-data files uit CompuStat global gehaald:

1. Maandelijkse MSCI-World index prices

2. Maandelijkse financial statement data (zoals P/E ratio, B/P ratio) van verschillende bedrijven over de periode 1990-2017. De bedrijven hebben allemaal een company-key als filter-optie in Excel.

Wat ik moet doen, en waar ik niet uit kom, is het volgende:

- In dataset 2 zijn er een hoop missing values:

* sommige bedrijven hebben geen waarden voor één of meerdere variabelen op bepaalde tijdspunten. En daarnaast hebben niet alle bedrijven een tijdsperiode van 1950 tot 2017, sommige hebben een periode van 1993-2017, bijvoorbeeld.


Dan is mijn vraag dus, hoe los ik dit op en hoe kan ik dit het beste mergen in Excel/STATA?
In SPSS gebruik je de optie 'exclude cases pairwise' om missing values eruit te halen.
pi_170446407
quote:
1s.gif Op zondag 23 april 2017 23:57 schreef Mishu het volgende:
exclude cases pairwise
Wat doet die functie dan precies? Het zou fijn zijn als ik in Excel/STATA een functie heb waarbij alle rows van de desbetreffende firm en dus de firm uit de data wordt verwijderd op het moment dat er missing values zijn.

Met Excel kan ik automatisch rows laten verwijderen op het moment dat er missing values zijn, maar dan verwijdert Excel alleen één of meerdere jaren van een bepaalde firm. Nog steeds zit de firm er dan in, met 'gebroken' jaren, bijvoorbeeld 1995-2010 en dan 2013-2016.... En ik wil dan gewoon dat dan de firm dan gewoon helemaal uit de sample wordt verwijderd.

Handmatig is grofweg onmogelijk met zowat 200.000 observaties... :(

Iemand die mij hieruit kan helpen?

Dus op het moment dat er één of meerdere variabelen (kolommen) een missing value heeft in één of meerdere rijen (jaren) ---> dan gewoon alle rijen m.b.t. de firm verwijderen... Het ziet er ongeveer zo uit:



[ Bericht 11% gewijzigd door Super-B op 24-04-2017 00:39:05 ]
  maandag 24 april 2017 @ 10:56:02 #178
310793 Mishu
Fok verslaafde
pi_170449539
quote:
0s.gif Op maandag 24 april 2017 00:26 schreef Super-B het volgende:

[..]

Wat doet die functie dan precies? Het zou fijn zijn als ik in Excel/STATA een functie heb waarbij alle rows van de desbetreffende firm en dus de firm uit de data wordt verwijderd op het moment dat er missing values zijn.

Met Excel kan ik automatisch rows laten verwijderen op het moment dat er missing values zijn, maar dan verwijdert Excel alleen één of meerdere jaren van een bepaalde firm. Nog steeds zit de firm er dan in, met 'gebroken' jaren, bijvoorbeeld 1995-2010 en dan 2013-2016.... En ik wil dan gewoon dat dan de firm dan gewoon helemaal uit de sample wordt verwijderd.

Handmatig is grofweg onmogelijk met zowat 200.000 observaties... :(

Iemand die mij hieruit kan helpen?

Dus op het moment dat er één of meerdere variabelen (kolommen) een missing value heeft in één of meerdere rijen (jaren) ---> dan gewoon alle rijen m.b.t. de firm verwijderen... Het ziet er ongeveer zo uit:

[ afbeelding ]

Ik zou de term even googelen. Ik Google ook veel. Ik zou anders je dataset in SPSS voorbereiden en dan in het andere programma verder gaan.
pi_170450368
quote:
0s.gif Op maandag 24 april 2017 00:26 schreef Super-B het volgende:

[..]

Wat doet die functie dan precies? Het zou fijn zijn als ik in Excel/STATA een functie heb waarbij alle rows van de desbetreffende firm en dus de firm uit de data wordt verwijderd op het moment dat er missing values zijn.

Met Excel kan ik automatisch rows laten verwijderen op het moment dat er missing values zijn, maar dan verwijdert Excel alleen één of meerdere jaren van een bepaalde firm. Nog steeds zit de firm er dan in, met 'gebroken' jaren, bijvoorbeeld 1995-2010 en dan 2013-2016.... En ik wil dan gewoon dat dan de firm dan gewoon helemaal uit de sample wordt verwijderd.

Handmatig is grofweg onmogelijk met zowat 200.000 observaties... :(

Iemand die mij hieruit kan helpen?

Dus op het moment dat er één of meerdere variabelen (kolommen) een missing value heeft in één of meerdere rijen (jaren) ---> dan gewoon alle rijen m.b.t. de firm verwijderen... Het ziet er ongeveer zo uit:

[ afbeelding ]

Kan dit niet beter met Access?
pi_170456615
quote:
1s.gif Op maandag 24 april 2017 10:56 schreef Mishu het volgende:

[..]

Ik zou de term even googelen. Ik Google ook veel. Ik zou anders je dataset in SPSS voorbereiden en dan in het andere programma verder gaan.
Ben al zeker een week bezig om over deze drempel heen te komen. Ben de term die in 1 woord beschrijft wat ik wil, helaas, niet tegengekomen.... :(

Hoe het moet gebeuren, maakt mij niet veel uit.. zolang ik maar er in STATA mee verder kan gaan.
pi_170456625
quote:
1s.gif Op maandag 24 april 2017 11:43 schreef MCH het volgende:

[..]

Kan dit niet beter met Access?
Geen idee? Heb jij een idee? :P
pi_170457363
quote:
0s.gif Op maandag 24 april 2017 00:26 schreef Super-B het volgende:

[..]

Wat doet die functie dan precies? Het zou fijn zijn als ik in Excel/STATA een functie heb waarbij alle rows van de desbetreffende firm en dus de firm uit de data wordt verwijderd op het moment dat er missing values zijn.

Met Excel kan ik automatisch rows laten verwijderen op het moment dat er missing values zijn, maar dan verwijdert Excel alleen één of meerdere jaren van een bepaalde firm. Nog steeds zit de firm er dan in, met 'gebroken' jaren, bijvoorbeeld 1995-2010 en dan 2013-2016.... En ik wil dan gewoon dat dan de firm dan gewoon helemaal uit de sample wordt verwijderd.

Handmatig is grofweg onmogelijk met zowat 200.000 observaties... :(

Iemand die mij hieruit kan helpen?

Dus op het moment dat er één of meerdere variabelen (kolommen) een missing value heeft in één of meerdere rijen (jaren) ---> dan gewoon alle rijen m.b.t. de firm verwijderen... Het ziet er ongeveer zo uit:

[ afbeelding ]

Zou ik in een macro doen. En ik vermoed dat dit gemakkelijk in Python kan, maar dat ken ik niet goed genoeg om je verder te helpen.
Aldus.
pi_170458450
quote:
2s.gif Op maandag 24 april 2017 16:49 schreef Z het volgende:

[..]

Zou ik in een macro doen. En ik vermoed dat dit gemakkelijk in Python kan, maar dat ken ik niet goed genoeg om je verder te helpen.
Hoe heet het wat ik wil doen eigenlijk?
pi_170459615
quote:
1s.gif Op maandag 24 april 2017 17:56 schreef Super-B het volgende:

[..]

Hoe heet het wat ik wil doen eigenlijk?
Je moet in stappen denken bij een Excel macro. Iets van:
Stap 1: Maak een lijst van bedrijven met een missende waarden.
Stap 2: Loop door deze lijst.
Stap 3: Wis eerste regel van het eerste bedrijf.
Stap 4: Wis de volgende regel van het eerste bedrijf.
Stap 5: Ga door tot je geen regels meer vindt.
Stap 6: Volgende bedrijf

Macro's schrijven vereist wel enige oefening maar het is ook weer niet heel moeilijk. Je zou het even in het Excel-topic kunnen vragen. Daar zitten een aantal Excel-wizzards.

Ik heb met de Python-module voor SPSS wel eens kolommen met lege waarden verwijderd in SPSS, dat kan SPSS zelf niet. Ik kan me voorstellen dat Python ook jouw probleem op zou kunnen lossen. Maar geen idee hoe precies.
Aldus.
pi_170463725
quote:
2s.gif Op maandag 24 april 2017 18:54 schreef Z het volgende:

[..]

Je moet in stappen denken bij een Excel macro. Iets van:
Stap 1: Maak een lijst van bedrijven met een missende waarden.
Stap 2: Loop door deze lijst.
Stap 3: Wis eerste regel van het eerste bedrijf.
Stap 4: Wis de volgende regel van het eerste bedrijf.
Stap 5: Ga door tot je geen regels meer vindt.
Stap 6: Volgende bedrijf

Macro's schrijven vereist wel enige oefening maar het is ook weer niet heel moeilijk. Je zou het even in het Excel-topic kunnen vragen. Daar zitten een aantal Excel-wizzards.

Ik heb met de Python-module voor SPSS wel eens kolommen met lege waarden verwijderd in SPSS, dat kan SPSS zelf niet. Ik kan me voorstellen dat Python ook jouw probleem op zou kunnen lossen. Maar geen idee hoe precies.
Ik denk dat ik niet de eerste ben met een soortgelijke vraag. Echter kan ik het niet vinden op Google, maar dat is omdat ik niet zoek op de juiste trefwoorden helaas.
pi_170472615
Ik heb, tussendoor, nog een andere vraag:

Mijn Panel Data bestaat uit firm-year observaties die verschillende tijdsperioden hebben; Firm X bestaat uit observaties tussen 1962-2009, Firm Y uit 1982-2006, Firm Z dan weer 1965-2008 etc.

Moet ik ervoor zorgen dat ik een hoop firms/jaren uit de sample verwijder zodat de (overgebleven) firms in de sample allen dezelfde tijdsperiode hebben of maakt dat niet uit?

EDIT: wat googlen levert op dat dit fenomeen ''Unbalanced Panel Data'' heet. Wat is het beste om te doen? Of hoef ik daar niks aan te doen?
  woensdag 26 april 2017 @ 14:05:48 #187
310793 Mishu
Fok verslaafde
pi_170499060
Vraagje: klopt het dat factoranalyse vooral een exploratieve inductieve methode is?

Want je gaat gewoon kijken wat de afhankelijke variabele het beste verklaard en je selecteert dus niet de onafhankelijke variabelen vooraf op basis van de theorie die je vervolgens test? Toch?

Ander vraagje: ik gebruik ook een panelstudie. Ik heb in mijn ondertitel staan: door middel van een panelstudie. Maar de methode die ik gebruik is logistische regressie. Hoe staat dat nou in verhouding tot elkaar? Is de panelstudie mijn dataset en logistische regressie mijn methode? Wat zouden jullie in de ondertitel zetten: panelstudie of logistische regressie?

[ Bericht 39% gewijzigd door Mishu op 26-04-2017 14:59:15 ]
pi_170543170
quote:
1s.gif Op woensdag 26 april 2017 14:05 schreef Mishu het volgende:
Vraagje: klopt het dat factoranalyse vooral een exploratieve inductieve methode is?

Want je gaat gewoon kijken wat de afhankelijke variabele het beste verklaard en je selecteert dus niet de onafhankelijke variabelen vooraf op basis van de theorie die je vervolgens test? Toch?

Ander vraagje: ik gebruik ook een panelstudie. Ik heb in mijn ondertitel staan: door middel van een panelstudie. Maar de methode die ik gebruik is logistische regressie. Hoe staat dat nou in verhouding tot elkaar? Is de panelstudie mijn dataset en logistische regressie mijn methode? Wat zouden jullie in de ondertitel zetten: panelstudie of logistische regressie?
Voor wat betreft EFA (explorative factor analysis) klopt het. Je hebt ook een ander soort factor analyse, namelijk CFA (confirmative factor analysis). Hierbij specificeer je vooraf hoeveel factoren er zijn en hoe deze samenhangen met je variabelen. Je kan dan ook verschillende modellen toetsen en kijken welk voorspelde model het beste past. Hier kan je ook meer over vinden onder de naam structural equation modeling.

Je andere vraagje: ik zou het bij panelstudie houden, of eventueel longitudinaal design, want daar gaat het dan vooral om, de methode is minder relevant want logistische regressie kan je ook in ander soorten designs gebruiken. Overigens dacht ik dat je met logistische regressie geen herhaalde metingen kan doen, maar je bedoelt wellicht multilevel logistic regression?
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
  vrijdag 28 april 2017 @ 21:54:18 #189
310793 Mishu
Fok verslaafde
pi_170553053
Weg

[ Bericht 99% gewijzigd door Mishu op 28-04-2017 22:14:03 ]
  vrijdag 28 april 2017 @ 21:57:43 #190
310793 Mishu
Fok verslaafde
pi_170553171
quote:
0s.gif Op vrijdag 28 april 2017 14:44 schreef crossover het volgende:

[..]

Voor wat betreft EFA (explorative factor analysis) klopt het. Je hebt ook een ander soort factor analyse, namelijk CFA (confirmative factor analysis). Hierbij specificeer je vooraf hoeveel factoren er zijn en hoe deze samenhangen met je variabelen. Je kan dan ook verschillende modellen toetsen en kijken welk voorspelde model het beste past. Hier kan je ook meer over vinden onder de naam structural equation modeling.

Je andere vraagje: ik zou het bij panelstudie houden, of eventueel longitudinaal design, want daar gaat het dan vooral om, de methode is minder relevant want logistische regressie kan je ook in ander soorten designs gebruiken. Overigens dacht ik dat je met logistische regressie geen herhaalde metingen kan doen, maar je bedoelt wellicht multilevel logistic regression?
Ik dacht dat panelstudie betekende een samengestelde dataset. Ik doe inderdaad geen longitudinaal onderzoek. Aanpassen dus?

Ik ben echt zo bang om fouten te maken... gelukkig heb ik nog even.

Edit: het betreft wel een panel in de zin dat deze mensen als sinds 1990 deze vragenlijst krijgen. Voor mijn onderzoek zijn voor het eerst in 2015 extra vragen toegevoegd. En het is dus een samengestelde dataset van twee steekproeven.

Nog een vraagje: weet iemand in welke range de ideale steekproefgrootte van logistische regressie zit?

[ Bericht 3% gewijzigd door Mishu op 28-04-2017 22:14:42 ]
pi_170554087
-

[ Bericht 99% gewijzigd door Super-B op 29-04-2017 19:23:55 ]
  vrijdag 28 april 2017 @ 22:54:49 #192
310793 Mishu
Fok verslaafde
pi_170554731
quote:
0s.gif Op vrijdag 28 april 2017 22:28 schreef Super-B het volgende:
Daar ben ik weer met een STATA-gerelateerde vraag :P;

Ik heb voor mijn dataset stock-returns berekend aan de hand van de aandelenprijzen van het jaar daarvoor. Echter stuit ik nu tegen het probleem aan dat, in mijn panel-data, het eerste jaar van ieder bedrijf een missing value heeft voor de nieuwe variabele (Stock-returns).

Hoe moet ik hier nu mee omgaan in mijn verdere analyses zoals regressions e.d.? Het eerste jaar kan ik niet zomaar verwijderen/excluden, omdat het daaropvolgende jaar dan gewoon door STATA als het eerste jaar wordt geidentificeerd waardoor ik wel oneindig door kan gaan met excluden totdat ik geen data meer over heb...

Wat kan ik het beste doen?
Volgens mij heb je echt een heel moeilijk onderwerp _O- ik ben geen expert hierin dus sterkte. Ik weet wel inmiddels dat reguliere regressie enorm vastloopt als er missing values zijn.
pi_170555204
quote:
1s.gif Op vrijdag 28 april 2017 22:54 schreef Mishu het volgende:

[..]

Volgens mij heb je echt een heel moeilijk onderwerp _O- ik ben geen expert hierin dus sterkte. Ik weet wel inmiddels dat reguliere regressie enorm vastloopt als er missing values zijn.
Als ik mijn professor moet geloven, is het inderdaad een heel moeilijk onderwerp. Vooral voor een bachelor-thesis, laat staan een master-thesis.

Het is enorm motiverend en fascinerend, alleen soms is het méér dan irritant als het programmeren niet meezit.
  zaterdag 29 april 2017 @ 04:29:53 #194
376125 CapnIzzy
Geef aye voor de kapitein
pi_170558263
quote:
0s.gif Op vrijdag 28 april 2017 23:16 schreef Super-B het volgende:

[..]

Als ik mijn professor moet geloven, is het inderdaad een heel moeilijk onderwerp. Vooral voor een bachelor-thesis, laat staan een master-thesis.

Het is enorm motiverend en fascinerend, alleen soms is het méér dan irritant als het programmeren niet meezit.
Waarom doe je het dan?
Onoverwinnelijk/Rotterdam/Zeerover
https://www.playgwent.com/en/ - Official beta of Gwent: The Witcher Gard Game
pi_170564088
quote:
0s.gif Op vrijdag 28 april 2017 22:28 schreef Super-B het volgende:
Daar ben ik weer met een STATA-gerelateerde vraag :P;

Ik heb voor mijn dataset stock-returns berekend aan de hand van de aandelenprijzen van het jaar daarvoor. Echter stuit ik nu tegen het probleem aan dat, in mijn panel-data, het eerste jaar van ieder bedrijf een missing value heeft voor de nieuwe variabele (Stock-returns).

Hoe moet ik hier nu mee omgaan in mijn verdere analyses zoals regressions e.d.? Het eerste jaar kan ik niet zomaar verwijderen/excluden, omdat het daaropvolgende jaar dan gewoon door STATA als het eerste jaar wordt geidentificeerd waardoor ik wel oneindig door kan gaan met excluden totdat ik geen data meer over heb...

Wat kan ik het beste doen?
Je kunt toch eerst die returns uitrekenen en vervolgens het eerste jaar weggooien? Dan hou je een dataset over met vanaf het begin alle waarden.
Op dinsdag 23 november 2010 02:22 schreef Braddie het volgende:
Haal van internet af man.
pi_170565251
quote:
0s.gif Op vrijdag 28 april 2017 23:16 schreef Super-B het volgende:

[..]

Als ik mijn professor moet geloven, is het inderdaad een heel moeilijk onderwerp. Vooral voor een bachelor-thesis, laat staan een master-thesis.

Het is enorm motiverend en fascinerend, alleen soms is het méér dan irritant als het programmeren niet meezit.
quote:
1s.gif Op zaterdag 29 april 2017 04:29 schreef CapnIzzy het volgende:

[..]

Waarom doe je het dan?
  zaterdag 29 april 2017 @ 19:20:10 #197
376125 CapnIzzy
Geef aye voor de kapitein
pi_170569109
quote:
0s.gif Op zaterdag 29 april 2017 16:15 schreef Super-B het volgende:

[..]

[..]

Zo motiverend dat je je statitische deel van je scriptie moet navragen op een forum?
Onoverwinnelijk/Rotterdam/Zeerover
https://www.playgwent.com/en/ - Official beta of Gwent: The Witcher Gard Game
  zaterdag 29 april 2017 @ 20:22:26 #198
310793 Mishu
Fok verslaafde
pi_170570831
quote:
14s.gif Op zaterdag 29 april 2017 19:20 schreef CapnIzzy het volgende:

[..]

Zo motiverend dat je je statitische deel van je scriptie moet navragen op een forum?
Ik wist toen ik begon aan mijn scriptie ook niks van logistische regressie maar gelukkig was er genoeg over te vinden. :Y
pi_170788269
Hallo! Ik ben bezig met de afrondende fase van mijn thesis. Ik heb alle data binnen en ben bezig met analyse en schrijven, helaas loop ik vast met de statistiek. Ik heb via een Log10 transformatie de data van een test op twee meetmomenten T1 en T2 normaal verdeeld kunnen krijgen. Nu is de vraag hoe ik dit moet rapporteren.

We moeten schrijven volgens de PT Journal richtlijnen, waar staat dat je bij normaal verdeelde data de mean en sd moet geven, niet normaal de mediaan en range. Wat moet ik nu aangeven bij de getransformeerde data? Toch de mediaan en range, de mean en sd van de originele data of de mean en sd van de getransformeerde data? En moet ik in het laatste geval ook aangeven dat het om de geometric mean gaat?

Als ik op de getransformeerde data een t-toets uitvoer, wat moet ik dan gebruiken voor de effect size? Normaal gebruik ik een 95% BI, maar ik heb begrepen dat als je de 95% BI terug transformeerd, dat je dan alleen iets kan zeggen over de ratio.
pi_171287748
yoyo,
ook een vraagje over welke spss toets ik moet gebruiken :(

Ik heb een random 2x2 dus stel 1 of 2 en 3 of 4 (iemand kan 1,3 zijn of 1,4 of 2,3 of 2,4) en ik wil weten of bijvoorbeeld 1,3 significant hoger/lager scoort op een variabele (met een 5 puntsschaal) vergeleken met groep 2,3

is dat gewoon een 2 way anova?
'If you really think that the environment is less important than the economy try holding your breath while you count your money'
  zondag 28 mei 2017 @ 22:18:23 #201
376125 CapnIzzy
Geef aye voor de kapitein
pi_171288489
quote:
0s.gif Op maandag 8 mei 2017 23:03 schreef bbroeders het volgende:
Hallo! Ik ben bezig met de afrondende fase van mijn thesis. Ik heb alle data binnen en ben bezig met analyse en schrijven, helaas loop ik vast met de statistiek. Ik heb via een Log10 transformatie de data van een test op twee meetmomenten T1 en T2 normaal verdeeld kunnen krijgen. Nu is de vraag hoe ik dit moet rapporteren.

We moeten schrijven volgens de PT Journal richtlijnen, waar staat dat je bij normaal verdeelde data de mean en sd moet geven, niet normaal de mediaan en range. Wat moet ik nu aangeven bij de getransformeerde data? Toch de mediaan en range, de mean en sd van de originele data of de mean en sd van de getransformeerde data? En moet ik in het laatste geval ook aangeven dat het om de geometric mean gaat?

Als ik op de getransformeerde data een t-toets uitvoer, wat moet ik dan gebruiken voor de effect size? Normaal gebruik ik een 95% BI, maar ik heb begrepen dat als je de 95% BI terug transformeerd, dat je dan alleen iets kan zeggen over de ratio.
Wat voor soort variabele is het precies
Onoverwinnelijk/Rotterdam/Zeerover
https://www.playgwent.com/en/ - Official beta of Gwent: The Witcher Gard Game
pi_171328313
Hi iedereen, ik probeer een dataset te maken in SPSS. De data bestaat uit een enquête met vragen op nominaal niveau. In de enquête zijn per vraag 7 antwoordmogelijkheden, en de optie 'anders, namelijk...'. Ik snap hoe ik een dataset moet opstellen zonder die laatste optie, maar kom er niet uit hoe ik de 'anders, namelijk...' verwerk. Heeft iemand tips in ruil voor eeuwige dankbaarheid?
pi_171331359
quote:
0s.gif Op dinsdag 30 mei 2017 16:12 schreef koffiehagedis het volgende:
Hi iedereen, ik probeer een dataset te maken in SPSS. De data bestaat uit een enquête met vragen op nominaal niveau. In de enquête zijn per vraag 7 antwoordmogelijkheden, en de optie 'anders, namelijk...'. Ik snap hoe ik een dataset moet opstellen zonder die laatste optie, maar kom er niet uit hoe ik de 'anders, namelijk...' verwerk. Heeft iemand tips in ruil voor eeuwige dankbaarheid?
Je kan een waarde toevoegen voor 'anders namelijk'. In marktonderzoek krijgt deze meestal een waarde als 99999996. En dan een nieuwe variabele toevoegen voor de tekstdata. Zo kan je in ieder geval de 'anders, namelijk' op totaalniveau meenemen in de analyse. Als de tekstsdata echt wil analyseren moet je deze moeten coderen. Of, een wat kwalitatievere optie, een woordenwolk maken oid.
Aldus.
  dinsdag 30 mei 2017 @ 18:54:57 #204
333026 ZuidGrens
VI Hooligans
pi_171331658
quote:
2s.gif Op dinsdag 30 mei 2017 18:43 schreef Z het volgende:

[..]

Je kan een waarde toevoegen voor 'anders namelijk'. In marktonderzoek krijgt deze meestal een waarde als 99999996. En dan een nieuwe variabele toevoegen voor de tekstdata. Zo kan je in ieder geval de 'anders, namelijk' op totaalniveau meenemen in de analyse. Als de tekstsdata echt wil analyseren moet je deze moeten coderen. Of, een wat kwalitatievere optie, een woordenwolk maken oid.
Dat is wel de meest handige (en volgens mij ook een redelijk vaak voorkomende) optie inderdaad.
pi_171332382
quote:
0s.gif Op dinsdag 30 mei 2017 18:54 schreef ZuidGrens het volgende:

[..]

Dat is wel de meest handige (en volgens mij ook een redelijk vaak voorkomende) optie inderdaad.
Woordenwolken zijn imho alleen bruikbaar als het korte antwoorden (liefst 1 woord) betreft.
Aldus.
  dinsdag 30 mei 2017 @ 19:47:57 #206
333026 ZuidGrens
VI Hooligans
pi_171332704
foutje
  dinsdag 30 mei 2017 @ 19:48:26 #207
333026 ZuidGrens
VI Hooligans
pi_171332718
quote:
0s.gif Op dinsdag 30 mei 2017 19:47 schreef ZuidGrens het volgende:

[..]

Ja, wij houden als vuistregel maximaal drie aan. Maar in mijn geval was het meestal toch 'niet van toepassing' oid
pi_171333950
quote:
0s.gif Op dinsdag 30 mei 2017 16:12 schreef koffiehagedis het volgende:
Hi iedereen, ik probeer een dataset te maken in SPSS. De data bestaat uit een enquête met vragen op nominaal niveau. In de enquête zijn per vraag 7 antwoordmogelijkheden, en de optie 'anders, namelijk...'. Ik snap hoe ik een dataset moet opstellen zonder die laatste optie, maar kom er niet uit hoe ik de 'anders, namelijk...' verwerk. Heeft iemand tips in ruil voor eeuwige dankbaarheid?
Het is wel erg dom dat je hier pas over na gaat denken als je daadwerkelijk je data moet gaan verwerken
pi_171341114
Veel dank voor het meedenken! Hier kan ik absoluut wat mee.

MCH; dit is een opdracht om beter met SPSS te leren werken, de data is mij door een docent aangeleverd. Oordeel niet zo snel.
pi_171341889
quote:
0s.gif Op woensdag 31 mei 2017 07:20 schreef koffiehagedis het volgende:
Veel dank voor het meedenken! Hier kan ik absoluut wat mee.

MCH; dit is een opdracht om beter met SPSS te leren werken, de data is mij door een docent aangeleverd. Oordeel niet zo snel.
Maar die leraar heeft je toch een instructie of college gegeven? Dan is dat toch heel eenvoudig op te lossen, zelfs met een beetje logisch nadenken.
pi_172045713
Hee! Ik heb een vraagje over (surprise) SPSS. Ik heb een probleempje met missing data. Als er nu een vragenlijst van die dag niet wordt ingevuld komt deze helemaal niet in SPSS te staan bijv:

2
3
4
6
7
8
etc.

Dag 5 is dus niet ingevuld maar wordt dus ook niet als nee weergegeven maar gewoon helemaal niet. Ik zou deze er wel graag in hebben maar dan als ''nee'' of missing value (-99). Is dit in SPSS op te lossen of ligt dit probleem bij de export. BVD!
pi_172045867
Staat een dag van een respondent op één regel of staat alle data per respondent op 1 regel?
Aldus.
pi_172045912
quote:
2s.gif Op donderdag 29 juni 2017 15:44 schreef Z het volgende:
Staat een dag van een respondent op één regel of staat alle data per respondent op 1 regel?
Een dag is een regel
pi_172046384
Dus wil je eigenlijk een lege regel toevoegen?
Aldus.
pi_172046942
quote:
2s.gif Op donderdag 29 juni 2017 16:07 schreef Z het volgende:
Dus wil je eigenlijk een lege regel toevoegen?
In principe wel, maar met de missende dag erbij en dat voor meerdere subjects in het bestand (die onder elkaar staan)
pi_172060259
quote:
0s.gif Op donderdag 29 juni 2017 16:30 schreef Temple het volgende:

[..]

In principe wel, maar met de missende dag erbij en dat voor meerdere subjects in het bestand (die onder elkaar staan)
Is dat niet op te lossen bij de data invoer? Anders zou ik het in Excel doen met een marco denk ik, er moeten regels toegevoegd worden.
Aldus.
pi_172364929
Hi! Iemand die mij kan helpen met het bepalen van de representativiteit van mijn steekproef? Laten we zeggen dat mijn steekproef 30% A, 50%B en 20% C bevat. En ik weet dat de gehele populatie 35% A, 50% B en 15% C bevat

Kan ik dan een Chi square goodness of fit test doen met als expected values de getallen van de populatie? Ik kom dan uit op een p value groter dan 0,05 dus dat zou betekenen dat er geen verschil zou zijn. Maar ik heb wel eens gehoord dat je met een Chi 2 goodness of fit dan niet aan mag nemen dat ze hetzelfde zijn.

Alvast bedankt!
pi_172366255
Kan je de boel niet gewoon even recht wegen?
Aldus.
pi_172366623
quote:
2s.gif Op woensdag 12 juli 2017 16:12 schreef Z het volgende:
Kan je de boel niet gewoon even recht wegen?
Dank voor je reactie Z! Het is meer voor het kwalitatieve gedeelte van mijn studie, om aan te tonen dat de kwalitatieve analyse representatief is voor de hele populatie. Het wegen zou ik inderdaad moeten doen in mijn kwantitatieve deel!
pi_172532236
Hoihoi, eventjes een checkvraagje

In mijn situatie wordt een advies gegeven en er wordt gevraagd aan mensen welk advies zij daadwerkelijk opvolgen en dan wil ik kijken of er een verschil zit in gegeven advies en daadwerkelijke gedrag. Beide variabelen (advies en gedrag) hebben drie groepen; dus advies ABC en gedrag ABC.

Ik doe een chi-square test en deze is significant. Nu wil ik graag een post-hoc test doen om te kijken waar precies de verschillen zitten in advies - gedrag maarrrr ik kom volgens mij steeds uit op post hoc test within advies of within gedrag zeg maar? Ik wil graag weten welke van de drie groepen van advies verschillend is van welke van de drie groepen van gedrag (dus is a of b of c van advies anders dan a of b of c van gedrag, en nu krijg ik volgens mij is a b of c van gedrag verschillend en dat wil ik niet weten). Ik heb nu gewoon drie variabelen gemaakt van advies a of b of c en gedrag a of b of c en die los met elkaar vergeleken, kan dat zo?

Ennn ik vroeg mij af of chi-square klopt. Zat nogal beetje te kutten met paired maar ik heb geen interventie niks en ik wil iets zeggen over 'als je dit advies krijgt dan is de kans groot dat je dit gaat doen' dus ik dacht hola chi-square

Groetjes kusjes handjes
Baby darling doll face honey
pi_172532317
quote:
0s.gif Op woensdag 12 juli 2017 15:15 schreef SAB_77 het volgende:
Hi! Iemand die mij kan helpen met het bepalen van de representativiteit van mijn steekproef? Laten we zeggen dat mijn steekproef 30% A, 50%B en 20% C bevat. En ik weet dat de gehele populatie 35% A, 50% B en 15% C bevat

Kan ik dan een Chi square goodness of fit test doen met als expected values de getallen van de populatie? Ik kom dan uit op een p value groter dan 0,05 dus dat zou betekenen dat er geen verschil zou zijn. Maar ik heb wel eens gehoord dat je met een Chi 2 goodness of fit dan niet aan mag nemen dat ze hetzelfde zijn.

Alvast bedankt!
Volgens mij gaat dit puur om hoe je het opschrijft. Je mag inderdaad niet zeggen dat het hetzelfde is want dat is het niet, alleen berusten de verschillen op toeval en dus is het niet boeiend verder. Je zult met steekproeven enzo altijd beetje verschil hebben want ja dat is nou eenmaal zo, en dit verschil is klein genoeg om te zeggen ok het is goed.
Baby darling doll face honey
pi_172550535
quote:
17s.gif Op woensdag 19 juli 2017 18:26 schreef Crack_ het volgende:
Hoihoi, eventjes een checkvraagje

In mijn situatie wordt een advies gegeven en er wordt gevraagd aan mensen welk advies zij daadwerkelijk opvolgen en dan wil ik kijken of er een verschil zit in gegeven advies en daadwerkelijke gedrag. Beide variabelen (advies en gedrag) hebben drie groepen; dus advies ABC en gedrag ABC.

Ik doe een chi-square test en deze is significant. Nu wil ik graag een post-hoc test doen om te kijken waar precies de verschillen zitten in advies - gedrag maarrrr ik kom volgens mij steeds uit op post hoc test within advies of within gedrag zeg maar? Ik wil graag weten welke van de drie groepen van advies verschillend is van welke van de drie groepen van gedrag (dus is a of b of c van advies anders dan a of b of c van gedrag, en nu krijg ik volgens mij is a b of c van gedrag verschillend en dat wil ik niet weten). Ik heb nu gewoon drie variabelen gemaakt van advies a of b of c en gedrag a of b of c en die los met elkaar vergeleken, kan dat zo?

Ennn ik vroeg mij af of chi-square klopt. Zat nogal beetje te kutten met paired maar ik heb geen interventie niks en ik wil iets zeggen over 'als je dit advies krijgt dan is de kans groot dat je dit gaat doen' dus ik dacht hola chi-square

Groetjes kusjes handjes
Okeeee, het werd me gisteren iets te veel en was al iets te lang bezig denk ik...
Ik lees het nu opnieuw en volgens mij is het redelijk simpel en gewoon McNemar?

Omdat ik wil kijken of twee variabelen met drie groepen hetzelfde zijn, geen before - after maar chi-square kijkt natuurlijk naar verschillen in de groepen van je variabele maar dat wil ik heul niet hebben.
Baby darling doll face honey
pi_172573873
Ik ben sinds deze week begonnen met SAS.

Nu heb ik een macro geschreven die de handeling verricht voor de jaren 1980-2013 welke als y-waarden worden ingevuld in de macro:
de macro is
1
2
3
4
5
%combineddata(y)
data test123;
merge een twee;
keep variablex;
run;
(de macro is een stuk langer en ingewikkelder maar die kan ik hier niet naar toe kopieren)

Nu is het geval dat de naam van variabele x varieert over tijd. Na 2000 heet variabeleX variabeleZ.
Ik dacht zoiets op te kunnen lossen door variabeleX te vervangen door een %let statement :
1
2
3
4
5
%combineddata(y)
data test123;
merge een twee;
keep &B;
run;
1
2
3
%let b=variabeleX;
%if 2000<&y %then %do; %let B=variabeleZ;
%end; 
Maar ik kom er niet uit. Zou iemand mij een beetje op weg kunnen helpen?
pi_172577527
quote:
0s.gif Op vrijdag 21 juli 2017 14:09 schreef Mynheer007 het volgende:
Ik ben sinds deze week begonnen met SAS.

Nu heb ik een macro geschreven die de handeling verricht voor de jaren 1980-2013 welke als y-waarden worden ingevuld in de macro:
de macro is
[ code verwijderd ]

(de macro is een stuk langer en ingewikkelder maar die kan ik hier niet naar toe kopieren)

Nu is het geval dat de naam van variabele x varieert over tijd. Na 2000 heet variabeleX variabeleZ.
Ik dacht zoiets op te kunnen lossen door variabeleX te vervangen door een %let statement :
[ code verwijderd ]

[ code verwijderd ]

Maar ik kom er niet uit. Zou iemand mij een beetje op weg kunnen helpen?
Hij werkt nu wel zonder dat ik er iets aan heb veranderd. Maar ik heb nu een volgend issue:
- Mijn macros reageren ineens niet meer; ik kan wel de macro runnen, en een waarde voor de macro invullen en runnen(dus %macro(2010)) maar er gebeurt niets en ik zie ook geen foutmeldingen in de log. Is dit een bekend probleem?
pi_172578452
De boel even opnieuw opstarten wellicht? Ik weet niks van SAS maar met Macro's weet je soms niet welke er hoe in het geheugen staat.
Aldus.
pi_172640297
quote:
2s.gif Op vrijdag 21 juli 2017 17:44 schreef Z het volgende:
De boel even opnieuw opstarten wellicht? Ik weet niks van SAS maar met Macro's weet je soms niet welke er hoe in het geheugen staat.
Thanks. Dat verhielp het probleem inderdaad.
pi_172691290
Hallo!

Ik hoop dat jullie mij kunnen helpen! Ik heb data van mijn onderzoek maar ik twijfel over statistische test die ik moet gebruiken.

Ik heb 1 groep deelnemers (sporters) gevolgd in de tijd. De tijd kan ik indelen in 2 perioden: training en vakantie.
Deze groep heb ik in de studieperiode 8 x een vragenlijst toegestuurd en uiteindelijk heb ik van iedere deelnemer data van 6 of 7 complete vragenlijsten. Uit iedere vragenlijst heb ik data gekregen voor 6 subscales (het zijn 6 gemoeds/gevoelstoestanden, zoals vermoeidheid, blijdschap/energie, boosheid, etc).

Ik heb dus 6 afhankelijke variabelen (de subscales).
En ik heb ze meerdere malen gemeten binnen mijn proefpersonen. Ik heb niet van iedere deelnemer evenveel datapunten in de 'training' en 'vakantie' periode.

Ik wil weten of de subscales significant anders zijn in de verschillende periode en welke dat dan zijn.
Als ik mijn data plot kan ik al zien dat er duidelijk verschil is, maar ik wil het met cijfers kunnen onderbouwen.

Nu heb ik drie opties bedacht:

• 1. Ik kan van iedere deelnemer per periode een gemiddelde nemen van de gemeten scores per periode (omdat het dus meerdere metingen zijn binnen 1 persoon) en deze per subscale vergelijken in paired samples t-tests.
Alleen raak ik hier geen 'data' kwijt?

• 2. Ik kan een MANOVA uitvoeren op de alle metingen (niet gemiddeld) omdat ik meerdere dependent variables heb (6 subscales), en twee onafhankelijke factoren 'Periode' en 'participant'?

• 3. Ik dacht ook aan een repeated measurement ANOVA omdat ik meerdere metingen heb uitgevoerd binnen dezelfde participant. 'Subscale' zet ik dan als within-subject factor. 'Periode' is een Between-subject Factor, en 'Participant' ook.

Iemand een suggestie welke van mijn opties ik het beste kan kiezen?
pi_172697882
quote:
0s.gif Op woensdag 26 juli 2017 16:13 schreef Sonyanijntje het volgende:
Hallo!

Ik hoop dat jullie mij kunnen helpen! Ik heb data van mijn onderzoek maar ik twijfel over statistische test die ik moet gebruiken.
[...]
Iemand een suggestie welke van mijn opties ik het beste kan kiezen?
Optie 1 valt af omdat je een aanname schendt, namelijk die van onafhankelijke waarnemingen. Dat geldt ook voor optie 2. Repeated measures anova houdt hier wel rekening mee, dus dat lijkt me de voorkeur hebben.

Ik weet echter niet of je problemen krijgt met missing data, dat zou nog wel eens kunnen. Het mooiste alternatief zou multi-level regressie zijn, die techniek is veel flexibeler, maar dat is next level shit :)
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_172850644
Ik heb een sas-macro maar er gaat iets niet helemaal naar behoren

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
%combineddata(y);
Mergeddata&y;
merge a b;
run;
%if &y<2003 %then %do;
data test&y;
merge mergeddata&y d;
by db32;
run;
%end;
%if 2003 le &y le 2007 %then %do;
data test&y;
merge mergeddata&y f;
by db45;
run;
%end;

Ik wil dus verschillende acties uitvoeren voor de jaren voor 2003 en de jaren 2003 tot en met 2007.

Bij het runnen van de macro voor de jaren 2003-2007 gaat alles naar behoren, alleen bij het runnen van de jaren voor 2003 krijg ik een error:
Daaruit blijkt dat de macro op de data van de jaren kleiner dan 2003 ook de actie voor de jaren 2003-2007 uitvoert. Ik zie alleen niet waar de fout in mijn script zit ;(
pi_172850780
quote:
0s.gif Op woensdag 2 augustus 2017 12:16 schreef Mynheer007 het volgende:
Ik heb een sas-macro maar er gaat iets niet helemaal naar behoren
[ code verwijderd ]

Ik wil dus verschillende acties uitvoeren voor de jaren voor 2003 en de jaren 2003 tot en met 2007.

Bij het runnen van de macro voor de jaren 2003-2007 gaat alles naar behoren, alleen bij het runnen van de jaren voor 2003 krijg ik een error:
Daaruit blijkt dat de macro op de data van de jaren kleiner dan 2003 ook de actie voor de jaren 2003-2007 uitvoert. Ik zie alleen niet waar de fout in mijn script zit ;(
Kun je ze niet los van elkaar runnen en die van voor 2003 net zo schrijven als 2003-2007?
pi_172852104
quote:
0s.gif Op woensdag 2 augustus 2017 12:22 schreef MCH het volgende:

[..]

Kun je ze niet los van elkaar runnen en die van voor 2003 net zo schrijven als 2003-2007?
Ik heb hem herschreven
quote:
0s.gif Op woensdag 2 augustus 2017 12:22 schreef MCH het volgende:

[..]

Kun je ze niet los van elkaar runnen en die van voor 2003 net zo schrijven als 2003-2007?
Ik heb de volgende regel herschreven:
1%if 2003 le &y le 2007 %then %do;
naar
1%if 2003 le &y AND &y le 2007 %then %do;
en het werkt.

Ik weet niet of je dit bedoelde, maar iig bedankt voor het meedenken :)
pi_172929253
tussendoor even een kansloze excel vraag, excuus.

Hoe krijg ik van die up/down pijltjes in een cel om een nummer te verhogen/verlagen? ipv 683 handmatig veranderen in 684 het door middel van een klik op een pijltje verhogen? :P
'If you really think that the environment is less important than the economy try holding your breath while you count your money'
pi_173185857
Hallo allen,

Ik heb hier een R code en ik vraag mij dus af wat er bedoeld wordt met:

- x1, x2 en x3...

- var

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
makelms <- function(){
  # Store the coefficient of linear models with different independent variables
  cf <- c(coef(lm(Fertility ~ Agriculture, swiss))[2], 
          coef(lm(Fertility ~ Agriculture + Catholic,swiss))[2],
          coef(lm(Fertility ~ Agriculture + Catholic + Education,swiss))[2],
          coef(lm(Fertility ~ Agriculture + Catholic + Education + Examination,swiss))[2],
          coef(lm(Fertility ~ Agriculture + Catholic + Education + Examination +Infant.Mortality, swiss))[2])
  print(cf)
}

# Regressor generation process 1.
rgp1 <- function(){
  print("Processing. Please wait.")
  # number of samples per simulation
  n <- 100
  # number of simulations
  nosim <- 1000
  # set seed for reproducability
  set.seed(4321)
  # Point A:
  x1 <- rnorm(n)
  x2 <- rnorm(n)
  x3 <- rnorm(n)
  # Point B:
  betas <- sapply(1 : nosim, function(i)makelms(x1, x2, x3))
  round(apply(betas, 1, var), 5)
}

# Regressor generation process 2.
rgp2 <- function(){
  print("Processing. Please wait.")
  # number of samples per simulation
  n <- 100
  # number of simulations
  nosim <- 1000
  # set seed for reproducability
  set.seed(4321)
  # Point C:
  x1 <- rnorm(n)
  x2 <- x1/sqrt(2) + rnorm(n) /sqrt(2)
  x3 <- x1 * 0.95 + rnorm(n) * sqrt(1 - 0.95^2)
  # Point D:
  betas <- sapply(1 : nosim, function(i)makelms(x1, x2, x3))
  round(apply(betas, 1, var), 5)
}
betas
pi_173401028
Na wat data manipulatie heb ik een dataset gekregen die ik in R wil gebruiken om wat plotjes te maken etc.

1
2
3
dataset2000<-read_sas("dataset2000.sas7dbat")
plot(dataset2000, x,y)
etc....
(Dit is niet het origineel, maar copy daarvan is niet mogelijk aangezien ik op een beveiligde server werk)
Echter wil ik dit script omschrijven in een function waarin ik voor 2000 elk willekeurig jaartal in zou moeten kunnen vullen. Dit lukt echter maar gedeeltelijk, want de functie kan prima elke keer 2000 veranderen in het gewenste jaartal maar kan dit niet doen voor de tekst die tussen "" staat, zoals onderandere de bestandsnaam van de sas-dataset. Is dit in het geheel niet mogelijk of is zijn er mogelijkheden om dit voor elkaar te krijgen?
pi_173404521
Moet kunnen. "Putting all the data frames in a list and looping over that list with lapply".
Aldus.
  zaterdag 26 augustus 2017 @ 22:22:09 #236
85514 ralfie
!Yvan eht nioj
pi_173410586
ehh, paste0("dataset", n, ".sas7dbat") ?
pi_173479680
quote:
2s.gif Op zaterdag 26 augustus 2017 15:38 schreef Z het volgende:
Moet kunnen. "Putting all the data frames in a list and looping over that list with lapply".
quote:
0s.gif Op zaterdag 26 augustus 2017 22:22 schreef ralfie het volgende:
ehh, paste0("dataset", n, ".sas7dbat") ?
Bedankt voor de hulp, maar dit gaat specifiek over de dataset. Maar ik wil ook dat de functie de titel van de grafiek aanpast etc., maar aangezien die tussen "" staat, doet de functie daar niets mee.
pi_173484137
Populatie a: 500.000 samples, mean = 19, stdv = 10

Populatie b: 500 samples, mean = 23, stdv = 11

Populaties zijn niet normaal verdeeld.

Wat voor een test kan ik het beste gebruiken om aan te tonen of populatie b binnen/buiten populatie a valt?

[ Bericht 9% gewijzigd door Lyrebird op 30-08-2017 17:19:38 ]
Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson
pi_173579854
quote:
1s.gif Op woensdag 30 augustus 2017 16:49 schreef Lyrebird het volgende:
Populatie a: 500.000 samples, mean = 19, stdv = 10

Populatie b: 500 samples, mean = 23, stdv = 11

Populaties zijn niet normaal verdeeld.

Wat voor een test kan ik het beste gebruiken om aan te tonen of populatie b binnen/buiten populatie a valt?
Mann-whitneytoets.
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
  donderdag 21 september 2017 @ 19:23:02 #240
85618 No-P
Dosis sola venenum facit
pi_173915966
Graag uw hulp.

Ik heb van opeenvolgende jaren een populatie gevolgt waarvan een proportie positief scored op een test (dichotoom: positief of negatief).
Graag wil ik een trend analyse doen om aan te tonen dat de proportie positieve testen toeneemt in de tijd. De gescreende individuen in de populatie die worden getest verschillen per jaar.

Welke methode is hier geschikt voor? Ik denk dat ik met logistic regression een heel eind kom.

[ Bericht 4% gewijzigd door No-P op 21-09-2017 21:44:17 ]
Sei wachsam,
Fall nicht auf sie rein! Paß auf, daß du deine Freiheit nutzt,
Die Freiheit nutzt sich ab, wenn du sie nicht nutzt!
pi_173961432
quote:
1s.gif Op donderdag 21 september 2017 19:23 schreef No-P het volgende:
Graag uw hulp.

Ik heb van opeenvolgende jaren een populatie gevolgt waarvan een proportie positief scored op een test (dichotoom: positief of negatief).
Graag wil ik een trend analyse doen om aan te tonen dat de proportie positieve testen toeneemt in de tijd. De gescreende individuen in de populatie die worden getest verschillen per jaar.

Welke methode is hier geschikt voor? Ik denk dat ik met logistic regression een heel eind kom.
Nee, want je schendt de assumptie van onafhankelijke waarnemingen, wanneer er sprake is van meerdere metingen per persoon. Een waarneming is dan niet meer onafhankelijk want het is immers afhankelijk van de persoon.

Multi level logistic regression corrigeert hiervoor, dus dat zou ik je aanraden.
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_174403823
Meer statistiek/onderzoek maar het heeft een wiskunde component en het is niet de moeite om een apart topic te openen.

Ik zit met het probleem dat ik niet weet of ik een t-test moet doen of een regressie. In het verleden heb ik het allemaal gehad maar het is weg gezakt.

In het kort het onderzoek:
Op dag 1 wordt gevraagd naar de mening over A. (Via een likert schaal).
Op dag 2 wordt onder een compleet andere groep mensen gevraagd naar de mening over B.

Het is trouwens onbekend of de variatie van beiden gelijk zijn.

Nu is de vraag moet ik dit onderzoeken met een double tail independent two sample T test of Welchers T test. Of dat ik het beter kan doen met een regressie (least squares).

Zo ja welke moet ik kiezen en vooral waarom. Mijn gevoel en volgens wiki zegt de T test echter kom ik niet echt achter de voordelen van een T-test over een regressie.

[ Bericht 1% gewijzigd door icecreamfarmer_NL op 13-10-2017 21:28:48 ]
1/10 Van de rappers dankt zijn bestaan in Amerika aan de Nederlanders die zijn voorouders met een cruiseschip uit hun hongerige landen ophaalde om te werken op prachtige plantages.
"Oorlog is de overtreffende trap van concurrentie."
  vrijdag 27 oktober 2017 @ 11:08:01 #243
463917 Buurtzwaan
Houdt van de polder
pi_174688403
Hoe krijg je een hoedje op de beta in een word document ? Iemand enig idee hier ?
pi_174688846
quote:
0s.gif Op vrijdag 13 oktober 2017 21:21 schreef icecreamfarmer_NL het volgende:
Meer statistiek/onderzoek maar het heeft een wiskunde component en het is niet de moeite om een apart topic te openen.

Ik zit met het probleem dat ik niet weet of ik een t-test moet doen of een regressie. In het verleden heb ik het allemaal gehad maar het is weg gezakt.

In het kort het onderzoek:
Op dag 1 wordt gevraagd naar de mening over A. (Via een likert schaal).
Op dag 2 wordt onder een compleet andere groep mensen gevraagd naar de mening over B.

Het is trouwens onbekend of de variatie van beiden gelijk zijn.

Nu is de vraag moet ik dit onderzoeken met een double tail independent two sample T test of Welchers T test. Of dat ik het beter kan doen met een regressie (least squares).

Zo ja welke moet ik kiezen en vooral waarom. Mijn gevoel en volgens wiki zegt de T test echter kom ik niet echt achter de voordelen van een T-test over een regressie.
Wat wil je uberhaupt onderzoeken?
pi_174731900
Ik hoop heel erg dat iemand mij kan helpen hiermee.

Ik heb de volgende onderzoeksopzet:

Er werd getest wat het effect van beweging is op je witte bloedcellen. Hiervoor hebben we 7 mannen vier verschillende protocollen laten fietsen (A t/m D). Iedereen heeft elk protocol gerandomiseerd gefietst, met één of twee weken er tussen. In totaal zijn er op vier tijdstippen monsters genomen: t1= voor het fietsen,t2, t3 en t4 na het fietsen op vaste tijdstippen.

Data ziet er per protocol dus als volgt uit:
t1 t2 t3 t4
1 5% 6% 4% 5%
2
3
4
5
6
7

N.B. Er zit veel biologische variatie tussen de proefpersonen

Wat ik wil weten zijn twee dingen
1. zit er verschil tussen t1 van protocol A en protocol B ( en C en D).
2. Zit er binnen het protocol verschil tussen t1, t2, t3 en t4

Voor de tweede vraag heb ik een one way repeated measures anova gedaan. Omdat het om herhaalde metingen gaat op dezelfde persoon in de tijd. Post hoc = bonferroni

Maar uit de eerste vraag kom ik niet zo goed. Ik ging er niet van uit dat dit herhaalde metingen zijn en wilde een two-way anova doen om wel te blocken voor de biologische variatie, maar bij het uitvoeren er van (in GraphPad Prism) raakte ik wat in de war bij de 'multiple comparisons' en bedacht ik mij dat het niet klopt, want je kan een persoon niet als factor zien als je wilt zien wat het verschil is, maar ook kan je niet werken met een gemiddelde van de complete groep (t1 protocol a) vanwege de variatie.
Zou je hier ook een one-way ANOVA met herhaalde metingen op los kunnen laten?

Niet alle data is normaal verdeeld, denk dat dat (Deels) komt door het geringe aantal. Bij het uitvoeren van de test ga ik er wel altijd van uit dat de sphericty niet wordt gehaald en wordt er een Geisser-Green nogwat correctie uitgevoerd.

Klopt het een beetje wat ik doe?
pi_174757462
Ik heb een vraagje over het gebruik van SAS MACRO's . Ik heb hier zelf nooit eerder mee moeten werken, echter moet ik dit nu voor mijn thesis wel doen. Ik heb nu een syntax voor een macro gekregen die ik kan gebruiken. Het gaat hierbij om het maken van restricted cubic splines. Echter snap ik dus niet hoe ik deze macro moet runnen. Ik heb het idee dat ik iets heel simpels verkeerd doe.. Ik gebruik de RCS_Reg van loïc Desquilet, mocht het verhelderend werken.

Kan iemand mij simpel uitleggen wat je moet doen om het goed te laten runnen? In de spoiler staat een deel van de syntax.

SPOILER
Om spoilers te kunnen lezen moet je zijn ingelogd. Je moet je daarvoor eerst gratis Registreren. Ook kun je spoilers niet lezen als je een ban hebt.


[ Bericht 57% gewijzigd door peperkoekmannetje op 30-10-2017 14:16:42 (toevoeging) ]
  maandag 6 november 2017 @ 21:45:19 #247
472901 drcc
SPSS Statistiek
pi_174911964
Hallo allemaal,

Graag zou ik de volgende data willen analyseren.

Verschil in resultaat (in percentage) na 4 weken en 1 jaar gescoord door dezelfde groep: wilcoxon signed rank test?

Verschil in resultaat in percentage na 4 weken (en 1 jaar) gescoord door 2 verschillende groepen

welke analyses kan ik hier het beste voor gebruiken in spes en waarom
Hallo,&lt;br /&gt;Ik wil graag het volgende analyseren
  vrijdag 10 november 2017 @ 16:00:02 #248
473012 xenia_dekok
Four legs good, two legs bad.
pi_174982374
Vraagje, ik heb een categorial variable: emailopen (email geopend: ja of nee) en een variable met de frequentie van de ja's en nee's. Moet ik dan een chi square goodness of fit test doen?
pi_175438188
Heeft iemand kennis en ervaring met Matlab?
pi_175721687
Ik ben bezig met een statistiek opdracht, maar ik kom er niet helemaal uit welke formule ik nu moet gebruiken:
X heeft een effect op Y, maar verwacht wordt dat dit een inverted U-shape is, door moderator Z.
Nu zit ik met het volgende, zet ik de kwadraat op de X of op de Z? X is trouwens een binary variable.
Op internet lees ik verschillende dingen, ook omdat de meeste sites uitgaan van gewoon in een inverted U, zonder de moderator.
Ik dacht zelf dat ik hem op de Z moest zetten...
pi_176081584
Hi Fok!kers,

Ik zit met een vraag mbt Betrouwbaarheidsinterval bij beperkt eindige populatie en hoe ik dat in mijn rekenmachine moet verwerken. De gegevens staan in de spoilers, het betrouwbaarheidspercentage is 95%, dus een z-waarde van 1,96.

Ik voer dit in (6-1,96*3/wortel300)*(wortel 1000-300/1000-1)

Can somebody help me ;(

SPOILER
Om spoilers te kunnen lezen moet je zijn ingelogd. Je moet je daarvoor eerst gratis Registreren. Ook kun je spoilers niet lezen als je een ban hebt.
Man is de baas, vrouw kent haar plaats.
pi_176239274
Iemand?
Man is de baas, vrouw kent haar plaats.
pi_176287210
quote:
7s.gif Op dinsdag 2 januari 2018 16:29 schreef phpmystyle het volgende:
Iemand?
Beetje googlen, pagina 2: http://canmedia.mcgrawhil(...)bow02371_OLC_7_9.pdf
Bijna goed dus, je hebt te maken met de sample standaarddeviatie en niet die van de populatie.
pi_176294215
quote:
0s.gif Op donderdag 4 januari 2018 19:24 schreef darthsideaus1 het volgende:

[..]

Beetje googlen, pagina 2: http://canmedia.mcgrawhil(...)bow02371_OLC_7_9.pdf
Bijna goed dus, je hebt te maken met de sample standaarddeviatie en niet die van de populatie.
Thanks voor jouw response :)

Kun jij voordoen hoe je hem in de rekenmachine zet? Ik zit ergens te kutten met zo'n haakje, dus ik krijg voortdurend afwijkende uitkomsten.
Man is de baas, vrouw kent haar plaats.
pi_176313635
quote:
7s.gif Op vrijdag 5 januari 2018 01:23 schreef phpmystyle het volgende:

[..]

Thanks voor jouw response :)

Kun jij voordoen hoe je hem in de rekenmachine zet? Ik zit ergens te kutten met zo'n haakje, dus ik krijg voortdurend afwijkende uitkomsten.
Oh sorry geen idee, ik weet slechts een beetje af van de meest standaard betrouwbaarheidsintervallen vanwege het premastervak dat ik volg. Het enige dat ik op een rekenmachine kan, is het gemiddelde en de standaardafwijking berekenen :+
pi_176386620
Ik heb een dataset met x en y coördinaten. Nu wil ik die coördinaten 45o roteren. Ik kom daar niet echt uit in r. Ik vind wel dit maar dat werkt niet omdat het een ander grafiektype is. Ik kom er niet echt uit. Iemand een idee? Het hoeft niet per se in r te gebeuren.
Aldus.
  woensdag 10 januari 2018 @ 00:24:58 #257
85514 ralfie
!Yvan eht nioj
pi_176403961
quote:
2s.gif Op dinsdag 9 januari 2018 13:36 schreef Z het volgende:
Ik heb een dataset met x en y coördinaten. Nu wil ik die coördinaten 45o roteren. Ik kom daar niet echt uit in r. Ik vind wel dit maar dat werkt niet omdat het een ander grafiektype is. Ik kom er niet echt uit. Iemand een idee? Het hoeft niet per se in r te gebeuren.
wil je nou een dataset roteren of een plot? EN hoe roteren, rond 0,0? Datapaartjes [x,y] kun je natuurlijk altijd roteren door ze te vermenigvuldigen met een 2D rotatie matrix
  Moderator woensdag 10 januari 2018 @ 09:11:33 #258
27682 crew  Bosbeetle
terminaal verdwaald
pi_176406227
quote:
2s.gif Op dinsdag 9 januari 2018 13:36 schreef Z het volgende:
Ik heb een dataset met x en y coördinaten. Nu wil ik die coördinaten 45o roteren. Ik kom daar niet echt uit in r. Ik vind wel dit maar dat werkt niet omdat het een ander grafiektype is. Ik kom er niet echt uit. Iemand een idee? Het hoeft niet per se in r te gebeuren.
Verschillende opties, of die matrix die door ralfie genoemd wordt. Of omzetten naar polaire coordinaten en dan er gewoon 45 bij optellen en terugzetten naar x y.


Ps. heb je een paar r functies in dm gestuurd.

[ Bericht 1% gewijzigd door Bosbeetle op 10-01-2018 09:32:48 ]
En mochten we vallen dan is het omhoog. - Krang (uit: Pantani)
My favourite music is the music I haven't yet heard - John Cage
Water: ijskoud de hardste - Gehenna
pi_176408725
Dank! Ik heb uiteindelijk voor een andere onelegante oplossing gekozen.
Aldus.
  Moderator donderdag 11 januari 2018 @ 12:15:03 #260
27682 crew  Bosbeetle
terminaal verdwaald
pi_176430102
quote:
14s.gif Op woensdag 10 januari 2018 12:05 schreef Z het volgende:
Dank! Ik heb uiteindelijk voor een andere onelegante oplossing gekozen.
Altijd goed :D

Voor de geintresseerden hier de twee methodes in R... wel oppassen dat dit rond 0,0 roteert en dat is niet altijd wenselijk


polaire coordinaten strategie

r <-sqrt(x^2+y^2)
phi <- atan2(x,y)
new_x <- r*sin(phi+angle)
new_y <- r*cos(phi+angle)

matrix strategie

conversionmatrix <- matrix(c(cos(angle),sin(angle),-sin(angle),cos(angle)), ncol=2, nrow=2)
xy <- cbind(x,y)%*%conversionmatrix
En mochten we vallen dan is het omhoog. - Krang (uit: Pantani)
My favourite music is the music I haven't yet heard - John Cage
Water: ijskoud de hardste - Gehenna
pi_176430735
Aldus.
pi_176450520
Wat ik niet helemaal snap is dat de gemiddelden (zo sterk) veranderen na vermenigvuldiging.

1
2
3
4
5
6
7
8
9
10
d <- as.data.frame(matrix(rnorm(16000, 3, .25), ncol=2))
angle <- 45

conversionmatrix <- matrix(c(cos(angle),sin(angle),-sin(angle),cos(angle)), ncol=2, nrow=2)
xy <- as.data.frame(cbind(d$V1,d$V2)%*%conversionmatrix)

mean(d$V1) #3
mean(d$V2) #3
mean(xy$V1) #4.129064
mean(xy$V2) #-0.9749411

Waarschijnlijk doe ik iets niet helemaal goed.
Aldus.
pi_177215544
ik snap echt werkelijk geen ene kut van SPSS
pi_177215757
Waarschijnlijk bedoel je dat je geen ene kut snapt van statistiek.
Aldus.
pi_177945950
Hoi! Ik heb speciaal een account aangemaakt omdat ik wanhopig op zoek ben naar hulp bij SPSS. Heeel erg bedankt als iemand me hierbij kan helpen.

Ik moet onderzoek doen naar herhaald slachtofferschap van criminaliteit. Ik wil kijken of personen die eerder slachtoffer zijn geworden van criminaliteit vaker slachtoffer worden dan anderen. Ik heb hierbij onder andere deze variabelen: (1) ooit slachtoffer geweest (2) aantal keer slachtoffer geweest. Bij de tweede variabele kunnen er 6 antwoorden zijn gegeven 0 = geen slachtoffer, 1 = 1 keer etc.

Kan iemand mij vertellen hoe ik er nu achter kan komen of eerdere slachtoffers significant vaker slachtoffer worden van criminaliteit dan personen die hier nog nooit slachtoffer van zijn geworden? Moet ik hiervoor de Independent Samples t-test of Chi Kwadraat toets gebruiken? Wat moet ik precies invullen?

Alvast heeeel erg bedankt voor jullie hulp!

[ Bericht 1% gewijzigd door Alaianaya op 20-03-2018 00:03:42 ]
pi_177949640
Independent Samples t-test lijkt me prima. Dan ga ik ervan uit dat de 'tweede variabele' een logisch schaaltje is en je er dus een gemiddelde van kan berekenen.
Aldus.
pi_177952412
quote:
2s.gif Op dinsdag 20 maart 2018 08:49 schreef Z het volgende:
Independent Samples t-test lijkt me prima. Dan ga ik ervan uit dat de 'tweede variabele' een logisch schaaltje is en je er dus een gemiddelde van kan berekenen.
Bedankt! Kun je me misschien nog vertellen hoe ik dit precies doe?

Het is echt jaren geleden voor mij, weet echt nog maar heel weinig.
pi_177952435
quote:
1s.gif Op dinsdag 20 maart 2018 11:08 schreef Alaianaya het volgende:

[..]

Bedankt! Kun je me misschien nog vertellen hoe ik dit precies doe?

Het is echt jaren geleden voor mij, weet echt nog maar heel weinig.
Zoek dat maar lekker zelf uit :P
Aldus.
pi_177953814
quote:
14s.gif Op dinsdag 20 maart 2018 11:10 schreef Z het volgende:

[..]

Zoek dat maar lekker zelf uit :P
Daar ben ik dus al 2,5 dag mee bezig, vandaar dat ik het hier vraag. Maar nogmaals, thanks voor je hulp.
pi_177954811
Google-en op 'Independent Samples t-test'? Eerste hit is en SPSS instructie/uitleg.
Aldus.
pi_177991847
quote:
1s.gif Op dinsdag 20 maart 2018 12:06 schreef Alaianaya het volgende:

[..]

Daar ben ik dus al 2,5 dag mee bezig, vandaar dat ik het hier vraag. Maar nogmaals, thanks voor je hulp.
En check 't boek van Andy Field, al dan niet gratis te vinden op de al dan niet bekende websites.
Wat overigens echt een eindbaas is (zie zijn twitter account)
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_177992663
Andy ftw.
Aldus.
  dinsdag 10 april 2018 @ 10:26:38 #273
333026 ZuidGrens
VI Hooligans
pi_178422143
Misschien een noobvraag, maar ik download zojuist een bestand in SPSS. Een deel van de vragen van de survey bevat meerkeuzevragen, A-B-C. In data view staat er onder deze vragen dus een 1, 2 of een 3. Dit klopt bij alle vragen, echter bij een van de vragen met drie antwoordmogelijkheden staat er bij iedere respondent 4, 5 of 6. Iemand een idee hoe dit komt en hoe dit op te lossen?
  Moderator dinsdag 10 april 2018 @ 10:58:08 #274
27682 crew  Bosbeetle
terminaal verdwaald
pi_178422642
quote:
2s.gif Op vrijdag 12 januari 2018 12:06 schreef Z het volgende:
Wat ik niet helemaal snap is dat de gemiddelden (zo sterk) veranderen na vermenigvuldiging.
[ code verwijderd ]

Waarschijnlijk doe ik iets niet helemaal goed.
hmm dat is wel een goede.... dit was een snel ingetypte die code die ik je toen gestuurd heb is beter getest. :P

denk trouwens dat je daar de angle in radialen moet invullen... maar dat verklaart de gemiddelden nog niet.

En ik denk dat die dotproduct niet goed gaat over twee kolommen....

ah gevonden wat ik al gezegd had :D

Even gekeken en het komt dus omdat je punten gecentreerd liggen op 3,3 en je roteert rond 0,0 je draait niet om het midden van de punten heen dus komen ze in een ander kwadrant te liggen en krijgen een heel ander gemiddelde.

1
2
3
4
5
6
7
8
9
10
11
12
13
d <- as.data.frame(matrix(rnorm(16000, 3, .25), ncol=2))
angle <- (45/180)*PI

conversionmatrix <- matrix(c(cos(angle),sin(angle),-sin(angle),cos(angle)), ncol=2, nrow=2)
xy <- as.data.frame(cbind(d$V1-3,d$V2-3)%*%conversionmatrix)

xy <- xy+3


mean(d$V1) #2.999956
mean(d$V2) #2.99881
mean(xy$V1) #2.998964
mean(xy$V2) #2.999412


[ Bericht 7% gewijzigd door Bosbeetle op 10-04-2018 11:07:31 ]
En mochten we vallen dan is het omhoog. - Krang (uit: Pantani)
My favourite music is the music I haven't yet heard - John Cage
Water: ijskoud de hardste - Gehenna
pi_178428131
quote:
2s.gif Op dinsdag 10 april 2018 10:58 schreef Bosbeetle het volgende:

[..]

hmm dat is wel een goede.... dit was een snel ingetypte die code die ik je toen gestuurd heb is beter getest. :P

denk trouwens dat je daar de angle in radialen moet invullen... maar dat verklaart de gemiddelden nog niet.

En ik denk dat die dotproduct niet goed gaat over twee kolommen....

ah gevonden wat ik al gezegd had :D

Even gekeken en het komt dus omdat je punten gecentreerd liggen op 3,3 en je roteert rond 0,0 je draait niet om het midden van de punten heen dus komen ze in een ander kwadrant te liggen en krijgen een heel ander gemiddelde.
[ code verwijderd ]

ik ben al weer vergeten hoe ik dit opgelost heb.
Aldus.
pi_178695893
Iemand hier ervaring met de PROCESS-methode van Hayes? Ik heb een specifieke vraag over model 4. Mijn mediator bestaat uit twee persoonlijkheidskenmerken. Ieder persoonlijkheidskenmerk wordt gemeten door middel van vier items met een five-point Likert Scale (helemaal oneens t/m helemaal eens). Dit zijn er dus acht in totaal. In SPSS is dus een variabele met deze acht items erin gemaakt. Maar ik heb ook losse variabelen met gemiddelden per persoonlijkheidsstijl gemaakt (om te vergelijken tussen mannen en vrouwen). Nu wil ik nog een analyse doen door middel van PROCESS. Welke variabele moet ik dan als mediator invoeren? De twee mean variables die samen de mediator vormen of de variabele die simpelweg uit de items bestaat?
pi_178696452
quote:
0s.gif Op maandag 23 april 2018 17:32 schreef RobertJV92 het volgende:
Iemand hier ervaring met de PROCESS-methode van Hayes? Ik heb een specifieke vraag over model 4. Mijn mediator bestaat uit twee persoonlijkheidskenmerken. Ieder persoonlijkheidskenmerk wordt gemeten door middel van vier items met een five-point Likert Scale (helemaal oneens t/m helemaal eens). Dit zijn er dus acht in totaal. In SPSS is dus een variabele met deze acht items erin gemaakt. Maar ik heb ook losse variabelen met gemiddelden per persoonlijkheidsstijl gemaakt (om te vergelijken tussen mannen en vrouwen). Nu wil ik nog een analyse doen door middel van PROCESS. Welke variabele moet ik dan als mediator invoeren? De twee mean variables die samen de mediator vormen of de variabele die simpelweg uit de items bestaat?
Je kan in dit model maar 1 mediator per keer testen dus ik zou je model twee keer laten draaien.
pi_178697345
quote:
1s.gif Op maandag 23 april 2018 17:58 schreef MCH het volgende:

[..]

Je kan in dit model maar 1 mediator per keer testen dus ik zou je model twee keer laten draaien.
Dus twee keer draaien met beide keren een mean variable? En kom ik dan niet in de problemen met het rapporteren van de resultaten, aangezien het om één mediator gaat?

Bedankt voor je antwoord in ieder geval!
pi_178697419
quote:
0s.gif Op maandag 23 april 2018 18:46 schreef RobertJV92 het volgende:

[..]

Dus twee keer draaien met beide keren een mean variable? En kom ik dan niet in de problemen met het rapporteren van de resultaten, aangezien het om één mediator gaat?

Bedankt voor je antwoord in ieder geval!
Je kan ook drie keer doen, 1x geheel, 1x man, 1x vrouw.
  donderdag 10 mei 2018 @ 17:25:34 #281
333026 ZuidGrens
VI Hooligans
pi_179066665
Hoe noem je een variable in SPSS die zowel goede als foute antwoorden bevat (bijvoorbeeld een kennisvraag)?
pi_179523423
Two random variables 𝑋 and 𝑌 have a distribution described by the following simultaneous
density:
𝑓(𝑥, 𝑦) = 24𝑥y if 𝑥 > 0 , 𝑦 > 0 and 𝑥 + 𝑦 < 1
= 0 elsewhere.
𝑎. Are 𝑋𝑋 and 𝑌𝑌 independent? Motivate your answer.

Is een manier om dit aan te tonen om de marginale dichtheden te berekenen van X en Y. Vervolgens deze marginale functies keer elkaar te doen f(x) * f(y), en dan te stellen dat dit ongelijk is aan 24xy

In het boek doen ze het namelijk met een plaatje op een adere manier.
Groet
pi_179848704
Vraag over de t-test in Excel. Ik doe een opleiding die nu toevallig een stukje gedrag heeft maar ik ben a-wiskundig als de pest en heb een docent die het zelf ook niet snapt.

Ik heb onderzoek gedaan naar stress bij katten. De vraag is of een muziek apparaat de stress vermindert ja of nee. Nu heb ik dus twee uitkomsten: een gemiddelde aan aantal stressgedragingen die de katten vertoonden zonder het apparaat en daarnaast het gemiddelde aantal stressgedragingen met apparaat.

Ik heb geen SPSS op m'n laptop en de docent heeft even snel uitgelegd hoe een t-test ook in Excel kan.

Maar hoe weet je nou of je 'twee gelijke steekproeven met gelijke variantie' of 'twee gelijke steekproeven met ongelijke variantie' moet kiezen?

Ik las ergens dat je een f-test moet doen, en die komt uit op 0,2~ oftewel P > 0,05, niet significant. Maar nu weet ik nog niet of ik gelijke of ongelijke variantie moet kiezen.
pi_179849670
quote:
0s.gif Op zondag 17 juni 2018 15:17 schreef iSnow het volgende:
Vraag over de t-test in Excel. Ik doe een opleiding die nu toevallig een stukje gedrag heeft maar ik ben a-wiskundig als de pest en heb een docent die het zelf ook niet snapt.

Ik heb onderzoek gedaan naar stress bij katten. De vraag is of een muziek apparaat de stress vermindert ja of nee. Nu heb ik dus twee uitkomsten: een gemiddelde aan aantal stressgedragingen die de katten vertoonden zonder het apparaat en daarnaast het gemiddelde aantal stressgedragingen met apparaat.

Ik heb geen SPSS op m'n laptop en de docent heeft even snel uitgelegd hoe een t-test ook in Excel kan.

Maar hoe weet je nou of je 'twee gelijke steekproeven met gelijke variantie' of 'twee gelijke steekproeven met ongelijke variantie' moet kiezen?

Ik las ergens dat je een f-test moet doen, en die komt uit op 0,2~ oftewel P > 0,05, niet significant. Maar nu weet ik nog niet of ik gelijke of ongelijke variantie moet kiezen.
In de volgende video wordt het eenvoudig uitgelegd wanneer welke t-test te gebruiken:
Het komt er op neer dat je variance van beide groepen door elkaar moet delen, en als dat uitkomt op 1 dan moet je voor de equal gaan, en als die waarde significant afwijkt van 1, dan moet je voor de unequal gaan.

Ik kan het op basis van de gegeven informatie niet met zekerheid zeggen, maar ik vermoed dat je voor de unequal moet gaan. (Het kan nooit geen kwaad om in zulk soort gevallen te bekijken of deze keuze ook resulteert in een significant andere uitkomst).

Dan even een beetje ongevraagd advies; ik ken veel mensen die beweerden niet wiskundig te zijn, en die kwamen zich zelf keer op keer tegen wanneer ze ook maar iets van kwantitatief onderzoek deden of probeerden te lezen. Met een beetje doorzettingsvermogen kan je jezelf veel van de meest gebruikte statistische tools eigen maken en dat is zeker als je in de toekomst voor studie of werk meer te maken krijgt met zulk soort vraagstukken onmisbaar. Dan is het zeker ook de moeite waard om wat tijd te investeren in het leren van R of Python (SPSS kan ik persoonlijk alleen maar afraden).

[ Bericht 5% gewijzigd door Mynheer007 op 17-06-2018 16:19:00 ]
pi_179850160
quote:
0s.gif Op zondag 17 juni 2018 16:06 schreef Mynheer007 het volgende:

[..]

In de volgende video wordt het eenvoudig uitgelegd wanneer welke t-test te gebruiken:
Het komt er op neer dat je variance van beide groepen door elkaar moet delen, en als dat uitkomt op 1 dan moet je voor de equal gaan, en als die waarde significant afwijkt van 1, dan moet je voor de unequal gaan.

Ik kan het op basis van de gegeven informatie niet met zekerheid zeggen, maar ik vermoed dat je voor de unequal moet gaan. (Het kan nooit geen kwaad om in zulk soort gevallen te bekijken of deze keuze ook resulteert in een significant andere uitkomst).

Dan even een beetje ongevraagd advies; ik ken veel mensen die beweerden niet wiskundig te zijn, en die kwamen zich zelf keer op keer tegen wanneer ze ook maar iets van kwantitatief onderzoek deden of probeerden te lezen. Met een beetje doorzettingsvermogen kan je jezelf veel van de meest gebruikte statistische tools eigen maken en dat is zeker als je in de toekomst voor studie of werk meer te maken krijgt met zulk soort vraagstukken onmisbaar. Dan is het zeker ook de moeite waard om wat tijd te investeren in het leren van R of Python (SPSS kan ik persoonlijk alleen maar afraden).
Super, bedankt! Ik snapte niet helemaal dat het te maken het dat het op 1 kan uitkomen of kan afwijken van 1. De getallen liggen heel erg bij elkaar of ik nou equal of unequal kies, maar je keuze moet natuurlijk worden onderbouwd. Ik kan er in ieder geval weer mee verder.

En ik begrijp je advies, wiskunde is gewoon persoonlijk een heikel punt. M'n studie besteed er ook maar 1 vak aan in 4 jaar tijd, met een ingehuurde docent die de lesstof niet beheerst. Ik sta er zeker vor open om er wat over te leren, maar dat gaat me deze opleiding niet meer lukken denk ik.
pi_179850539
quote:
0s.gif Op zondag 17 juni 2018 16:33 schreef iSnow het volgende:

[..]

Super, bedankt! Ik snapte niet helemaal dat het te maken het dat het op 1 kan uitkomen of kan afwijken van 1. De getallen liggen heel erg bij elkaar of ik nou equal of unequal kies, maar je keuze moet natuurlijk worden onderbouwd. Ik kan er in ieder geval weer mee verder.

En ik begrijp je advies, wiskunde is gewoon persoonlijk een heikel punt. M'n studie besteed er ook maar 1 vak aan in 4 jaar tijd, met een ingehuurde docent die de lesstof niet beheerst. Ik sta er zeker vor open om er wat over te leren, maar dat gaat me deze opleiding niet meer lukken denk ik.
Als je twee gelijke getallen door elkaar deelt, krijg je 1 als uitkomst. Daarom wordt 1 als waarde in dit geval gebruikt.

Ik denk dat elke opleiding op wel een aantal punten te kort schiet, en daarom denk ik dat je ook moet kijken of je buiten je opleiding nog nieuwe zaken kunt leren. Op sites als udemy of coursera worden uitgebreide cursussen voor veel verschillende vakgebieden aangeboden waarmee je vaak met bijna nul voorkennis je nieuwe vaardigheden kunt ontwikkelen.
pi_180158528
Hello! kan iemand mij misschien helpen? Het is een hele simpele vraag, maar ik kom er echt niet uit...

Ik heb een moderatie, en twee hypothesen.

Hypothese 1 is X --> Y effect
en Hypothese 2 is X + MOD --> Y

Nu zegt de docent dat ik meervoudige regressieanalyse moet doen in de volgende stappen:
1. controlevariabelen
2. hoofdeffecten (X en MOD)
3. multiplicatieve interactieterm (X * MOD)

maar in deze analyse kan ik toch helemaal niet hypothese 1 beantwoorden? Want dat moet toch gewoon met enkelvoudige regressieanalyse?
Weet iemand dit? Ik ben je eeuwig dankbaar.
pi_180351825
quote:
0s.gif Op zondag 1 juli 2018 10:44 schreef Myheart het volgende:
Hello! kan iemand mij misschien helpen? Het is een hele simpele vraag, maar ik kom er echt niet uit...

Ik heb een moderatie, en twee hypothesen.

Hypothese 1 is X --> Y effect
en Hypothese 2 is X + MOD --> Y

Nu zegt de docent dat ik meervoudige regressieanalyse moet doen in de volgende stappen:
1. controlevariabelen
2. hoofdeffecten (X en MOD)
3. multiplicatieve interactieterm (X * MOD)

maar in deze analyse kan ik toch helemaal niet hypothese 1 beantwoorden? Want dat moet toch gewoon met enkelvoudige regressieanalyse?
Weet iemand dit? Ik ben je eeuwig dankbaar.
Je gooit alles in één (meervoudige) regressieanalyse, en daarmee toets je dan beide hypothesen. Dan controleer je dus voor MOD en de interactieterm (dat wil zeggen dat wanneer die variabelen constant blijven, er een effect zou kunnen zijn).
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_180352198
quote:
0s.gif Op maandag 9 juli 2018 12:09 schreef crossover het volgende:

[..]

Je gooit alles in één (meervoudige) regressieanalyse, en daarmee toets je dan beide hypothesen. Dan controleer je dus voor MOD en de interactieterm (dat wil zeggen dat wanneer die variabelen constant blijven, er een effect zou kunnen zijn).
Beetje verwarrend om je hoofdeffect Mod te noemen ;)
pi_181026832
Is het mogelijk om alleen met percentages te kijken of een verschil significant is?

Ik ben momenteel bezig met mijn afstudeeronderzoek over het hoge retouraantal van jeans.
Nu heb ik de volgende gegevens voor de modellen;
bootcut jeans 64,20%
boyfriend jeans 71,66%
flared jeans 68,73
regular jeans 70,84%
slim fit jeans 66,74%
skinny fit jeans 68,89%
straight jeans 67,15%

Ze streven naar een retourpercentage van 65%(dit geld voor alle modellen), dus ik dacht dat ik het ten opzichte van die 65% zou kunnen bekijken maar het is me nog niet gelukt..

Ik heb zelf nog nooit iets met spss gedaan dus ik kom er totaal niet uit. De een zegt dat ik meer waardes moet hebben en de ander zegt dat het wel mogelijk moet zijn maar weet niet hoe..

alvast bedankt!
pi_181058979
quote:
0s.gif Op woensdag 8 augustus 2018 10:57 schreef liesjestudent het volgende:
Is het mogelijk om alleen met percentages te kijken of een verschil significant is?

Ik ben momenteel bezig met mijn afstudeeronderzoek over het hoge retouraantal van jeans.
Nu heb ik de volgende gegevens voor de modellen;
bootcut jeans 64,20%
boyfriend jeans 71,66%
flared jeans 68,73
regular jeans 70,84%
slim fit jeans 66,74%
skinny fit jeans 68,89%
straight jeans 67,15%

Ze streven naar een retourpercentage van 65%(dit geld voor alle modellen), dus ik dacht dat ik het ten opzichte van die 65% zou kunnen bekijken maar het is me nog niet gelukt..

Ik heb zelf nog nooit iets met spss gedaan dus ik kom er totaal niet uit. De een zegt dat ik meer waardes moet hebben en de ander zegt dat het wel mogelijk moet zijn maar weet niet hoe..

alvast bedankt!
Ik denk dat dit niet kan. Je zou wel een t-toets kunnen doen waarbij je naar een distributie kijkt van een score en dat toetst tegen een vaste waarde (one sample t-test), maar in dit geval is geen sprake van een distributie van scores over een range. Het is namelijk een percentage en dat is een vaste waarde.
Bovendien, het is op het eerste aanzicht goed te zien welke broek het meeste afwijkt dus waarom moeilijk doen als het makkelijk kan.
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_182151848
Het is hier vast al eens voorbij gekomen maar ik kon het zo snel niet vinden. Voor mijn afstudeerscriptie heb ik een enquête afgenomen over het gebruik van (kennis)netwerken bij bedrijven. Een van de vragen betreft het nut van samenwerken met lokale, regionale, nationale, Duitse en overige buitenlandse partners (5-likert scale). Nu wil ik Duitse en Overige buitenlandse partners samenvoegen tot 1 variabel zodat ik 'Internationale' partners als geheel kan meten. Hoe kan ik dit het beste doen? Kan ik 'gewoon' de mean van beide variabelen gebruiken om een nieuw variabel te maken?

Hetzelfde geldt voor een andere vraag in mijn enquête waar ik 4 variabelen wil samenvoegen die hetzelfde 'gevoel' meten (7-likert scale). Het liefst wil ik ze ordinal houden en niet dichotoom (middels bijv. median split).
pi_182249889
quote:
0s.gif Op woensdag 26 september 2018 20:51 schreef buishuis het volgende:
Het is hier vast al eens voorbij gekomen maar ik kon het zo snel niet vinden. Voor mijn afstudeerscriptie heb ik een enquête afgenomen over het gebruik van (kennis)netwerken bij bedrijven. Een van de vragen betreft het nut van samenwerken met lokale, regionale, nationale, Duitse en overige buitenlandse partners (5-likert scale). Nu wil ik Duitse en Overige buitenlandse partners samenvoegen tot 1 variabel zodat ik 'Internationale' partners als geheel kan meten. Hoe kan ik dit het beste doen? Kan ik 'gewoon' de mean van beide variabelen gebruiken om een nieuw variabel te maken?

Hetzelfde geldt voor een andere vraag in mijn enquête waar ik 4 variabelen wil samenvoegen die hetzelfde 'gevoel' meten (7-likert scale). Het liefst wil ik ze ordinal houden en niet dichotoom (middels bijv. median split).
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_186063439
SPOILER
Om spoilers te kunnen lezen moet je zijn ingelogd. Je moet je daarvoor eerst gratis Registreren. Ook kun je spoilers niet lezen als je een ban hebt.
Welke van deze 2 is homogeen en welke is heterogeen? Hoe kun je dat zien/uitleggen?
Ik weet wel dat de onderste significant is en de bovenste niet, maar ik weet niet hoe ik het moet interpreteren.

Ik zou gokken dat de bovenste homogeen (gelijke varianties) is.
pi_186417749
quote:
0s.gif Op zaterdag 6 april 2019 09:26 schreef -Wereld- het volgende:
SPOILER
Om spoilers te kunnen lezen moet je zijn ingelogd. Je moet je daarvoor eerst gratis Registreren. Ook kun je spoilers niet lezen als je een ban hebt.
Welke van deze 2 is homogeen en welke is heterogeen? Hoe kun je dat zien/uitleggen?
Ik weet wel dat de onderste significant is en de bovenste niet, maar ik weet niet hoe ik het moet interpreteren.

Ik zou gokken dat de bovenste homogeen (gelijke varianties) is.
The first section of the Independent Samples Test output box gives you the results
of Levene’s test for equality of variances. This tests whether the variance (variation)
of scores for the two groups (males and females) is the same. The outcome of
this test determines which of the t-values that SPSS provides is the correct one
for you to use.
• If your Sig. value is larger than .05 (e.g. .07, .10), you should use the first
line in the table, which refers to Equal variances assumed.
• If the significance level of Levene’s test is p=.05 or less (e.g. .01, .001), this
means that the variances for the two groups (males/females) are not the same.
Therefore your data violate the assumption of equal variance. Don’t panic—
SPSS is very kind and provides you with an alternative t-value which
compensates for the fact that your variances are not the same. You should
use the information in the second line of the t-test table, which refers to Equal
variances not assumed.


uit Pallant.
'Expand my brain, learning juice!'
&lt;a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank"&gt;Last.fm&lt;/a&gt;
pi_186421965
quote:
0s.gif Op donderdag 25 april 2019 14:56 schreef crossover het volgende:

[..]

The first section of the Independent Samples Test output box gives you the results
of Levene’s test for equality of variances. This tests whether the variance (variation)
of scores for the two groups (males and females) is the same. The outcome of
this test determines which of the t-values that SPSS provides is the correct one
for you to use.
• If your Sig. value is larger than .05 (e.g. .07, .10), you should use the first
line in the table, which refers to Equal variances assumed.
• If the significance level of Levene’s test is p=.05 or less (e.g. .01, .001), this
means that the variances for the two groups (males/females) are not the same.
Therefore your data violate the assumption of equal variance. Don’t panic—
SPSS is very kind and provides you with an alternative t-value which
compensates for the fact that your variances are not the same. You should
use the information in the second line of the t-test table, which refers to Equal
variances not assumed.


uit Pallant.
Thnx
pi_186433019
Hallo,

Ik ben momenteel bezig met een analyse in SPSS.

Even kort geschetst:

- ik wil 2 verschillende generaties met elkaar vergelijken in bijvoorbeeld communicatie (schaalvariabele), familiewaarden (schaalvariabele) enz.

Hiervoor gebruik ik de independent sample t-test en het uitvoeren van deze test is ook geen probleem.

Graag zou ik ook een test kunnen uitvoeren waar ik beide generaties met elkaar vergelijk, maar waar nog eens een verschil in bedrijfsgroottes (klein, middelgroot & groot) gemaakt wordt.

Is dit mogelijk? Indien ja, hoe pak ik dit het best aan?

Alvast bedankt!
pi_186781686
Dringend hulp gezocht!

Ik heb een probleem in SPSS 24. Nadat ik al maanden hetzelfde datafile gebruik en iedere dag open, kreeg ik gister opeens de volgende foutmelding:

The document is already in use by another user or process. If you make changes to the document they may overwrite changes made by others or your changes may be overwritten by others

Kan iemand mij in Jip en Janneke taal uitleggen hoe ik dit op moet lossen?

pi_186790043
quote:
4s.gif Op zondag 12 mei 2019 11:50 schreef nikkistork het volgende:
Dringend hulp gezocht!

Ik heb een probleem in SPSS 24. Nadat ik al maanden hetzelfde datafile gebruik en iedere dag open, kreeg ik gister opeens de volgende foutmelding:

The document is already in use by another user or process. If you make changes to the document they may overwrite changes made by others or your changes may be overwritten by others

Kan iemand mij in Jip en Janneke taal uitleggen hoe ik dit op moet lossen?

[ afbeelding ]
Kan je het bestand wel geopend krijgen? Als dat het geval is, dan kan je gewoon een kopie maken en daarmee verder gaan.Sowieso is het zaak om altijd te back-uppen op diverse locaties (zowel fysiek als in de cloud).
pi_187102245
Hoi, momenteel ben ik bezig met mijn scriptie en probeer ik een regressiemodel op te stellen met meervoudige lineaire regressie. Stel dat ik er voor kies om de variabelen die niet significant zijn, alsnog mee te nemen in mijn regressiemodel. Dit omdat de praktische essentie van bepaalde variabelen zwaarder wegen dan de theoretische significantie. (In de praktijk zijn deze variabelen dusdanig belangrijk dat ze meegenomen moeten worden). Ik heb begrepen dat de coëfficiënten van het model dan niet meer te interpreteren zijn. Maar geldt dit voor alle coëfficiënten, of alleen de coëfficiënten van de variabelen die niet significant zijn? Ook als er sprake is van multicollineariteit, dit betekent dat de geschatte coëfficiënten minder betrouwbaar zijn, maar geldt dit voor alle coëfficiënten of alleen de coëfficiënten van de variabelen die multicollineariteit veroorzaken? En hoe zit het met de determinatiecoëfficiënt, kan ik deze nog steeds gebruiken om te kijken hoe goed het model is? Of wordt deze ook beïnvloed door de insignificante variabelen? Ik hoop dat iemand mij nog even kan helpen met de laatste loodjes van mijn scriptie.
Alvast bedankt!
pi_187102449
quote:
0s.gif Op zondag 26 mei 2019 18:08 schreef ronaldoo12 het volgende:
Hoi, momenteel ben ik bezig met mijn scriptie en probeer ik een regressiemodel op te stellen met meervoudige lineaire regressie. Stel dat ik er voor kies om de variabelen die niet significant zijn, alsnog mee te nemen in mijn regressiemodel. Dit omdat de praktische essentie van bepaalde variabelen zwaarder wegen dan de theoretische significantie. (In de praktijk zijn deze variabelen dusdanig belangrijk dat ze meegenomen moeten worden). Ik heb begrepen dat de coëfficiënten van het model dan niet meer te interpreteren zijn. Maar geldt dit voor alle coëfficiënten, of alleen de coëfficiënten van de variabelen die niet significant zijn? Ook als er sprake is van multicollineariteit, dit betekent dat de geschatte coëfficiënten minder betrouwbaar zijn, maar geldt dit voor alle coëfficiënten of alleen de coëfficiënten van de variabelen die multicollineariteit veroorzaken? En hoe zit het met de determinatiecoëfficiënt, kan ik deze nog steeds gebruiken om te kijken hoe goed het model is? Of wordt deze ook beïnvloed door de insignificante variabelen? Ik hoop dat iemand mij nog even kan helpen met de laatste loodjes van mijn scriptie.
Alvast bedankt!
Heb je nooit statistiek gehad?
abonnement Unibet Coolblue
Forum Opties
Forumhop:
Hop naar:
(afkorting, bv 'KLB')