Aha! Ik snap hetquote:Op maandag 9 juli 2012 23:44 schreef oompaloompa het volgende:
Probleem ontdekt en omdat andere mensen hier misschien ook tegenaan kunnen lopen post ik het hier maar.
Als je een multivariate / manova doet, vallen in principe cases met 1 of meer missing values gewoon af. Omdat je dataset zo veel missings heeft, houdt je uiteindelijk minder dan de helft over. Wat nog cru-er is, is dat van 1 conditie je helemaal niemand meer overhoudt. Daarom kun je geen contrasten meer doen.
Nu zijn er 2 opties:
1 je imputeert de missings.
2 je doet allemaal losse univariates
Met allemaal losse toetsen vergroot je de kans op een type 1 fout. En ik zou het inderdaad wel vermelden.quote:Op maandag 9 juli 2012 23:47 schreef automatic_ het volgende:
[..]
Aha! Ik snap het
En die losse univariates had ik al gedaan. Nog één vraagje erover. Maakt dat dan veel uit dat ik nu univariates doe? En moet / kan ik dat dan gewoon verantwoorden in mijn discussie of hoeft dat allemaal niet?
Oh God, dat hebben we ook nog jaquote:Op maandag 9 juli 2012 23:51 schreef Sandertje23 het volgende:
[..]
Met allemaal losse toetsen vergroot je de kans op een type 1 fout. En ik zou het inderdaad wel vermelden.
Ah ok, fijn dat je je tabel toegevoegd hebt.quote:Op maandag 9 juli 2012 23:44 schreef VacaLoca het volgende:
[..]
Thanks, stukje 'meand +/- 1.96*sd omvat 0' is helaas nog even onbekende taal voor mij. Ik heb met studie geen statistiek gehad, en probeer nu zelf snel te leren zo goed en zo kwaad als het kan. Heb even uitdraai gemaakt.
[ afbeelding ]
Nu had ik daarover al wel gelezen in SPSS Survival Guide:
While there are tests that you can use to evaluate skewness and kurtosis values, these are too sensitive with large samples. Tabachnick and Fidell (2007, p. 81) recommend inspecting the shape of the distribution (e.g. using a histogram).
Nu zien zij 200+ als een large sample las ik elders in het boek... terwijl ik n=126 heb
Verderop in het boek adviseren ze iig een Normal Q-Q plot als alternatief.
[..]
Maar wanneer zouden mensen ervaren met statistiek het nog 'reasonable' noemen is dan mijn vraag betreffende bv de Q-Q plot die ik liet zien.
Iemand anders een goede website voor basis tot gemiddeld niveau analyses voor surveys? Werken met likert schalen, multiple choise etc. Ik heb alle data-invoer goed zover ik weet, maar niet overzichtelijk wélke analyses het meest relevant zijn voor een dergelijke enquete. Heb helaas zeer beperkt de tijd me goed in te lezen.
Ja gewoon in je discussie zeggen; vanwege missing values niet mogelijk multivariate te doen dus daarom 4 univariates. Zolang je eerlijk rapporteert is er geen probleem. Als je hypothese per los construct had is er ook geen type-1 probleem, als je alleen overall effect voorspeld had en op ene wel vindt en op andere niet, heb je wel een probleem qua zowel type 1 als type 2 :pquote:Op maandag 9 juli 2012 23:47 schreef automatic_ het volgende:
[..]
Aha! Ik snap het
En die losse univariates had ik al gedaan. Nog één vraagje erover. Maakt dat dan veel uit dat ik nu univariates doe? En moet / kan ik dat dan gewoon verantwoorden in mijn discussie of hoeft dat allemaal niet?
Thank you very muchquote:Op maandag 9 juli 2012 23:53 schreef oompaloompa het volgende:
[..]
Ah ok, fijn dat je je tabel toegevoegd hebt.
Met skewness en kurtosis kun je een beetje fdoen zoals je ook normale andere toetsen doet.
Als ik kijk naar je skewness (even verzonnen, pas zo de nummers aan) dan zie je dat het gemiddelde .500 is (of zo). Dat betekent dat je gemiddelde .5 afligt van de 0 waar het zou moeten zijn als je geen skewness hebt ("scheve normaalverdeling"). Is dat significant anders? Darvoor gebruik je de standaardverdeling van de skewness (laten we zeggen dat die .2 is even) en die doe je keer 1.96. Nu heb je de 95% confidence interval van je 0.5 mean. Als je die erbij optelt & aftrekt heb je dus een confidence interval van 0.1 -- 0.9. Het gemiddelde waar je op hoopt, 0.0, ligt daar niet tussen. Dit betekent dat je significante skewness hebt en je data dus niet normaal verdeeld is.
Hiervoor zijn een aantal oplossingen.
1. negeren en gewoon doorgaan. Je resultaten zijn minder betrouwbaar, maar als je resultaten heel erg sterk zijn maakt dat niet heel erg veel uit.
2. Je data hercoderen waardoor ze normaal verdeeld raken. Bijvoorbeeld door een log0transformatie of er de wortel van te nemen.
3. Een nonparametrische toets er op toepassen. Deze zijn wat conservatiever maar hebben, bij data die in de buurt van een normaalverdeling liggen minder power.
Als handige guide kan ik Pallant aanraden.
[..]
Ja gewoon in je discussie zeggen; vanwege missing values niet mogelijk multivariate te doen dus daarom 4 univariates. Zolang je eerlijk rapporteert is er geen probleem. Als je hypothese per los construct had is er ook geen type-1 probleem, als je alleen overall effect voorspeld had en op ene wel vindt en op andere niet, heb je wel een probleem qua zowel type 1 als type 2 :p
Yeap, als je helemaal een goede indruk wilt maken, interpreteer je nog even op welke wijze dat minder nauwkeurig is. Kan ik je wel mee helpen. In principe komt het er op neer dat je de spreiding aan de ene kant overschat en aan de andere kant onderschat. Afhankelijk van de vergelijking is je toets dus óf te strikt (= goed voor je, zelfs met een te strenge test nog verschil) of een tikkie te zwak (dan moet je uitleggen dat je significantiewaarde waarschijnlijk iets hoger is dan wat spss rapporteert)quote:Op dinsdag 10 juli 2012 00:04 schreef VacaLoca het volgende:
[..]
Thank you very muchHet is voor HBO, dus ze zijn wat makkelijker impressed denk ik; dus met dat in achterhoofd zou ik denk ik goed voor optie 1 kunnen gaan en kort uitleggen dat de betrouwbaarheid iets lager ligt omdat de normality niet helemaal voldoet aan de eisen, toch?
Nog één vraag voor ik weer zelf de boeken in zal duiken: wat doen jullie met enquetes met antwoorden ahv een likert schaal. Behandelen jullie het als numerieke data (1 t/m 5) met Scale dus als measurement type, en daar de passende analyses op loslaten. Of als categorische data met Ordinal als measurement type?
(bonusvraag: als je 5-schalige likert hebt maar tevens een 'geen mening/niet van toepassing' optie, kan je het dan nog wel als ordinal behandelen? Want de optie geen mening/nvt ligt dan niet in lijn met de likert data.
Graciasquote:Op dinsdag 10 juli 2012 00:29 schreef oompaloompa het volgende:
Ik zou het gewoon als scale doen, doet iedereen. dan voor bonuspunten nog even slim doen en zeggen "is officieel ordinaal, maar (bron) heeft aangetoond dat ook dan scale toegepast kan worden.
bron kan b.v.http://xa.yimg.com/kq/gro(...)9%25E2%2580%2599.pdf zijn. (dubbelcheck het even, heb alleen net ter plekke abstract bekeken)
Je mag alles doen wat je wilt met getransformeerde variabelen zolang je maar vervolgens bij de interpratie rekening houdt met je transformatie.quote:Op dinsdag 10 juli 2012 01:16 schreef Brembo het volgende:
Even een vraag over transformaties, ik heb een logtransformatie gedaan voor de afhankelijke variabele. Voor toetsen mag dit allemaal zonder problemen, tegen niet getransformeerde variabelen? Maar geldt dit ook voor een ANOVA?
huh? Er van uitgaande dat jij je begeleider goed hebt begrepen heb jij gelijkquote:Op dinsdag 10 juli 2012 14:01 schreef Omnifacer het volgende:
Pfff
Als je een single paired comparison ANOVA moet doen, dan kan dat toch gewoon via general linear model --> univariate en dan optie 'single' bij contrasts? Ik heb data uit 3 surveys die ik moet vergelijken, vandaar. Ik heb alle data in 1 groot bestand, met een nieuwe variabele die bij elke respondent aangeeft uit welke survey hij komt.
Volgens mijn begeleider moet ik met allemaal formules en hercoderingen gaan zitten werken
Heh? Dat klopt gewoon echt niet.quote:Op dinsdag 10 juli 2012 14:20 schreef Omnifacer het volgende:
Thanks voor je antwoord. Dit is de situatie: ik heb drie surveys afgenomen, en wil deze vergelijken op een bepaalde variabele, bijvoorbeeld 'competence'. Wat ik had gedaan: een variabele gemaakt waarin elke respondent getagd wordt uit welke survey hij afkomstig is. Daarmee had ik ANOVA's gemaakt, door gewoon univariate ANOVA te doen. Daar kwam dan een significantie van .182 uit.
Gister zei de begeleider echter: je kunt die drie groepen niet zomaar met elkaar vergelijken vanwege verschil in grootte, je moet een paired comparison ANOVA doen. Nu heb ik me scheel zitten lezen in zo'n kutboek en allemaal zitten kutten met SPSS, maar ik kom niet verder. Dat boek komt met allemaal formules aanzetten (geen idee waar je die zou moeten invoeren), en volgens de tutorials op YouTube kun je gewoon dus doen wat ik omschreef: contrasts --> single selecteren.
Jij ziet er uit als iemand die er meer van weet dan ik: hoe zie jij dat?Als ik het op die laatste manier doe, wordt er dan rekening gehouden met verschil in aantal respondenten?
Je begeleider heeft gelijk m.b.t. je eerste toetsquote:Op dinsdag 10 juli 2012 14:41 schreef Omnifacer het volgende:
Begeleider is een AIO.
In mijn geval heb ik hypothesen die over verschil tussen survey1 en survey 2+3 gaan, en hypothesen die tussen verschil tussen survey 1, 2 en 3 gaan.
Survey 1: n=36
Survey 2: n=40
Survey 3: n=28.
Volgens mijn begeleider kan ik deze dus niet zomaar met elkaar vergelijken omdat n teveel verschilt.
Ik had bij alle hypothesen een ANOVA gedaan en nergens kwam trouwens verschil uit.
Ik snap er zelf dus helemaal geen kut van. Godver wat een gezeik
Tsjah, het slaat ook nergens op. Al die tijd die in die zinloze analyses gaat zitten, terwijl in beginsel al niks significant isquote:Op dinsdag 10 juli 2012 14:47 schreef oompaloompa het volgende:
[..]
Je begeleider heeft gelijk m.b.t. je eerste toets
daarvoor moet je groep 1 op -1 zetten
groep 2 op 40/68 en groep 3 op 28/68
Omdat groep 2 en 3 een andere grootte hebben moet je ze anders wegen. Overigens is het een beetje zinloos planned contrasts te doen als je geen plan had en de anova sowieso al niet sig is, maar dat terzijde.
Was je hier al uitgekomen of heb je nog steeds hulp nodig?quote:Op dinsdag 10 juli 2012 18:16 schreef Omnifacer het volgende:
Mensen, ben ik weer. Ik ben er bijna helemaal uit, ik moet alleen nog een repeated measure ANOVA doen voor twee variabelen. Laat ik ze even var1 en var2 noemen. Ik wil de score van de respondenten uit survey 1 op deze variabelen vergelijken met de score van de respondenten op survey2+3 samen. Var1 en var2 zijn within-subject variabelen, en survey1 en survey2+3 zijn natuurlijk between-variabelen, dus moet ik van mijn begeleider een repeated measure doen. Zoals ik hier al zei: ik heb een grote dataset met alle respondenten erin, en zelf een soort variabele aangemaakt die aangeeft uit welke survey mensen afkomstig zijn.
De hypothese is dat het verschil tussen survey 1 en 2/3 voor var1 groter is dan voor var2.
Hoe moet ik dit nu doen? Als ik snel een repeated measure ANOVA doe dan komen er allemaal dingen uit waarvan ik niet echt snap wat ze betekenen. Ik kan ook geen onderscheid zien tussen survey 1 en 2/3. Is er iemand die me kan helpen?
Nice, hoop dat het allemaal goedgekeurd wordtquote:Op woensdag 11 juli 2012 22:47 schreef Omnifacer het volgende:
Ik denk dat ik eruit ben, ik zal morgen even laten weten wat de begeleider ervan zei... Misschien moet ik het wel opnieuw doen (weet niet zeker of ik het goed heb gedaan), als dat zo is dan geef ik weer even een sein.
Bedankt!
Interpretatie; verschillen op dv worden verklaard door jaar-verschillen.quote:Op donderdag 12 juli 2012 09:45 schreef VreemdeEend het volgende:
Ik heb ook even een vraag over een onderzoek van mij. Ik heb van mijn afhankelijke variabele data verzameld over 10 jaar verspreid. Vervolgens een een regressieanalyse met 7 onafhankelijke variabelen. Uitkomsten hiervan waren prachtig ook al omdat ik wist dat die zaken een sterk effect zouden hebben op mijn afhankelijke variabele. Nu wilt mijn begeleider alleen dat ik ook jaar-dummies gebruik. Als ik dit echter doe is het effect van een jaar enorm op mijn afhankelijke variabele en de effecten van al mijn eerste onafhankelijke variabelen zijn nu nihil.
Hoe moet ik dit precies interpreteren en is het gewoon invoegen van year-dummies de beste manier om te controleren op jaarinvloeden op data?
Ik probeer het aantal fusie's en overnames in Europa over 11 jaar gezien (per maand bekeken) te verklaren door 7 economische indicatoren. Ik heb dus voor 132 maanden het aantal fusies en overnames en daarbij dan die waarden van de indicatoren voor de betreffende periode. Ik begrijp dat 17 IV's echt heel veel is, maar mijn begeleider blijft maar doorzeuren over het controleren op jaarinvloeden. Is er dan nog een andere manier waarop ik iets kan doen met de invloed van het jaar zelf zonder dummies te gebruiken?quote:Op donderdag 12 juli 2012 09:53 schreef oompaloompa het volgende:
[..]
Interpretatie; verschillen op dv worden verklaard door jaar-verschillen.
Dummies is waarschijnlijk niet het beste, het geeft je erg veel degrees of freedom. Is er een reden warom je jaar niet als continue kunt zien? En heb je niet per proefpersoon een meting per jaar?
Overigens is 17 IV's echt enorm veel, hoe groot is je dataset?
Dit is echt totaal niet wat ik normaal doe, dus ik kan het moeilijk beantwoorden. Aangenomen dat jaar geen linear verband heeft kun je het niet als losse variabele meenemen, maar dummies lijkt me ook echt een waardeloze oplossing, moet ik even over nadenken. (ik doe voornamelijk experimenteel onderzoek dus ben minder thuis in correlationeel onderzoek en modelleren, alhoewel ik wel wat relevante statistiek vakken er over heb gehad, maar dat is ondertussen een beetje weggezaktquote:Op donderdag 12 juli 2012 10:13 schreef VreemdeEend het volgende:
[..]
Ik probeer het aantal fusie's en overnames in Europa over 11 jaar gezien (per maand bekeken) te verklaren door 7 economische indicatoren. Ik heb dus voor 132 maanden het aantal fusies en overnames en daarbij dan die waarden van de indicatoren voor de betreffende periode. Ik begrijp dat 17 IV's echt heel veel is, maar mijn begeleider blijft maar doorzeuren over het controleren op jaarinvloeden. Is er dan nog een andere manier waarop ik iets kan doen met de invloed van het jaar zelf zonder dummies te gebruiken?
Select cases klikken en dan select cases if... Daar kun je aangeven dat alleen cases meedoen die in een bepaald land zijn geweest. Ook kun je met het AND commando alleen de cases selecteren die in beide landen zijn geweest. Bijvoorbeeld: if Spanje = 1 AND Italië = 1. Ik ga er even vanuit dat zo je variabelen heten en dat 1 staat voor "er op vakantie geweest". Dan selecteer je dus alleen cases die in beide landen zijn geweest.quote:Op zaterdag 14 juli 2012 21:05 schreef VacaLoca het volgende:
Lijkt niet uit te maken, wat betreft die missing values...
Nog een vraag over MPR:
Als je bijvoorbeeld de vraag hebt 'In welk(e) land(en) bent u op vakantie geweest in 2011?' en men kan meerdere antwoorden aanvinken.
En frequentietabel van de MPR geeft bijvoorbeeld aan dat 60% van de cases in Spanje is geweest en 40% van de cases in Italië....
.. is het dan vervolgens ook mogelijk om te kijken hoeveel cases er zowel in Spanje als Italië zijn geweest in 2011?
En zoja kan je die dan vervolgens in een variabele stoppen zodat je analyses kan doen over het segment dat in beide landen is geweest?
BVD!
Als het goed is heb je in de output nog een tabel staan met de regressiecoefficienten (betas en B waarden) per predictor.quote:Op donderdag 19 juli 2012 09:21 schreef bart1074 het volgende:
Ook ik heb wat SPSS hulp nodig. Voor mijn scriptie onderzoek voer ik regressies uit in SPSS.
De onafhankelijke variabelen in het model heb ik ingedeeld in vier groepen (fysieke, sociale, locatie en prijs variabelen). Om uiteindelijk statistisch het sterkste model te vinden gebruik ik de zgn. 'enter methode' voor het toevoegen van de variabelen (groepen) aan het model. Het komt er op neer dat ik uiteindelijk vier regressie modellen heb. Het eerste model heeft slechts 1 groep onafhankelijke variabelen in het model, terwijl het vierde model alle vier de groepen in het model meeneemt.
Dit vierde model is dan ook het sterkste. Althans dat heeft de hoogste verklarende waarde (R-square).
Dit is ook uit te lezen in de 'model summary' die hier beneden is afgebeeld. Wat ik graag wil weten is wat de individuele verklarende waarde is per groep in het laatste model. Dus wat is de statistisch verklarende waarde van groep 1, 2, 3 en 4 in model 4. Dus welk percentage van 73,8% (R-square) verklaart elke groep individueel. De model summary geeft deze statistiek alleen cumulatief. Is er in SPSS een manier om dit te vinden? Zo ja, hoe?
[ afbeelding ]
Ja dat klopt en zelfs nog een hele hoop andere output. Maar het is mij niet duidelijk hoe ik die kan gebruiken om hetgeen te vinden waarnaar ik op zoek ben. De verklarende waarde per groep variabelen dus. Kan jij me dat uitleggen?quote:Op donderdag 19 juli 2012 09:25 schreef oompaloompa het volgende:
[..]
Als het goed is heb je in de output nog een tabel staan met de regressiecoefficienten (betas en B waarden) per predictor.
Kun je even de tabel copy pasten van model 4 met de regressiecoefficienten?quote:Op donderdag 19 juli 2012 09:36 schreef bart1074 het volgende:
[..]
Ja dat klopt en zelfs nog een hele hoop andere output. Maar het is mij niet duidelijk hoe ik die kan gebruiken om hetgeen te vinden waarnaar ik op zoek ben. De verklarende waarde per groep variabelen dus. Kan jij me dat uitleggen?
Dank
Het percentage dat zo'n extra variabele verklaart is het verschil tussen de R2 met en zonder die variabele(volgens mij, of anders dat getal met een verwaarloosbaar verschil).quote:Op donderdag 19 juli 2012 09:21 schreef bart1074 het volgende:
Ook ik heb wat SPSS hulp nodig. Voor mijn scriptie onderzoek voer ik regressies uit in SPSS.
De onafhankelijke variabelen in het model heb ik ingedeeld in vier groepen (fysieke, sociale, locatie en prijs variabelen). Om uiteindelijk statistisch het sterkste model te vinden gebruik ik de zgn. 'enter methode' voor het toevoegen van de variabelen (groepen) aan het model. Het komt er op neer dat ik uiteindelijk vier regressie modellen heb. Het eerste model heeft slechts 1 groep onafhankelijke variabelen in het model, terwijl het vierde model alle vier de groepen in het model meeneemt.
Dit vierde model is dan ook het sterkste. Althans dat heeft de hoogste verklarende waarde (R-square).
Dit is ook uit te lezen in de 'model summary' die hier beneden is afgebeeld. Wat ik graag wil weten is wat de individuele verklarende waarde is per groep in het laatste model. Dus wat is de statistisch verklarende waarde van groep 1, 2, 3 en 4 in model 4. Dus welk percentage van 73,8% (R-square) verklaart elke groep individueel. De model summary geeft deze statistiek alleen cumulatief. Is er in SPSS een manier om dit te vinden? Zo ja, hoe?
[ afbeelding ]
Nee dat i niet helemaal waar. Stel dat je twee variabelen hebt, A en B. A en B correleren met elkaar met .5quote:Op donderdag 19 juli 2012 09:49 schreef Fingon het volgende:
[..]
Het percentage dat zo'n extra variabele verklaart is het verschil tussen de R2 met en zonder die variabele(volgens mij, of anders dat getal met een verwaarloosbaar verschil).
Het staat trouwens gewoon theoretisch vast dat je met een extra variabele nooit slechter kan verklaren, dus dat zou geen verrassing moeten zijn dat een model met meer variabelen een hogere R2 heeft.
Dat is dus niet waar, want het is sterk afhankelijk van de volgorde waarin de groepen van variabelen worden toegevoegd. Via die 'enter methode' heb ik dus de beste volgorde gevonden en daarmee het definitieve model. Nu wil ik weten wat de verklarende waarde per groep is in dit definitieve model. Volgens mij is dit dus niet zo simpel als verschillen in R2...quote:Op donderdag 19 juli 2012 09:49 schreef Fingon het volgende:
[..]
Het percentage dat zo'n extra variabele verklaart is het verschil tussen de R2 met en zonder die variabele(volgens mij, of anders dat getal met een verwaarloosbaar verschil).
Het staat trouwens gewoon theoretisch vast dat je met een extra variabele nooit slechter kan verklaren, dus dat zou geen verrassing moeten zijn dat een model met meer variabelen een hogere R2 heeft.
Klopt, dus post die tabel eventjes dan kan ik het uitleggen ^^quote:Op donderdag 19 juli 2012 09:54 schreef bart1074 het volgende:
[..]
Dat is dus niet waar, want het is sterk afhankelijk van de volgorde waarin de groepen van variabelen worden toegevoegd. Via die 'enter methode' heb ik dus de beste volgorde gevonden en daarmee het definitieve model. Nu wil ik weten wat de verklarende waarde per groep is in dit definitieve model. Volgens mij is dit dus niet zo simpel als verschillen in R2...
Feit is wel dat je nooit een hogere R2 kan krijgen met minder (van dezelfde) variabelen.quote:Op donderdag 19 juli 2012 09:54 schreef oompaloompa het volgende:
[..]
Nee dat i niet helemaal waar. Stel dat je twee variabelen hebt, A en B. A en B correleren met elkaar met .5
Als je alleen A in het model toevoegt zal de verklaarde variantie van A overschat worden omdat dat gedeelte dat door B verklaard wordt maar niet in het model meegenomen is, voor die .5 door A vrklaard zal worden.
Alvast bedankt voor je hulp. Hier kan je een excel file downloaden met de volledige output.quote:Op donderdag 19 juli 2012 09:43 schreef oompaloompa het volgende:
[..]
Kun je even de tabel copy pasten van model 4 met de regressiecoefficienten?
Klopt. Daarom heb je helemaal op het einde van de tabel de sig. F change. Die kijkt of de toegenomen verklaarde variantie t.o.v. de toegenomen degrees of freedom wel significant is.quote:Op donderdag 19 juli 2012 09:56 schreef Fingon het volgende:
[..]
Feit is wel dat je nooit een hogere R2 kan krijgen met minder (van dezelfde) variabelen.
In de excell file staat alleen dezelfde tabel als die je hier gepost hebt.quote:Op donderdag 19 juli 2012 09:58 schreef bart1074 het volgende:
[..]
Alvast bedankt voor je hulp. Hier kan je een excel file downloaden met de volledige output.
Forum Opties | |
---|---|
Forumhop: | |
Hop naar: |