Waarom doe je niet gewoon spearman rank correlation?quote:Op zondag 26 mei 2013 16:13 schreef Baldadig1989 het volgende:
Hoi,
refererend naar mijn vraag van vorige week over welke regressie type ik dien te gebruiken heb ik van mijn scriptiebegeleider te horen gekregen dat, indien de afhankelijke en onafhankelijke variabele op dezelfde schaal zijn gemeten (bij mij 1-7 likert scales) je dus gewoon linear regression kan gebruiken (godzijdank ).
Mijn vraag is nu, gezien ik 1-7 likert scales categorische data heb, of ik nu chi-square tests kan uitvoeren om te kijken of de variabelen onafhankelijk van elkaar zijn of niet. Nu heb ik een tabel van 7 bij 7 terwijl je in de praktijk meestal 2x2 tabellen ziet. Is mijn tabel nog wel enig verklarend en kan ik pearson's chi-square significantie van dit 7x7 tabel zonder problemen overnemen?
Verder heb ik ook in mijn dataset demografische, categorische data (land, industrie soort, aantal werknemers (onderverdeeld in groepen), en sales (ook onderverdeeld in groepen)) die ik via chi-square wil testen op (on)afhankelijkheid van elke 1-7 likert scale variabele wil testen. Uit de analyse komen helaas weinig significante pearson chi-squares, wat duidt op onafhankelijkheid van de variabele (bijv land=spanje) met een 1-7 likert scale. Klopt ook hier mijn methodiek of dien ik een andere methode toe te passen?
alvast bedankt voor jullie antwoorden!
recode v204 (SYSMIS,-2,-1=1) (else=0) into authomis.quote:Op maandag 27 mei 2013 13:18 schreef Arnoldus_K het volgende:
Kort vraagje mbt het aanmaken van een 'missing-dummy', die ik vervolgens in een logistische regressie wil meenemen. Deze missing-dummy geeft een '1' aan de cases waarbij de data missing is (voor een betreffende variabele) en een '0' aan de cases waar data wel gewoon aanwezig is.
Heb nu dit syntax-command, maar op de een of andere manier herkent hij de missing values niet.
recode v204 (-2 -1=1)(else=0) into authomis.
Bij een cross-tabulation van v204 & authomis geeft SPSS aan dat de missing-dummy enkel een '0'-categorie heeft, terwijl er meer dan 400 cases zijn met een missing. Heeft dit te maken met hoe de missing-value is aangemerkt in variabele v204?
Hier is ergens iets fout gegaan, loop al je stappen na en check alles even.quote:Op maandag 27 mei 2013 13:38 schreef Arnoldus_K het volgende:
En direct nog een vraag er achteraan:
Heb in mijn logistische regressie een dichotome afhankelijke variabele 'tol' waarbij 1=tolerant , 0=niet tolerant.
Daarnaast heb ik als onafhankelijke variabele een geaggregeerde variabele van 'tol' aangemaakt, die de gemiddeldes van de landen opneemt. Ik wil zo kijken naar het effect van het 'normatieve klimaat' in een land op individuele tolerantie-niveaus.
Echter, de Odds Ratio is belachelijk hoog, namelijk 482,52. De twee variabelen zijn niet ernstig met elkaar gecorreleerd (0.245) en ook een crosstab wijst multicollineariteit af (zie plaatje). [ afbeelding ]
PS: Geaggregeerde variabele is zo aangemaakt:
AGGREGATE
/break = country
/drugtolmean = mean(drugtol).
freq drugtolmean.
Ik vond t eerst een beetje een rare vraag van je, maar heb er nog eens naar gekeken en kan me er wel in vinden. Mijn data is ook eigenlijk niet normaal verdeeld dus dan is spearman een betere correlatietoets dan Pearson.quote:Op maandag 27 mei 2013 21:39 schreef crossover het volgende:
[..]
Waarom doe je niet gewoon spearman rank correlation?
Ja, het ligt volgens mij niet aan het recode-command. Heb alle mogelijke opties al langsgelopen, maar het blijft een feit dat de '1'-value bij een frequency-uitdraai wél wordt getoond, maar zodra ik een cross-tabulation met de originele variabele draai óf de missing-dummy toevoeg in een logistische regressie, deze er uit wordt gegooid omdat er enkel een waarde '0' bestaat.quote:Op maandag 27 mei 2013 21:45 schreef crossover het volgende:
recode v204 (SYSMIS,-2,-1=1) (else=0) into authomis.
execute.
(zoiets, kan zijn dat er ergens een foutje zit want ik doe het uit m'n hoofd. pak anders even de syntax reference erbij)
Heb e.e.a. nagelopen, maar kom niet verder. Feit is dat de odds lager worden als ik één van de volgende opties hanteer. Ik heb weinig inzicht in wat hier 'mag'. Wellicht dat iemand hier hulp bij kan bieden?quote:Op maandag 27 mei 2013 21:45 schreef crossover het volgende:
Hier is ergens iets fout gegaan, loop al je stappen na en check alles even.
Bedankt, hier ben ik zeker mee geholpen : )quote:Op dinsdag 28 mei 2013 16:24 schreef Baldadig1989 het volgende:
Als je analyses moet/gaat doen waarin de grootste outliers eruit zijn gehaald dan moet je n=79 gebruiken, als je die outliers alleen wilt definiëren/benoemen en verder gewoon analyses doen, dat moet je n=82 gebruiken. De outliers hebben dan natuurlijk wel invloed op je resultaten.
Aangezien je de outliers er al uit heb gehaald lijkt het mij logischer om met de nieuwe populatie van n=79 verder te gaan.
Ik hoop dat ik je hiermee heb geholpen.
Ook belangrijk, waarom heb je ze uitgesloten?quote:Op dinsdag 28 mei 2013 16:08 schreef Amsterdam227 het volgende:
Ik hoop dat iemand mij kan helpen.
Ik moet een aantal variabelen testen in SPSS en ik had eerst n = 82.
Toen moest ik bij een test een boxplot maken, waaruit bleek dat er een aantal outliers waren. De grootste drie outliers heb ik vervolgens uitgesloten (n = 79).
Daarna ging ik verder met de rest van de tests. Moet je nu bij de tests die je nog moet uitvoeren die n = 79 aanhouden, of neem je gewoon weer dat totaal van 82 mee?
Sorry als ik onduidelijk ben of als er info mist. Ben niet echt een held in SPSS en had het werk een behoorlijke tijd weggelegd, waardoor ik er even uit ben.
Ik mocht alleen respondenten meetellen die Nederlands als moedertaal hadden. Volgens de enquête hadden deze respondenten een zeer lage score aan zichzelf gegeven bij de vraag 'kennis van de Nederlandse taal'.quote:Op dinsdag 28 mei 2013 17:22 schreef Soldier2000 het volgende:
[..]
Ook belangrijk, waarom heb je ze uitgesloten?
Aaah okai, maar je moet inderdaad eerst je data screenen op missing data, outliers , normality, non response bias en common bias. En daarna ga je met je nieuwe dataset n=79 idd pas beginnen met de reliability en validity van je data.quote:Op dinsdag 28 mei 2013 17:48 schreef Amsterdam227 het volgende:
[..]
Ik mocht alleen respondenten meetellen die Nederlands als moedertaal hadden. Volgens de enquête hadden deze respondenten een zeer lage score aan zichzelf gegeven bij de vraag 'kennis van de Nederlandse taal'.
Haha, ik heb zo te zien zojuist mijn eigen vraag beantwoord.. Zoals ik al zei, ik ben er een tijdje uit geweest.. :$
Maar vroeg me dus af of ik dan die tests die ik vóór die boxplot test had gedaan, weer opnieuw moest doen met het nieuwe totaal.
Okay thanks. Dus dan moet ik toch die eerdere tests maar voor de zekerheid opnieuw uitvoeren met die nieuwe dataset. Voor de rest heb ik alles gecheckt op outliers en missing data, dus dan kan ik met die n=79 de rest van de stapel tests gaan doen.quote:Op dinsdag 28 mei 2013 18:04 schreef Soldier2000 het volgende:
[..]
Aaah okai, maar je moet inderdaad eerst je data screenen op missing data, outliers , normality, non response bias en common bias. En daarna ga je met je nieuwe dataset n=79 idd pas beginnen met de reliability en validity van je data.
Hoeveel respondenten heb je die een missing value hebben, en hoeveel respondenten heb je in totaliteit?quote:Op dinsdag 4 juni 2013 10:46 schreef Droplollie het volgende:
Voor mijn afstudeerscriptie ben ik bezig met een SPSS-bestand.
Ik heb van vier variabelen een aantal missings. In mijn onderzoek wil ik logistische regressie doen.
Dit betekent dat er veel respondenten afvallen omdat er ergens missings zijn (toch? of kan je sommige respondenten toch mee laten doen, ondanks een missing in één van de variabelen?)
Nou ben ik na wat struinen op internet erachter gekomen dat je met behulp van imputatie missing values kan invullen. Nu is er allereerst de mogelijkheid voor enkelvoudige imputatie (onder missing value analysis is dit te vinden) de andere optie is multipele imputatie, dit houdt dat er meerdere datasets worden toegevoegd. Dus binnen 1 bestand komen er bijvoorbeeld 5 datasets, waarin de missing values zijn ingevuld. Wanneer ik vervolgens logistische regressie doe, krijg ik het probleem dat er ook 5 regressieanalyses worden uitgevoerd?
Welke manier van imputatie is het beste voor mij? En als dit multipele imputatie is, hoe kan ik er één logistische regressie van maken?
In totaal is mijn N 279. Daarvan houd ik er 189 over wanneer ik een logistische regressie wil doen.quote:Op dinsdag 4 juni 2013 10:55 schreef Soldier2000 het volgende:
[..]
Hoeveel respondenten heb je die een missing value hebben, en hoeveel respondenten heb je in totaliteit?
Tjeemig heb je 90 respondents met missing values??quote:Op dinsdag 4 juni 2013 10:58 schreef Droplollie het volgende:
[..]
In totaal is mijn N 279. Daarvan houd ik er 189 over wanneer ik een logistische regressie wil doen.
Het gaat om data uit een systeem (politieverhoren). Niet alle data was te vinden. Bij 90 respondenten is inderdaad in ieder geval 1 variabele missend.quote:Op dinsdag 4 juni 2013 11:19 schreef Soldier2000 het volgende:
[..]
Tjeemig heb je 90 respondents met missing values??
En wat voor variabelen mis je? Kun je een paar voorbeelden geven. Want iedere methode heeft zo zijn voor en nadelen, en je moet in je thesis echt heel goed gaan onderbouwen hoe je met deze 79 respondenten omgaat.quote:Op dinsdag 4 juni 2013 11:24 schreef Droplollie het volgende:
[..]
Het gaat om data uit een systeem (politieverhoren). Niet alle data was te vinden. Bij 90 respondenten is inderdaad in ieder geval 1 variabele missend.
Al mijn missende variabelen zijn dummyvariabelen (werkend/werkloos ; alcoholgebruik/ geen alcohol gebruik ; ongehuwd / gehuwd ). Mijn informatie van de overige variabelen is compleet (leeftijd / etniciteit / wapengebruik / recidivegedrag / mishandeling ).quote:Op dinsdag 4 juni 2013 11:39 schreef Soldier2000 het volgende:
[..]
En wat voor variabelen mis je? Kun je een paar voorbeelden geven. Want iedere methode heeft zo zijn voor en nadelen, en je moet in je thesis echt heel goed gaan onderbouwen hoe je met deze 79 respondenten omgaat.
Sorry, bedoelde inderdaad 90. Eigenlijk zijn er 3 opties, pairwise deletion, listwise deletion en replacements. Jij hebt zoveel missing values dat ik niet goed zou weten wat in jouw geval de beste oplossing is. Je kunt de cases eruit gooien, maar dat zal waarschijnlijk veel invloed op latere analyses gaan hebben. Als je voor een replacement techniek kiest, dan moet je die nieuwe dataset gebruiken in andere analyses. Alleen je moet wel verdomd goed onderbouwen waarom jij denkt dat dit geen biasen gaat opleveren. Want als je bijv. 50% van je missing values verkeerd zou invullen (met behulp van mean imputatie), dan krijg jij straks waarschijnlijk andere resultaten.quote:Op dinsdag 4 juni 2013 11:51 schreef Droplollie het volgende:
[..]
Al mijn missende variabelen zijn dummyvariabelen (werkend/werkloos ; alcoholgebruik/ geen alcohol gebruik ; ongehuwd / gehuwd ). Mijn informatie van de overige variabelen is compleet (leeftijd / etniciteit / wapengebruik / recidivegedrag / mishandeling ).
Je hebt het over 79 respondenten; even voor de duidelijkheid: mijn N is 279, waarvan er 90 missings zijn.
Ik heb inmiddels gekozen om de data te imputeren (multipele imputatie bij SPSS), volgens mij is dit de meest betrouwbare methode. De dataset is nu 5 keer geimputeerd. Resultaten uit logistische regressie worden dan gepresenteerd met behulp van de gepoolde uitkomsten. Is dit een verantwoorde manier?quote:Op dinsdag 4 juni 2013 14:49 schreef Soldier2000 het volgende:
[..]
Sorry, bedoelde inderdaad 90. Eigenlijk zijn er 3 opties, pairwise deletion, listwise deletion en replacements. Jij hebt zoveel missing values dat ik niet goed zou weten wat in jouw geval de beste oplossing is. Je kunt de cases eruit gooien, maar dat zal waarschijnlijk veel invloed op latere analyses gaan hebben. Als je voor een replacement techniek kiest, dan moet je die nieuwe dataset gebruiken in andere analyses. Alleen je moet wel verdomd goed onderbouwen waarom jij denkt dat dit geen biasen gaat opleveren. Want als je bijv. 50% van je missing values verkeerd zou invullen (met behulp van mean imputatie), dan krijg jij straks waarschijnlijk andere resultaten.
Ik ben benieuwt wat crossover zijn advies is
Forum Opties | |
---|---|
Forumhop: | |
Hop naar: |