Het SPSS topic #5 - En we SPSS-en nog even door.... | School, Studie en Onderwijs (SES)

maandag 27 mei 2013 @ 21:39:45 #276

crossover

quote:
Op zondag 26 mei 2013 16:13 schreef Baldadig1989 het volgende:
Hoi,
refererend naar mijn vraag van vorige week over welke regressie type ik dien te gebruiken heb ik van mijn scriptiebegeleider te horen gekregen dat, indien de afhankelijke en onafhankelijke variabele op dezelfde schaal zijn gemeten (bij mij 1-7 likert scales) je dus gewoon linear regression kan gebruiken (godzijdank ).

Mijn vraag is nu, gezien ik 1-7 likert scales categorische data heb, of ik nu chi-square tests kan uitvoeren om te kijken of de variabelen onafhankelijk van elkaar zijn of niet. Nu heb ik een tabel van 7 bij 7 terwijl je in de praktijk meestal 2x2 tabellen ziet. Is mijn tabel nog wel enig verklarend en kan ik pearson's chi-square significantie van dit 7x7 tabel zonder problemen overnemen?

Verder heb ik ook in mijn dataset demografische, categorische data (land, industrie soort, aantal werknemers (onderverdeeld in groepen), en sales (ook onderverdeeld in groepen)) die ik via chi-square wil testen op (on)afhankelijkheid van elke 1-7 likert scale variabele wil testen. Uit de analyse komen helaas weinig significante pearson chi-squares, wat duidt op onafhankelijkheid van de variabele (bijv land=spanje) met een 1-7 likert scale. Klopt ook hier mijn methodiek of dien ik een andere methode toe te passen?

alvast bedankt voor jullie antwoorden!

Waarom doe je niet gewoon spearman rank correlation?

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

maandag 27 mei 2013 @ 21:45:09 #277

crossover

quote:
Op maandag 27 mei 2013 13:18 schreef Arnoldus_K het volgende:
Kort vraagje mbt het aanmaken van een 'missing-dummy', die ik vervolgens in een logistische regressie wil meenemen. Deze missing-dummy geeft een '1' aan de cases waarbij de data missing is (voor een betreffende variabele) en een '0' aan de cases waar data wel gewoon aanwezig is.

Heb nu dit syntax-command, maar op de een of andere manier herkent hij de missing values niet.
recode v204 (-2 -1=1)(else=0) into authomis.

Bij een cross-tabulation van v204 & authomis geeft SPSS aan dat de missing-dummy enkel een '0'-categorie heeft, terwijl er meer dan 400 cases zijn met een missing. Heeft dit te maken met hoe de missing-value is aangemerkt in variabele v204?

recode v204 (SYSMIS,-2,-1=1) (else=0) into authomis.
execute.

(zoiets, kan zijn dat er ergens een foutje zit want ik doe het uit m'n hoofd. pak anders even de syntax reference erbij)

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

maandag 27 mei 2013 @ 21:45:30 #278

crossover

quote:
Op maandag 27 mei 2013 13:38 schreef Arnoldus_K het volgende:
En direct nog een vraag er achteraan:

Heb in mijn logistische regressie een dichotome afhankelijke variabele 'tol' waarbij 1=tolerant , 0=niet tolerant.
Daarnaast heb ik als onafhankelijke variabele een geaggregeerde variabele van 'tol' aangemaakt, die de gemiddeldes van de landen opneemt. Ik wil zo kijken naar het effect van het 'normatieve klimaat' in een land op individuele tolerantie-niveaus.

Echter, de Odds Ratio is belachelijk hoog, namelijk 482,52. De twee variabelen zijn niet ernstig met elkaar gecorreleerd (0.245) en ook een crosstab wijst multicollineariteit af (zie plaatje). [ afbeelding ]

PS: Geaggregeerde variabele is zo aangemaakt:
AGGREGATE
/break = country
/drugtolmean = mean(drugtol).
freq drugtolmean.

Hier is ergens iets fout gegaan, loop al je stappen na en check alles even.

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

dinsdag 28 mei 2013 @ 00:20:47 #279

Baldadig1989

quote:
Op maandag 27 mei 2013 21:39 schreef crossover het volgende:

[..]

Waarom doe je niet gewoon spearman rank correlation?

Ik vond t eerst een beetje een rare vraag van je, maar heb er nog eens naar gekeken en kan me er wel in vinden. Mijn data is ook eigenlijk niet normaal verdeeld dus dan is spearman een betere correlatietoets dan Pearson.

Betreffende de chi-square toets waar ik eigenlijk een vraag over stelde ga ik nu voor een fischer exact test ipv pearson chi-square, dit gezien ik een kleine dataset heb en er veelal niet aan de eis van pearson chi-square wordt voldaan, ik heb namelijk veelal meer dan 20% lage (<5/10) observed en expected values.

Nogmaals bedankt voor de nieuwe ingevingen.

[ Bericht 0% gewijzigd door Baldadig1989 op 28-05-2013 00:29:07 ]

dinsdag 28 mei 2013 @ 10:36:16 #280

Arnoldus_K

Oh Ja Jôh

quote:
Op maandag 27 mei 2013 21:45 schreef crossover het volgende:
recode v204 (SYSMIS,-2,-1=1) (else=0) into authomis.
execute.

(zoiets, kan zijn dat er ergens een foutje zit want ik doe het uit m'n hoofd. pak anders even de syntax reference erbij)

Ja, het ligt volgens mij niet aan het recode-command. Heb alle mogelijke opties al langsgelopen, maar het blijft een feit dat de '1'-value bij een frequency-uitdraai wél wordt getoond, maar zodra ik een cross-tabulation met de originele variabele draai óf de missing-dummy toevoeg in een logistische regressie, deze er uit wordt gegooid omdat er enkel een waarde '0' bestaat.

Echter, bij een nominale variabele (waarbij ik de missing values heb vervangen door het gemiddelde, zie plaatje) pakt SPSS wél de missing dummy-value van '1'. Hier zit het verschil. Hoe kan dit?

dinsdag 28 mei 2013 @ 11:08:03 #281

Arnoldus_K

Oh Ja Jôh

quote:
Op maandag 27 mei 2013 21:45 schreef crossover het volgende:
Hier is ergens iets fout gegaan, loop al je stappen na en check alles even.

Heb e.e.a. nagelopen, maar kom niet verder. Feit is dat de odds lager worden als ik één van de volgende opties hanteer. Ik heb weinig inzicht in wat hier 'mag'. Wellicht dat iemand hier hulp bij kan bieden?

1) Ik maak van de 0-1 schaal een 0-100 schaal. De OR gaat van 482 naar 1,028. (!).
2) Ik gebruik geen dichotome variabele om de geaggregeerde scores aan te maken, maar de originele variabele (met waardes tussen 0-10). De OR gaat van 482 naar 4,7.
3) Ik gebruik logged scores van de eerder aangemaakte dichotome (geaggregeerde!) schaal, om zo de relatieve afstand in acht te nemen. De OR gaat van 482 naar 4,8.

Hopelijk is het voldoende informatie die ik presenteer.

dinsdag 28 mei 2013 @ 16:08:22 #282

Amsterdam227

Ik hoop dat iemand mij kan helpen.

Ik moet een aantal variabelen testen in SPSS en ik had eerst n = 82.
Toen moest ik bij een test een boxplot maken, waaruit bleek dat er een aantal outliers waren. De grootste drie outliers heb ik vervolgens uitgesloten (n = 79).

Daarna ging ik verder met de rest van de tests. Moet je nu bij de tests die je nog moet uitvoeren die n = 79 aanhouden, of neem je gewoon weer dat totaal van 82 mee?

Sorry als ik onduidelijk ben of als er info mist. Ben niet echt een held in SPSS en had het werk een behoorlijke tijd weggelegd, waardoor ik er even uit ben.

I like you more than pizza, and I really like pizza.

dinsdag 28 mei 2013 @ 16:24:01 #283

Baldadig1989

Als je analyses moet/gaat doen waarin de grootste outliers eruit zijn gehaald dan moet je n=79 gebruiken, als je die outliers alleen wilt definiëren/benoemen en verder gewoon analyses doen, dat moet je n=82 gebruiken. De outliers hebben dan natuurlijk wel invloed op je resultaten.

Aangezien je de outliers er al uit heb gehaald lijkt het mij logischer om met de nieuwe populatie van n=79 verder te gaan.

Ik hoop dat ik je hiermee heb geholpen.

dinsdag 28 mei 2013 @ 16:32:21 #284

Amsterdam227

quote:
Op dinsdag 28 mei 2013 16:24 schreef Baldadig1989 het volgende:
Als je analyses moet/gaat doen waarin de grootste outliers eruit zijn gehaald dan moet je n=79 gebruiken, als je die outliers alleen wilt definiëren/benoemen en verder gewoon analyses doen, dat moet je n=82 gebruiken. De outliers hebben dan natuurlijk wel invloed op je resultaten.

Aangezien je de outliers er al uit heb gehaald lijkt het mij logischer om met de nieuwe populatie van n=79 verder te gaan.

Ik hoop dat ik je hiermee heb geholpen.

Bedankt, hier ben ik zeker mee geholpen : )

I like you more than pizza, and I really like pizza.

dinsdag 28 mei 2013 @ 17:22:12 #285

Soldier2000

quote:
Op dinsdag 28 mei 2013 16:08 schreef Amsterdam227 het volgende:
Ik hoop dat iemand mij kan helpen.

Ik moet een aantal variabelen testen in SPSS en ik had eerst n = 82.
Toen moest ik bij een test een boxplot maken, waaruit bleek dat er een aantal outliers waren. De grootste drie outliers heb ik vervolgens uitgesloten (n = 79).

Daarna ging ik verder met de rest van de tests. Moet je nu bij de tests die je nog moet uitvoeren die n = 79 aanhouden, of neem je gewoon weer dat totaal van 82 mee?

Sorry als ik onduidelijk ben of als er info mist. Ben niet echt een held in SPSS en had het werk een behoorlijke tijd weggelegd, waardoor ik er even uit ben.

Ook belangrijk, waarom heb je ze uitgesloten?

BlaBlaBla

dinsdag 28 mei 2013 @ 17:48:29 #286

Amsterdam227

quote:
Op dinsdag 28 mei 2013 17:22 schreef Soldier2000 het volgende:

[..]

Ook belangrijk, waarom heb je ze uitgesloten?

Ik mocht alleen respondenten meetellen die Nederlands als moedertaal hadden. Volgens de enquête hadden deze respondenten een zeer lage score aan zichzelf gegeven bij de vraag 'kennis van de Nederlandse taal'.

Haha, ik heb zo te zien zojuist mijn eigen vraag beantwoord.. Zoals ik al zei, ik ben er een tijdje uit geweest.. :$

Maar vroeg me dus af of ik dan die tests die ik vóór die boxplot test had gedaan, weer opnieuw moest doen met het nieuwe totaal.

I like you more than pizza, and I really like pizza.

dinsdag 28 mei 2013 @ 18:04:53 #287

Soldier2000

quote:
Op dinsdag 28 mei 2013 17:48 schreef Amsterdam227 het volgende:

[..]

Ik mocht alleen respondenten meetellen die Nederlands als moedertaal hadden. Volgens de enquête hadden deze respondenten een zeer lage score aan zichzelf gegeven bij de vraag 'kennis van de Nederlandse taal'.

Haha, ik heb zo te zien zojuist mijn eigen vraag beantwoord.. Zoals ik al zei, ik ben er een tijdje uit geweest.. :$

Maar vroeg me dus af of ik dan die tests die ik vóór die boxplot test had gedaan, weer opnieuw moest doen met het nieuwe totaal.

Aaah okai, maar je moet inderdaad eerst je data screenen op missing data, outliers , normality, non response bias en common bias. En daarna ga je met je nieuwe dataset n=79 idd pas beginnen met de reliability en validity van je data.

BlaBlaBla

dinsdag 28 mei 2013 @ 18:41:09 #288

Amsterdam227

quote:
Op dinsdag 28 mei 2013 18:04 schreef Soldier2000 het volgende:

[..]

Aaah okai, maar je moet inderdaad eerst je data screenen op missing data, outliers , normality, non response bias en common bias. En daarna ga je met je nieuwe dataset n=79 idd pas beginnen met de reliability en validity van je data.

Okay thanks. Dus dan moet ik toch die eerdere tests maar voor de zekerheid opnieuw uitvoeren met die nieuwe dataset. Voor de rest heb ik alles gecheckt op outliers en missing data, dus dan kan ik met die n=79 de rest van de stapel tests gaan doen.

I like you more than pizza, and I really like pizza.

zondag 2 juni 2013 @ 00:12:57 #289

fh101

Ik kom even niet uit het volgende. Zo simpel vergeleken met andere SPSS zaken, maar het lukt niet..

Ik moet de gemiddelde leeftijd van de ouders in mijn steekproef berekenen. Sommige ouders hebben de vragenlijst echter voor meerdere kinderen ingevuld en hebben dus meerdere keren hun leeftijd opgegeven. Ik heb respondentnummers, dus ik kan zien wie dit heeft gedaan. Maar hoe zorg ik dat ik hun antwoord maar een keer meeneem in mijn analyses? Daar moet toch een makkelijk trucje voor zijn?

zondag 2 juni 2013 @ 09:29:38 #290

Z

Aggragate?

Aldus.

zondag 2 juni 2013 @ 14:03:39 #291

eleganza

ik hou van koekjes.

*komt er veeeeeeel te laat achter dat FOK! hier een topic voor heeft *

Mag voor persuasieonderzoek anovas en t toetsen doen. Doe ik het al voor in mn broek, maar we gaan zien hoe het gaat lopen en of ik hier nog terug kom in al mijn hysterie.

Koekje d'r bij?

dinsdag 4 juni 2013 @ 10:46:02 #292

Droplollie

Voor mijn afstudeerscriptie ben ik bezig met een SPSS-bestand.
Ik heb van vier variabelen een aantal missings. In mijn onderzoek wil ik logistische regressie doen.
Dit betekent dat er veel respondenten afvallen omdat er ergens missings zijn (toch? of kan je sommige respondenten toch mee laten doen, ondanks een missing in één van de variabelen?)

Nou ben ik na wat struinen op internet erachter gekomen dat je met behulp van imputatie missing values kan invullen. Nu is er allereerst de mogelijkheid voor enkelvoudige imputatie (onder missing value analysis is dit te vinden) de andere optie is multipele imputatie, dit houdt dat er meerdere datasets worden toegevoegd. Dus binnen 1 bestand komen er bijvoorbeeld 5 datasets, waarin de missing values zijn ingevuld. Wanneer ik vervolgens logistische regressie doe, krijg ik het probleem dat er ook 5 regressieanalyses worden uitgevoerd?
Welke manier van imputatie is het beste voor mij? En als dit multipele imputatie is, hoe kan ik er één logistische regressie van maken?

dinsdag 4 juni 2013 @ 10:55:35 #293

Soldier2000

quote:
Op dinsdag 4 juni 2013 10:46 schreef Droplollie het volgende:
Voor mijn afstudeerscriptie ben ik bezig met een SPSS-bestand.
Ik heb van vier variabelen een aantal missings. In mijn onderzoek wil ik logistische regressie doen.
Dit betekent dat er veel respondenten afvallen omdat er ergens missings zijn (toch? of kan je sommige respondenten toch mee laten doen, ondanks een missing in één van de variabelen?)

Nou ben ik na wat struinen op internet erachter gekomen dat je met behulp van imputatie missing values kan invullen. Nu is er allereerst de mogelijkheid voor enkelvoudige imputatie (onder missing value analysis is dit te vinden) de andere optie is multipele imputatie, dit houdt dat er meerdere datasets worden toegevoegd. Dus binnen 1 bestand komen er bijvoorbeeld 5 datasets, waarin de missing values zijn ingevuld. Wanneer ik vervolgens logistische regressie doe, krijg ik het probleem dat er ook 5 regressieanalyses worden uitgevoerd?
Welke manier van imputatie is het beste voor mij? En als dit multipele imputatie is, hoe kan ik er één logistische regressie van maken?

Hoeveel respondenten heb je die een missing value hebben, en hoeveel respondenten heb je in totaliteit?

BlaBlaBla

dinsdag 4 juni 2013 @ 10:58:51 #294

Droplollie

quote:
Op dinsdag 4 juni 2013 10:55 schreef Soldier2000 het volgende:

[..]

Hoeveel respondenten heb je die een missing value hebben, en hoeveel respondenten heb je in totaliteit?

In totaal is mijn N 279. Daarvan houd ik er 189 over wanneer ik een logistische regressie wil doen.

dinsdag 4 juni 2013 @ 11:19:47 #295

Soldier2000

quote:
Op dinsdag 4 juni 2013 10:58 schreef Droplollie het volgende:

[..]

In totaal is mijn N 279. Daarvan houd ik er 189 over wanneer ik een logistische regressie wil doen.

Tjeemig heb je 90 respondents met missing values??

BlaBlaBla

dinsdag 4 juni 2013 @ 11:24:59 #296

Droplollie

quote:
Op dinsdag 4 juni 2013 11:19 schreef Soldier2000 het volgende:

[..]

Tjeemig heb je 90 respondents met missing values??

Het gaat om data uit een systeem (politieverhoren). Niet alle data was te vinden. Bij 90 respondenten is inderdaad in ieder geval 1 variabele missend.

dinsdag 4 juni 2013 @ 11:39:13 #297

Soldier2000

quote:
Op dinsdag 4 juni 2013 11:24 schreef Droplollie het volgende:

[..]

Het gaat om data uit een systeem (politieverhoren). Niet alle data was te vinden. Bij 90 respondenten is inderdaad in ieder geval 1 variabele missend.

En wat voor variabelen mis je? Kun je een paar voorbeelden geven. Want iedere methode heeft zo zijn voor en nadelen, en je moet in je thesis echt heel goed gaan onderbouwen hoe je met deze 79 respondenten omgaat.

BlaBlaBla

dinsdag 4 juni 2013 @ 11:51:00 #298

Droplollie

quote:
Op dinsdag 4 juni 2013 11:39 schreef Soldier2000 het volgende:

[..]

En wat voor variabelen mis je? Kun je een paar voorbeelden geven. Want iedere methode heeft zo zijn voor en nadelen, en je moet in je thesis echt heel goed gaan onderbouwen hoe je met deze 79 respondenten omgaat.

Al mijn missende variabelen zijn dummyvariabelen (werkend/werkloos ; alcoholgebruik/ geen alcohol gebruik ; ongehuwd / gehuwd ). Mijn informatie van de overige variabelen is compleet (leeftijd / etniciteit / wapengebruik / recidivegedrag / mishandeling ).

Je hebt het over 79 respondenten; even voor de duidelijkheid: mijn N is 279, waarvan er 90 missings zijn.

dinsdag 4 juni 2013 @ 14:49:34 #299

Soldier2000

quote:
Op dinsdag 4 juni 2013 11:51 schreef Droplollie het volgende:

[..]

Al mijn missende variabelen zijn dummyvariabelen (werkend/werkloos ; alcoholgebruik/ geen alcohol gebruik ; ongehuwd / gehuwd ). Mijn informatie van de overige variabelen is compleet (leeftijd / etniciteit / wapengebruik / recidivegedrag / mishandeling ).

Je hebt het over 79 respondenten; even voor de duidelijkheid: mijn N is 279, waarvan er 90 missings zijn.

Sorry, bedoelde inderdaad 90. Eigenlijk zijn er 3 opties, pairwise deletion, listwise deletion en replacements. Jij hebt zoveel missing values dat ik niet goed zou weten wat in jouw geval de beste oplossing is. Je kunt de cases eruit gooien, maar dat zal waarschijnlijk veel invloed op latere analyses gaan hebben. Als je voor een replacement techniek kiest, dan moet je die nieuwe dataset gebruiken in andere analyses. Alleen je moet wel verdomd goed onderbouwen waarom jij denkt dat dit geen biasen gaat opleveren. Want als je bijv. 50% van je missing values verkeerd zou invullen (met behulp van mean imputatie), dan krijg jij straks waarschijnlijk andere resultaten.

Ik ben benieuwt wat crossover zijn advies is

BlaBlaBla

dinsdag 4 juni 2013 @ 14:57:21 #300

Droplollie

quote:
Op dinsdag 4 juni 2013 14:49 schreef Soldier2000 het volgende:

[..]

Sorry, bedoelde inderdaad 90. Eigenlijk zijn er 3 opties, pairwise deletion, listwise deletion en replacements. Jij hebt zoveel missing values dat ik niet goed zou weten wat in jouw geval de beste oplossing is. Je kunt de cases eruit gooien, maar dat zal waarschijnlijk veel invloed op latere analyses gaan hebben. Als je voor een replacement techniek kiest, dan moet je die nieuwe dataset gebruiken in andere analyses. Alleen je moet wel verdomd goed onderbouwen waarom jij denkt dat dit geen biasen gaat opleveren. Want als je bijv. 50% van je missing values verkeerd zou invullen (met behulp van mean imputatie), dan krijg jij straks waarschijnlijk andere resultaten.

Ik ben benieuwt wat crossover zijn advies is

Ik heb inmiddels gekozen om de data te imputeren (multipele imputatie bij SPSS), volgens mij is dit de meest betrouwbare methode. De dataset is nu 5 keer geimputeerd. Resultaten uit logistische regressie worden dan gepresenteerd met behulp van de gepoolde uitkomsten. Is dit een verantwoorde manier?

Forum Opties
Forumhop:
Hop naar:	(afkorting, bv 'KLB')

Het SPSS topic #5 - En we SPSS-en nog even door....

» school, studie en onderwijs

» school, studie en onderwijs