abonnement Unibet Coolblue
pi_104688048
Crosspost wie o wie kan mijn vrouw helpen.

SPSS hulp nodig

Ik ben bezig met mijn afstudeeronderzoek en ben in de analyse fase belandt.
Ik heb een variabele: aantal werkzame personen bij een organisatie en die heb ik gecategoriseerd in:
2-5
5-10
10-15
15-20 werkzame personen

Ik heb een representativiteitstoets uitgevoerd mbv de chi-kwadraat en daaruit blijkt dat de eerste twee categorieën (2-5 en 5-10) gewaardeerd moeten worden met respectievelijk 0,87 en 1,32.
Nu moet ik dit in gaan voeren in SPSS gaan invoeren, zodat deze waardering helemaal wordt doorgevoerd.
Nu snap ik niet hoe ik dit moet doen. Ik heb boeken voor me liggen waar het wellicht in uitgelegd staat, maar dan nog lukt het mij niet. Ik heb SPSS voor Mac.

Kan iemand mij hier door heen helpen, aangezien ik nu echt helemaal vast zit.

Ik hoop het!
Al vast bedankt voor de moeite.
pi_104688773
quote:
0s.gif Op dinsdag 22 november 2011 18:20 schreef oompaloompa het volgende:

[..]

Waarschijnlijk hangen je variabelen samen.

Stel b.v. dat je het effect wilt testen van:

in de buurt bij water zijn
warm weer
weinig kleren

op het aantal muggenbulten.

Los zijn ze allemaal significant maar wanneer je ze samen neemt opeens niet meer. Dit komt doordat mensen bij warm weer vaker bij water zijn en minder kleren aan hebben. Het probleem is dat je door die samenhang niet meer goed kunt bepalen welk van de drie variabelen nou uiteindelijk echt de oorzaak is.
Ja het is eigenlijk zo

Ik heb een systeem(Q) die bestaat uit drie de processen(A, B en C).
Nu zei de docent van "Dit is leuk om te onderzoeken, maar spits het uit per proces, want dat is wat specifieker".

Eerst had ik dus Q -> Y

Nu heb ik dus:
A -> Y
B -> Y
C -> Y

Maar hoe kan ik hieruit dan toch nog conclusies trekken? Waarom is A -> Y bijvoorbeeld wel significant en B en C niet in het "totaal model" ? Hoe moet ik de uitkomst interpreteren is eigenlijk mijn vraag dus :)
pi_104688929
quote:
0s.gif Op dinsdag 22 november 2011 20:07 schreef JohnSpek het volgende:

[..]

Ja het is eigenlijk zo

Ik heb drie processen(A, B, C) die samen één systeem(Q) vormen.
Nu zei de docent van "Dit is leuk om te onderzoeken, maar spits het uit per proces, want dat is wat specifieker".

Eerst had ik dus Q -> Y

Nu heb ik dus:
A -> Y
B -> Y
C -> Y

Maar hoe kan ik hieruit dan toch nog conclusies trekken? Waarom is A -> Y bijvoorbeeld wel significant en B en C niet in het "totaal model" ? Hoe moet ik de uitkomst interpreteren is eigenlijk mijn vraag dus :)
nou ja, mijn antwoord is dus eigenlijk dat dat niet echt kan omdat je onafhankelijken gecorreleerd zijn.

Je kunt een aantal zaken doen die het een beetje fixen, dus een 3staps model toetsen en elke variabele los toevoegen maar dan nog kun je geen duidelijke conclusies trekken...

(voor zover ik weet dan heh, maar ben hier redelijk zeker over)
Op dinsdag 1 november 2016 00:05 schreef JanCees het volgende:
De polls worden ook in 9 van de 10 gevallen gepeild met een meerderheid democraten. Soms zelf +10% _O-
pi_104689214
quote:
0s.gif Op dinsdag 22 november 2011 20:10 schreef oompaloompa het volgende:

[..]

nou ja, mijn antwoord is dus eigenlijk dat dat niet echt kan omdat je onafhankelijken gecorreleerd zijn.

Je kunt een aantal zaken doen die het een beetje fixen, dus een 3staps model toetsen en elke variabele los toevoegen maar dan nog kun je geen duidelijke conclusies trekken...

(voor zover ik weet dan heh, maar ben hier redelijk zeker over)
Is er een website met meer uitleg over het drie staps model? Ik ben een methoden en technieken leek in principe :)

De correlatie is inderdaad 0.6x tussen de variabelen, aardig hoog dus.
De VIF(maatstaf van multicollearity) is echter rond de 1.5, ik dacht dat dat juist zegt dat het wel goed zit met de onafhankelijkheid tussen de variabelen?

[ Bericht 5% gewijzigd door JohnSpek op 22-11-2011 20:25:12 ]
  dinsdag 22 november 2011 @ 20:30:01 #30
124676 RobertoCarlos
Zit je nou naar me te loeruh?
pi_104690234
quote:
0s.gif Op dinsdag 22 november 2011 09:14 schreef oompaloompa het volgende:

[..]

De grouping variable is wat je condities zijn :) Het klinkt alsof je daar een afhankelijke in hebt gevuld.
Dat snap ik, alleen heb ik dus geen condities...
!!! Go 49-ers !!!
  dinsdag 22 november 2011 @ 20:43:08 #31
34299 davako
-GATGCTGTTGAA-
pi_104690978
quote:
0s.gif Op dinsdag 22 november 2011 18:21 schreef oompaloompa het volgende:

[..]

dus je hebt een 2(temp)x3(subtraat) between en 4 within (bacterien)?
Ja. Dat is dan toch een repeated measure ANOVA. Of zou je een andere adviseren?
All I do, is sit down at the typewriter, and start hittin' the keys. Getting them in the right order, that's the trick. That's the trick.
pi_104697027
quote:
0s.gif Op dinsdag 22 november 2011 20:15 schreef JohnSpek het volgende:

[..]

Is er een website met meer uitleg over het drie staps model? Ik ben een methoden en technieken leek in principe :)

De correlatie is inderdaad 0.6x tussen de variabelen, aardig hoog dus.
De VIF(maatstaf van multicollearity) is echter rond de 1.5, ik dacht dat dat juist zegt dat het wel goed zit met de onafhankelijkheid tussen de variabelen?
Je kunt bij een regressie dingen per analyse toevoegen, dan kijkt spss bij elke toevoeging of dit significant meer variantie verklaart, maar in princiepe als je geen theoretisch kader hebt waarom de ene beter zou moeten werken / vooraf gaan aan de andere kun je er geen uitspraak over doen.

Ik weet niet wat 1.5 betekent maar met een correlatie van 0.6 kan ik me niet voorstellen dat er geen problemen zijn dat is echt een hele hoge correlatie.

quote:
2s.gif Op dinsdag 22 november 2011 20:30 schreef RobertoCarlos het volgende:

[..]

Dat snap ik, alleen heb ik dus geen condities...
Maar een t-test is een test tussen condities...

quote:
0s.gif Op dinsdag 22 november 2011 20:43 schreef davako het volgende:

[..]

Ja. Dat is dan toch een repeated measure ANOVA. Of zou je een andere adviseren?
yeap :)
Op dinsdag 1 november 2016 00:05 schreef JanCees het volgende:
De polls worden ook in 9 van de 10 gevallen gepeild met een meerderheid democraten. Soms zelf +10% _O-
pi_104707619
quote:
0s.gif Op dinsdag 22 november 2011 12:29 schreef oompaloompa het volgende:

[..]

Volgens mij klopt alles wat je zegt.

Een manier om een kwadratische te doen is door zelf een nieuwe variabele aan te maken die het kwadraat is van de oude en deze dan in je regressie te gebruiken
Ik heb van mijn variabel Y de variabel S gemaakt (Door compute variable en dan S = Y*Y)

Nu heb ik S als afhankelijke variabel en A, B en C als onafhankelijke variabelen in de lineaire regressie gedaan.
Nu heb ik nog steeds hetzelfde patroon (iets anders dat wel, maar nog steeds een y = x lijn) in mijn scatterplot S vs residuen.
Weet jij hoe dat komt?
Het is wel zo dat de significanties ook anders zijn. Nu is variabel A opeens niet meer significant en variabel B wel!
pi_104708117
quote:
0s.gif Op woensdag 23 november 2011 07:21 schreef JohnSpek het volgende:

[..]

Ik heb van mijn variabel Y de variabel S gemaakt (Door compute variable en dan S = Y*Y)

Nu heb ik S als afhankelijke variabel en A, B en C als onafhankelijke variabelen in de lineaire regressie gedaan.
Nu heb ik nog steeds hetzelfde patroon (iets anders dat wel, maar nog steeds een y = x lijn) in mijn scatterplot S vs residuen.
Weet jij hoe dat komt?
Het is wel zo dat de significanties ook anders zijn. Nu is variabel A opeens niet meer significant en variabel B wel!
Ik bedoelde eigenlijk de onafhankelijke.

Even dit los zien van het andere probleem. Stel je hebt alleen maar A --> Y en het verband is kwadratisch. Wat je dan doet is een nieuwe term aanmaken a^2. Vervolgens doe je een regressie van zowel A als A^2 op Y. Dan kun je het lineaire en het kwadratische effect van A op Y testen.
Op dinsdag 1 november 2016 00:05 schreef JanCees het volgende:
De polls worden ook in 9 van de 10 gevallen gepeild met een meerderheid democraten. Soms zelf +10% _O-
pi_104714789
quote:
0s.gif Op woensdag 23 november 2011 08:15 schreef oompaloompa het volgende:

[..]

Ik bedoelde eigenlijk de onafhankelijke.

Even dit los zien van het andere probleem. Stel je hebt alleen maar A --> Y en het verband is kwadratisch. Wat je dan doet is een nieuwe term aanmaken a^2. Vervolgens doe je een regressie van zowel A als A^2 op Y. Dan kun je het lineaire en het kwadratische effect van A op Y testen.
Waarom zou je eigenlijk ook de lineaire term nemen? Aangezien de lineaire term alleen al zorgt voor een te hoge schattingslijn bij lage waarde van y (Aangezien de residuen negatief zijn bij lage waardes van y) zou een toevoeging van zowel het lineaire als (een positieve) kwadratische coefficient alleen maar zorgen voor nog een hogere schattingslijn?
(en als er een negatieve kwadratisch term zou zijn zou het begin beter kloppen maar gaat het einde helemaal raar omdat je dan een soort berg parabool krijgt terwijl de residuen bij een lineaire schattingslijn er al boven liggen!).

edit:
Als ik enkel de kwadratische"termen" toevoeg dan zit er geen patroon meer in mijn residuen (gewoon een mooi wolkje).
Als ik de kwadratische en de lineaire termen toevoeg, dan zit er weer een patroon in mijn residuen.
Betekent dit dat ik dus inderdaad enkel de kwadratische term moet toevoegen?

[ Bericht 3% gewijzigd door JohnSpek op 23-11-2011 13:03:39 ]
pi_104732210
Ik bleek te vroeg te hebben gejuigd ;( bij beide kwadratische regressies (met en zonder lineaire termen) zit er nog steeds een y = x lijn in de scatterplot.
pi_104733519
quote:
0s.gif Op woensdag 23 november 2011 12:48 schreef JohnSpek het volgende:

[..]

Waarom zou je eigenlijk ook de lineaire term nemen? Aangezien de lineaire term alleen al zorgt voor een te hoge schattingslijn bij lage waarde van y (Aangezien de residuen negatief zijn bij lage waardes van y) zou een toevoeging van zowel het lineaire als (een positieve) kwadratische coefficient alleen maar zorgen voor nog een hogere schattingslijn?
(en als er een negatieve kwadratisch term zou zijn zou het begin beter kloppen maar gaat het einde helemaal raar omdat je dan een soort berg parabool krijgt terwijl de residuen bij een lineaire schattingslijn er al boven liggen!).

edit:
Als ik enkel de kwadratische"termen" toevoeg dan zit er geen patroon meer in mijn residuen (gewoon een mooi wolkje).
Als ik de kwadratische en de lineaire termen toevoeg, dan zit er weer een patroon in mijn residuen.
Betekent dit dat ik dus inderdaad enkel de kwadratische term moet toevoegen?
Je voegt ze beiden toe omdat het een combinatie van beide kan zijn, bv: a + bx + cx^2
Een regressie analyse kijkt wat het beste "past" dus als het puur alleen kwadratisch zou zijn zou je een niet significante b-waarde er uit krijgen.

quote:
0s.gif Op woensdag 23 november 2011 20:11 schreef JohnSpek het volgende:
Ik bleek te vroeg te hebben gejuigd ;( bij beide kwadratische regressies (met en zonder lineaire termen) zit er nog steeds een y = x lijn in de scatterplot.
vreemd. Stuur anders eens je spss-file en je precieze bedoeling dan kijk ik er naar wanneer ik tijd over heb.
Op dinsdag 1 november 2016 00:05 schreef JanCees het volgende:
De polls worden ook in 9 van de 10 gevallen gepeild met een meerderheid democraten. Soms zelf +10% _O-
pi_104734203
quote:
0s.gif Op woensdag 23 november 2011 20:34 schreef oompaloompa het volgende:

[..]

Je voegt ze beiden toe omdat het een combinatie van beide kan zijn, bv: a + bx + cx^2
Een regressie analyse kijkt wat het beste "past" dus als het puur alleen kwadratisch zou zijn zou je een niet significante b-waarde er uit krijgen.

[..]

vreemd. Stuur anders eens je spss-file en je precieze bedoeling dan kijk ik er naar wanneer ik tijd over heb.
Dat zou echt super zijn! Ik pm je de data set.
  donderdag 24 november 2011 @ 19:12:09 #39
34299 davako
-GATGCTGTTGAA-
pi_104770267
Ik heb vier keer een repeated measure toets welke ik moet uitvoeren. Data is als volgt opgedeeld:

Eerste waarde in mijn dataset:
Temperatuur; dit is een nominale waarde welke temp 1 of 2 kan hebben

Tweede waarde in mijn dataset
Toevoeging
Dit is wederom een nominale waarde welke 3 keuzes kunnen hebben.

derde waarde in dataset
Waarde op tijdstip 1

vierde waarde in dataset
Waarde op tijdstip 2

Ik gebruik dus een repeated measure ANOVA om een verschil te meten tussen de twee tijdstippen. Per test meet ik hoeveel een bepaalde bacterie voorkomt(staan in de derde en vierde column).
Bij twee van mijn bacterien gaat dit goed, alleen bij andere twee soorten gaat dit niet goed. Bij de twee laatste soorten zegt mijn Levene's test dat de data niet homogenous verdeelt is.

Ook mag ik niet sphericity aannemen.

Ik heb de data al proberen te transformeren maar dit zorgt er niet voor dat de data homogeen wordt.

De data punten zijn waarden van ongeveer 0.100 tot 1.999

Misschien kan iemand mij helpen of wat adviseren.
All I do, is sit down at the typewriter, and start hittin' the keys. Getting them in the right order, that's the trick. That's the trick.
  donderdag 24 november 2011 @ 21:30:47 #40
302800 Frith
fictief en almachtig
pi_104779137
quote:
0s.gif Op dinsdag 22 november 2011 19:56 schreef nelisb het volgende:
Crosspost wie o wie kan mijn vrouw helpen.

SPSS hulp nodig

Ik ben bezig met mijn afstudeeronderzoek en ben in de analyse fase belandt.
Ik heb een variabele: aantal werkzame personen bij een organisatie en die heb ik gecategoriseerd in:
2-5
5-10
10-15
15-20 werkzame personen

Ik heb een representativiteitstoets uitgevoerd mbv de chi-kwadraat en daaruit blijkt dat de eerste twee categorieën (2-5 en 5-10) gewaardeerd moeten worden met respectievelijk 0,87 en 1,32.
Nu moet ik dit in gaan voeren in SPSS gaan invoeren, zodat deze waardering helemaal wordt doorgevoerd.
Nu snap ik niet hoe ik dit moet doen. Ik heb boeken voor me liggen waar het wellicht in uitgelegd staat, maar dan nog lukt het mij niet. Ik heb SPSS voor Mac.

Kan iemand mij hier door heen helpen, aangezien ik nu echt helemaal vast zit.

Ik hoop het!
Al vast bedankt voor de moeite.
Het eerste wat bij mij binnen schiet is 'weeggewichten', maar ik heb al een tijd niets met statistiek gedaan en het is puur een associatie.

Hoe dan ook zul je de vier categoriën en alle cases daar in vallen op zo'n manier moeten bewerken (hercoderen zal wel niet hoeven, maar dat zou anders wel zo zijn) dat ze daadwerkelijk met elkaar vergeleken kunnen worden. Voor zover ik me zo uit de losse pols kan bedenken, is dat bij gelijkwaardige categorieën (dus geen verschillen tussen gebruikte variabelen) een weeggewicht, om zodoende de steekproef gelijk te stellen aan de verdeling in de populatie.

Pin me daar niet op vast, maar dit kun je heel snel opzoeken in je literatuur in ieder geval.
Volgens mij is het ook zo dat je dit alleen bij bepaalde toetsen hoeft te doen en niet per se bij alle soort toetsen.
pi_104781522
quote:
0s.gif Op donderdag 24 november 2011 19:12 schreef davako het volgende:
Ik heb vier keer een repeated measure toets welke ik moet uitvoeren. Data is als volgt opgedeeld:

Eerste waarde in mijn dataset:
Temperatuur; dit is een nominale waarde welke temp 1 of 2 kan hebben

Tweede waarde in mijn dataset
Toevoeging
Dit is wederom een nominale waarde welke 3 keuzes kunnen hebben.

derde waarde in dataset
Waarde op tijdstip 1

vierde waarde in dataset
Waarde op tijdstip 2

Ik gebruik dus een repeated measure ANOVA om een verschil te meten tussen de twee tijdstippen. Per test meet ik hoeveel een bepaalde bacterie voorkomt(staan in de derde en vierde column).
Bij twee van mijn bacterien gaat dit goed, alleen bij andere twee soorten gaat dit niet goed. Bij de twee laatste soorten zegt mijn Levene's test dat de data niet homogenous verdeelt is.

Ook mag ik niet sphericity aannemen.

Ik heb de data al proberen te transformeren maar dit zorgt er niet voor dat de data homogeen wordt.

De data punten zijn waarden van ongeveer 0.100 tot 1.999

Misschien kan iemand mij helpen of wat adviseren.
Een non-parametrische toets biedt oplossing, die heeft minder sterke assumpties. Voordat je dat doet zou ik eerst de anova gewoon doen. Als daar niks uit blijkt te komen komt de non-parametrische toets ook niet uit.
Op dinsdag 1 november 2016 00:05 schreef JanCees het volgende:
De polls worden ook in 9 van de 10 gevallen gepeild met een meerderheid democraten. Soms zelf +10% _O-
  Moderator / Redactie Sport zaterdag 26 november 2011 @ 13:16:12 #42
92686 crew  borisz
Keurmeester
pi_104840658
quote:
0s.gif Op maandag 21 november 2011 17:13 schreef borisz het volgende:
Morgen weten we de juiste interpretatie is :+.
Vanavond even weer even verder :s)
Goede antwoord was dus Eerst de data omgooien naar % en een dummy aanmaken voor de negatieve getallen. Waardoor je ziet dat de kosten er sneller bij gaan, maar minder snel af te halen zijn.
winnaar wielerprono 2007 :) Last.FM
pi_104932879
Ik heb een A, B, C -> Y kwadratische regressie gedaan (alle beta's zijn positief) en de docent zei drie dingen wat ik nogal vaag vond:

- Het moet een parabool zijn de schattingslijn.

Dat vond ik raar aangezien de schaal van 1-7 is dus het zou gewoon een lijn moeten zijn die opwaarts sloped (tjah hoe leg je dat uit...).

- De beta's zijn erg laag terwijl de significantie heel hoog is.
De standaard deviatie is relatief aardig hoog in de afhankelijke variabel.
Nu is de beta van proces A behoorlijk laag maar is de p waarde 0,000 dus het is heel erg significant.
Hoe kan het een relatief lage beta zijn terwijl de p waarde toch heel laag is?

- De variabelen correleren heel erg met elkaar, dus mijn conclusie was dat ik er weinig over kon zeggen over de resultaten. Zij vond dat anders en zei dat ik toch per proces (A, B, C) moest zeggen waarom het wel of niet significant was. Wat is jullie mening?

[ Bericht 9% gewijzigd door JohnSpek op 28-11-2011 19:29:05 ]
pi_105097384
Ik denk dat het een erg simpele vraag voor jullie is, maar ik zit in dubio. Ik heb het gevoel dat ik ergens iets fout doe.

Ik heb een enquete gehouden onder 75 personen. Ik wil nu een gaan kijken of 'oudere' personen meer voor optie a kiezen dan voor optie b of c. Bij jongeren net andersom. De mensen konden kiezen bij punt a, b en c uit vijf opties op een ordinale schaal. (Strongly disagree tot Strongly agree).
De leeftijden zijn ook onderverdeeld in vijf delen, namelijk met leeftijdsklassen. (Let's say: 18-32)

Nu wil ik beide zaken met elkaar vergelijken. Dus de leeftijden met optie a, leeftijden met b en als laatste met c. Ik wil gebruik maken van de Chi-squared test, maar daar ga ik volgens mij de mist in?
pi_105099808
Je kunt een 5-puntslikertschaal ook zien als continue variabele, al is het dat strikt genomen niet helemaal. Er is wat discussie over, sommigen zeggen van wel, anderen van niet. Als je het als continue schaal ziet, kun je er een 1-factor ANOVA op loslaten per letter (a, b, c)
pi_105099860
Is dat dan niet een two-way ANOVA?
'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>
pi_105100199
quote:
0s.gif Op vrijdag 2 december 2011 16:09 schreef crossover het volgende:
Is dat dan niet een two-way ANOVA?
Je gebruikt 1 factor (leeftijd, met 5 niveaus) voor 1 afhankelijke variabele: a/b of c. Het kan ook met andere modellen, waarin je in een keer a, b en c bekijkt, maar ik weet niet hoe groot iemands statistiek kennis is. (en ik durf er zelf ook even geen eenduidige uitspraken over te doen hoe dat ook weer moet.)
pi_105100758
Je kan gewoon een chi squared doen. Theoretisch het meest correct:-)
pi_105130444
Okee bedankt. Want ik had na onderzoek in de leerboeken gevonden dat je de Chi-Square test alleen met categorische variabelen mocht doen
pi_105130893
quote:
0s.gif Op vrijdag 2 december 2011 16:08 schreef Operc het volgende:
Je kunt een 5-puntslikertschaal ook zien als continue variabele, al is het dat strikt genomen niet helemaal. Er is wat discussie over, sommigen zeggen van wel, anderen van niet. Als je het als continue schaal ziet, kun je er een 1-factor ANOVA op loslaten per letter (a, b, c)
Ik ben even hiermee aan de slag gegaan en dit lijkt ook wel een goede oplossing. Vooral icm de Post-Hoc test die je kunt uitvoeren lijkt mij dit de beste methode. Allen bedankt! :)
abonnement Unibet Coolblue
Forum Opties
Forumhop:
Hop naar:
(afkorting, bv 'KLB')