Stel ik heb een totale populatie van 7.000. Ik wil alleen een steekproef uitvoeren op de items die aan bepaalde kenmerken voldoen. Dus stel dat dit er 4.000 zijn. Op die 4.000 wil ik dus mijn steekproef uitvoeren en ook alleen deze items zal ik inlezen in het programma. Is mijn populatie op basis van bovenstaande tekst dan 7.000 of 4.000? Als ik het zo lees dan zou ik zeggen dat het de 4.000 is, maar ik vind het apart dat ik dat dan nog moet invullen als dat mijn dataset is.quote:Dit is het aantal steekproefeenheden in de populatie waaruit de steekproef getrokken is. Indien u niet zeker bent welke hoeveelheid u in moet vullen, kunt u voor de zekerheid beter een groot getal invullen. U moet een getal opgeven tussen 1 en 2.147.483.646
De kern van het antwoord zit hem in de eerste zin van je citaat:quote:Op vrijdag 19 augustus 2016 11:45 schreef Maraca het volgende:
Ik wil een attributieve steekproef uitvoeren, maar snap niet helemaal wat ze bedoelen met onderstaande bij het kopje "populatie"
[..]
Stel ik heb een totale populatie van 7.000. Ik wil alleen een steekproef uitvoeren op de items die aan bepaalde kenmerken voldoen. Dus stel dat dit er 4.000 zijn. Op die 4.000 wil ik dus mijn steekproef uitvoeren en ook alleen deze items zal ik inlezen in het programma. Is mijn populatie op basis van bovenstaande tekst dan 7.000 of 4.000? Als ik het zo lees dan zou ik zeggen dat het de 4.000 is, maar ik vind het apart dat ik dat dan nog moet invullen als dat mijn dataset is.
edit: uiteindelijk moet ik wel iets zeggen over die 7.000 en die 4.000 zal ook nog eens in 2 subsets worden ingedeeld waardoor dus 2 aparte steekproeven uitgevoerd zullen worden.
Als je dus een steekproef aan het trekken bent en alle 7.000 eenheden doen mee (= zouden kunnen worden geselecteerd voor de steekproef) dan is het aantal steekproefeenheden 7.000.quote:Dit is het aantal steekproefeenheden in de populatie waaruit de steekproef getrokken is.
Thnx! Ik had al zo'n vermoeden maar vond het vreemd dat ik dat nog eens aan moest geven omdat mijn dataset al uit die 4.000 bestaat. Maar goed, het programma zal zijn redenen daar wel voor hebbenquote:Op zaterdag 20 augustus 2016 09:07 schreef Banktoestel het volgende:
[..]
De kern van het antwoord zit hem in de eerste zin van je citaat:
[..]
Als je dus een steekproef aan het trekken bent en alle 7.000 eenheden doen mee (= zouden kunnen worden geselecteerd voor de steekproef) dan is het aantal steekproefeenheden 7.000.
Als je eerst 4.000 eenheden selecteert op basis van een bepaalde eigenschap, en vervolgens een steekproeftrekking doet waarvoor je alleen gaat trekken uit die 4.000, dan is het aantal steekproefeenheden 4.000.
Dus dat is meer face-value zeg maar? Welke categorie het hoogste percentage heeft?quote:Op donderdag 4 augustus 2016 18:18 schreef crossover het volgende:
[..]
Dat is altijd zo als je data in een kruistabel weergeeft.. tenzij je werkt met meerkeuze-antwoorden maar dat is hier volgens mij niet zo.
Die toets waar je het over hebt, om aan te tonen waar verschillen zitten, dat doe je met percentages of het toekennen/laten berekenen van de verwachte celwaarden (op basis van de totalen).
Dat dacht ik al, dus dat wilde ik even checken.quote:Wat betreft de onafhankelijkheid van data hebben we hier wat verwarring, omdat jij spreekt van onafhankelijkheid binnen één variabele, maar dat is niet wat er met (on)afhankelijkheid bedoeld wordt.
Ja, in principe welquote:Op dinsdag 23 augustus 2016 20:19 schreef Operc het volgende:
[..]
Dus dat is meer face-value zeg maar? Welke categorie het hoogste percentage heeft?
Misschien ben ik jouw student welquote:Op donderdag 25 augustus 2016 10:12 schreef Operc het volgende:
[..]
Bedankt.Dan had mijn student het een heel eind goed.
Dan spreek je opeens bizar goed Nederlands.quote:Op donderdag 25 augustus 2016 10:21 schreef crossover het volgende:
[..]
Misschien ben ik jouw student wel
Doe anders gewoon 7 dummy's van activiteit, waarvan je er eentje uit de regressie laat om multicollineariteit te voorkomen, om zo een niet-lineaire relatie te kunnen blootleggen. Eenvoudigst te interpreteren.quote:Op vrijdag 12 augustus 2016 16:02 schreef Liedje_ het volgende:
[..]
Ja. Dit is m'n output in SPSS (wel andere getallen/coefficienten maar dat komt omdat cases zijn aangepast/toegevoegd, maar strekking is dus nog hetzelfde).
[ afbeelding ]
"hoeveel dagen per week gemiddeld een halfuur met sport bezig" is dus significant, maar snap niet hoe verder te interpreteren..
Voor bijvoorbeeld 7 dagen per week actief, is het verschil in kwaliteit van leven tussen 0 dagen actief fysiek en 7 dagen actief fysiek 7*0.016 (even deze output aanhoudende), als alle andere variabelen gelijk blijven?
Dus als bij 0 dagen actief fysiek een kwaliteit van leven van 0.700 hoort, dan bij 7 dagen een kwaliteit van leven van 0.812 (dus 0.7+ 7*0.016)?
Zeg, een histogram van alle 500.000 datapunten van de jonge proefpersonen ziet er zo uit:quote:Op dinsdag 9 augustus 2016 09:43 schreef crossover het volgende:
[..]
Dan zou ik het gemiddelde en de standaarddeviatie gebruiken van de jonge personen.
Als de leeftijd van een oudere proefpersoon hoger is dan [gemiddelde jongere groep + 2*stddev jongere groep] dan zou je kunnen spreken van een relevant verschil. Dat is de meest voor de hand liggende benadering, omdat bij een normale verdeling 5% van de steekproef/populatie boven en beneden 2*de stdev t.o.v. het gemiddelde zit.
Dit wordt ook wel sensitiviteit en specificiteit genoemd. In welke mate is een test geschikt om de positieven correct te selecteren, en de negatieven (niet) te selecteren. En eigenlijk ontbreekt er bij jou ook een soort van ankerwaarde, of externe maat waaraan je kunt toetsen of je test geschikt is (of eigenlijk meer: bij welke cut off je het beste resultaat hebt). Dat zou je kunnen achterhalen door die vijf geselecteerden uit te nodigen voor een medisch onderzoek, om even in dit voorbeeld te blijven.quote:Op donderdag 1 september 2016 07:11 schreef Lyrebird het volgende:
[..]
Zeg, een histogram van alle 500.000 datapunten van de jonge proefpersonen ziet er zo uit:
[ afbeelding ]
In Origin zit een test om te testen of de verdeling normaal is, en dat is ie niet, dus de regel van gemiddelde + 2* stdev gaat hier niet op. Niet erg, want met de verdeling is het een koud kunstje om de verschillende cut-offs te vinden.
p95 = 36.4
p99 = 48.6
p99.9 = 67.8
Als ik de p95 loslaat op een plaatje gemaakt van een oudere proefpersoon, dan kan tegen de 100% (!) van alle datapunten boven die cut-off liggen. Dat is op zich goed nieuws, want dat betekent dat bijna alle datapunten in het plaatje 'suspect' zijn, omdat datapunten met zulke hoge waardes niet voorkomen bij jonge proefpersonen. Wat ik minder vind, is dat het hele plaatje van zo'n oude proefpersoon 'grijs' kleurt na het toepassen van de p95,waardoor je eigenlijk niets meer ziet. Ook vraag ik me af hoe sterk deze analyse is, want 5% van de datapunten die van de jonge groep afkomstig is, liggen ook boven de p95. Zelfs bij de p99 kleurt erg veel grijs. p99.9 lijkt me daarom redelijker:
[ afbeelding ]
Mijn volgende vraag is nu wat normaal is om als cut-off te gebruiken. Met mijn engineering-achtergrond gebruik ik het liefst de hoogste waarde (p99.9), want zelfs bij deze cut-off is het overduidelijk dat sommige oudere proefpersonen (de 5 die ik rood had gekleurd) hele andere data hebben dan de jonge proefpersonen. En bij de andere vijf oudere proefpersonen krijg je percentages boven de cut-off die erg lijken op de jonge populatie, dus daar is niets mee aan de hand. Ook prima.
Iets zegt me dat statistici liever het 99e percentiel gebruiken, of zelfs het 95e percentiel. Met die laatste ga je aggressief pixels die misschien niet zo suspect zijn als suspect aangeven, terwijl die bij gebruik van het 99.9e percentiel als cut-off als normaal worden gezien (terwijl ze dat misschien niet zijn). Wat is wijsheid?
Als je het zoals voor de komma interpreteert dan mag het schaal zijn, dat komt soms al voor bij slechts 5 categorieën.quote:Op dinsdag 25 oktober 2016 12:16 schreef nickhguitar het volgende:
Er is dus wel een bepaalde rangorde (1 t/m 10) in aanwezig, maar het is geen gegeven dat mensen na een behandeling bijv. minder pijn hebben dan ervoor.
Maar klopt het dan dat hier in principe 2 mogelijkheden beide goed zijn? Valt voor beide wel iets te zeggen toch?quote:Op dinsdag 25 oktober 2016 12:18 schreef MCH het volgende:
[..]
Als je het zoals voor de komma interpreteert dan mag het schaal zijn, dat komt soms al voor bij slechts 5 categorieën.
Bedoel je dat ze een 5 voor de behandeling anders beoordelen als een 5 na de behandeling? In principe kun je met interval variabelen ook 'meer'.quote:Op dinsdag 25 oktober 2016 12:20 schreef nickhguitar het volgende:
[..]
Maar klopt het dan dat hier in principe 2 mogelijkheden beide goed zijn? Valt voor beide wel iets te zeggen toch?
Hm. valt ook wat voor te zeggen idd.quote:Op dinsdag 25 oktober 2016 12:21 schreef Kaas- het volgende:
Schaal. Lijkt me ook niet heel handig om hier een choice model met tien categorieën in de afhankelijke variabele op te nemen.
Ons onderzoekje is vrij simpel. We meten een pijnscore voor de behandeling, passen een behandeling toe en meten dan weer een pijnscore. In theorie kan iemand voor de behandeling weinig pijn hebben en na de tijd heel veel.quote:Op dinsdag 25 oktober 2016 12:21 schreef MCH het volgende:
[..]
Bedoel je dat ze een 5 voor de behandeling anders beoordelen als een 5 na de behandeling? In principe kun je met interval variabelen ook 'meer'.
Waarom is dat relevant voor deze vraag?quote:Op dinsdag 25 oktober 2016 12:16 schreef nickhguitar het volgende:
maar het is geen gegeven dat mensen na een behandeling bijv. minder pijn hebben dan ervoor.
Ja dat kan. En je gaat dus meten of het ook zo is. Die variatie ben je juist naar op zoek.quote:Op dinsdag 25 oktober 2016 12:23 schreef nickhguitar het volgende:
[..]
Hm. valt ook wat voor te zeggen idd.
[..]
Ons onderzoekje is vrij simpel. We meten een pijnscore voor de behandeling, passen een behandeling toe en meten dan weer een pijnscore. In theorie kan iemand voor de behandeling weinig pijn hebben en na de tijd heel veel.
En zou jij dus scale of ordinaal gebruiken voor de pijnschaal?quote:Op dinsdag 25 oktober 2016 12:24 schreef Kaas- het volgende:
[..]
Ja dat kan. En je gaat dus meten of het ook zo is. Die variatie ben je juist naar op zoek.
Schaal.quote:Op dinsdag 25 oktober 2016 12:27 schreef nickhguitar het volgende:
[..]
En zou jij dus scale of ordinaal gebruiken voor de pijnschaal?
N is het aantal mensen die meedoen neem ik aan? We mikken op 16. Dat is ook het minimale wat benodigd is voor deze pilot.quote:Op dinsdag 25 oktober 2016 12:29 schreef Kaas- het volgende:
[..]
Schaal.
Wat is je n eigenlijk? Die mag ook wel berehoog zijn om bij een ordinale schaal uberhaupt significante resultaten te krijgen, aangezien de verdeling over die categorieën ook niet gelijkmatig zal zijn.
Forum Opties | |
---|---|
Forumhop: | |
Hop naar: |