[Centraal Statistiektopic] SPSS, R, excel, etc. #10

maandag 24 juli 2017 @ 12:25:50 #226

Mynheer007

quote:
Op vrijdag 21 juli 2017 17:44 schreef Z het volgende:
De boel even opnieuw opstarten wellicht? Ik weet niks van SAS maar met Macro's weet je soms niet welke er hoe in het geheugen staat.

Thanks. Dat verhielp het probleem inderdaad.

woensdag 26 juli 2017 @ 16:13:43 #227

Sonyanijntje

Hallo!

Ik hoop dat jullie mij kunnen helpen! Ik heb data van mijn onderzoek maar ik twijfel over statistische test die ik moet gebruiken.

Ik heb 1 groep deelnemers (sporters) gevolgd in de tijd. De tijd kan ik indelen in 2 perioden: training en vakantie.
Deze groep heb ik in de studieperiode 8 x een vragenlijst toegestuurd en uiteindelijk heb ik van iedere deelnemer data van 6 of 7 complete vragenlijsten. Uit iedere vragenlijst heb ik data gekregen voor 6 subscales (het zijn 6 gemoeds/gevoelstoestanden, zoals vermoeidheid, blijdschap/energie, boosheid, etc).

Ik heb dus 6 afhankelijke variabelen (de subscales).
En ik heb ze meerdere malen gemeten binnen mijn proefpersonen. Ik heb niet van iedere deelnemer evenveel datapunten in de 'training' en 'vakantie' periode.

Ik wil weten of de subscales significant anders zijn in de verschillende periode en welke dat dan zijn.
Als ik mijn data plot kan ik al zien dat er duidelijk verschil is, maar ik wil het met cijfers kunnen onderbouwen.

Nu heb ik drie opties bedacht:

• 1. Ik kan van iedere deelnemer per periode een gemiddelde nemen van de gemeten scores per periode (omdat het dus meerdere metingen zijn binnen 1 persoon) en deze per subscale vergelijken in paired samples t-tests.
Alleen raak ik hier geen 'data' kwijt?

• 2. Ik kan een MANOVA uitvoeren op de alle metingen (niet gemiddeld) omdat ik meerdere dependent variables heb (6 subscales), en twee onafhankelijke factoren 'Periode' en 'participant'?

• 3. Ik dacht ook aan een repeated measurement ANOVA omdat ik meerdere metingen heb uitgevoerd binnen dezelfde participant. 'Subscale' zet ik dan als within-subject factor. 'Periode' is een Between-subject Factor, en 'Participant' ook.

Iemand een suggestie welke van mijn opties ik het beste kan kiezen?

woensdag 26 juli 2017 @ 21:01:12 #228

crossover

quote:
Op woensdag 26 juli 2017 16:13 schreef Sonyanijntje het volgende:
Hallo!

Ik hoop dat jullie mij kunnen helpen! Ik heb data van mijn onderzoek maar ik twijfel over statistische test die ik moet gebruiken.
[...]
Iemand een suggestie welke van mijn opties ik het beste kan kiezen?

Optie 1 valt af omdat je een aanname schendt, namelijk die van onafhankelijke waarnemingen. Dat geldt ook voor optie 2. Repeated measures anova houdt hier wel rekening mee, dus dat lijkt me de voorkeur hebben.

Ik weet echter niet of je problemen krijgt met missing data, dat zou nog wel eens kunnen. Het mooiste alternatief zou multi-level regressie zijn, die techniek is veel flexibeler, maar dat is next level shit

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

woensdag 2 augustus 2017 @ 12:16:43 #229

Mynheer007

Ik heb een sas-macro maar er gaat iets niet helemaal naar behoren

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

%combineddata(y);
Mergeddata&y;
merge a b;
run;
%if &y<2003 %then %do;
data test&y;
merge mergeddata&y d;
by db32;
run;
%end;
%if 2003 le &y le 2007 %then %do;
data test&y;
merge mergeddata&y f;
by db45;
run;
%end;

Ik wil dus verschillende acties uitvoeren voor de jaren voor 2003 en de jaren 2003 tot en met 2007.

Bij het runnen van de macro voor de jaren 2003-2007 gaat alles naar behoren, alleen bij het runnen van de jaren voor 2003 krijg ik een error:
Daaruit blijkt dat de macro op de data van de jaren kleiner dan 2003 ook de actie voor de jaren 2003-2007 uitvoert. Ik zie alleen niet waar de fout in mijn script zit

woensdag 2 augustus 2017 @ 13:25:58 #231

Mynheer007

quote:
Op woensdag 2 augustus 2017 12:22 schreef MCH het volgende:

[..]

Kun je ze niet los van elkaar runnen en die van voor 2003 net zo schrijven als 2003-2007?

Ik heb hem herschreven

quote:
Op woensdag 2 augustus 2017 12:22 schreef MCH het volgende:

[..]

Kun je ze niet los van elkaar runnen en die van voor 2003 net zo schrijven als 2003-2007?

Ik heb de volgende regel herschreven:

1	%if 2003 le &y le 2007 %then %do;

naar

1	%if 2003 le &y AND &y le 2007 %then %do;

en het werkt.

Ik weet niet of je dit bedoelde, maar iig bedankt voor het meedenken

zaterdag 5 augustus 2017 @ 17:56:06 #232

poker4lifee

tussendoor even een kansloze excel vraag, excuus.

Hoe krijg ik van die up/down pijltjes in een cel om een nummer te verhogen/verlagen? ipv 683 handmatig veranderen in 684 het door middel van een klik op een pijltje verhogen?

'If you really think that the environment is less important than the economy try holding your breath while you count your money'

woensdag 16 augustus 2017 @ 15:42:06 #233

Frank_Underwood

Hallo allen,

Ik heb hier een R code en ik vraag mij dus af wat er bedoeld wordt met:

- x1, x2 en x3...

- var

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46

makelms <- function(){
  # Store the coefficient of linear models with different independent variables
  cf <- c(coef(lm(Fertility ~ Agriculture, swiss))[2],
          coef(lm(Fertility ~ Agriculture + Catholic,swiss))[2],
          coef(lm(Fertility ~ Agriculture + Catholic + Education,swiss))[2],
          coef(lm(Fertility ~ Agriculture + Catholic + Education + Examination,swiss))[2],
          coef(lm(Fertility ~ Agriculture + Catholic + Education + Examination +Infant.Mortality, swiss))[2])
  print(cf)
}

# Regressor generation process 1.
rgp1 <- function(){
  print("Processing. Please wait.")
  # number of samples per simulation
  n <- 100
  # number of simulations
  nosim <- 1000
  # set seed for reproducability
  set.seed(4321)
  # Point A:
  x1 <- rnorm(n)
  x2 <- rnorm(n)
  x3 <- rnorm(n)
  # Point B:
  betas <- sapply(1 : nosim, function(i)makelms(x1, x2, x3))
  round(apply(betas, 1, var), 5)
}

# Regressor generation process 2.
rgp2 <- function(){
  print("Processing. Please wait.")
  # number of samples per simulation
  n <- 100
  # number of simulations
  nosim <- 1000
  # set seed for reproducability
  set.seed(4321)
  # Point C:
  x1 <- rnorm(n)
  x2 <- x1/sqrt(2) + rnorm(n) /sqrt(2)
  x3 <- x1 * 0.95 + rnorm(n) * sqrt(1 - 0.95^2)
  # Point D:
  betas <- sapply(1 : nosim, function(i)makelms(x1, x2, x3))
  round(apply(betas, 1, var), 5)
}
betas

zaterdag 26 augustus 2017 @ 10:55:47 #234

Mynheer007

Na wat data manipulatie heb ik een dataset gekregen die ik in R wil gebruiken om wat plotjes te maken etc.

1
2
3

dataset2000<-read_sas("dataset2000.sas7dbat")
plot(dataset2000, x,y)
etc....

(Dit is niet het origineel, maar copy daarvan is niet mogelijk aangezien ik op een beveiligde server werk)
Echter wil ik dit script omschrijven in een function waarin ik voor 2000 elk willekeurig jaartal in zou moeten kunnen vullen. Dit lukt echter maar gedeeltelijk, want de functie kan prima elke keer 2000 veranderen in het gewenste jaartal maar kan dit niet doen voor de tekst die tussen "" staat, zoals onderandere de bestandsnaam van de sas-dataset. Is dit in het geheel niet mogelijk of is zijn er mogelijkheden om dit voor elkaar te krijgen?

zaterdag 26 augustus 2017 @ 15:38:38 #235

Z

Moet kunnen. "Putting all the data frames in a list and looping over that list with lapply".

Aldus.

zaterdag 26 augustus 2017 @ 22:22:09 #236

ralfie

!Yvan eht nioj

ehh, paste0("dataset", n, ".sas7dbat") ?

woensdag 30 augustus 2017 @ 13:23:13 #237

Mynheer007

quote:
Op zaterdag 26 augustus 2017 15:38 schreef Z het volgende:
Moet kunnen. "Putting all the data frames in a list and looping over that list with lapply".

quote:
Op zaterdag 26 augustus 2017 22:22 schreef ralfie het volgende:
ehh, paste0("dataset", n, ".sas7dbat") ?

Bedankt voor de hulp, maar dit gaat specifiek over de dataset. Maar ik wil ook dat de functie de titel van de grafiek aanpast etc., maar aangezien die tussen "" staat, doet de functie daar niets mee.

woensdag 30 augustus 2017 @ 16:49:42 #238

Lyrebird

Populatie a: 500.000 samples, mean = 19, stdv = 10

Populatie b: 500 samples, mean = 23, stdv = 11

Populaties zijn niet normaal verdeeld.

Wat voor een test kan ik het beste gebruiken om aan te tonen of populatie b binnen/buiten populatie a valt?

[ Bericht 9% gewijzigd door Lyrebird op 30-08-2017 17:19:38 ]

Good intentions and tender feelings may do credit to those who possess them, but they often lead to ineffective — or positively destructive — policies ... Kevin D. Williamson

maandag 4 september 2017 @ 11:54:34 #239

crossover

quote:
Op woensdag 30 augustus 2017 16:49 schreef Lyrebird het volgende:
Populatie a: 500.000 samples, mean = 19, stdv = 10

Populatie b: 500 samples, mean = 23, stdv = 11

Populaties zijn niet normaal verdeeld.

Wat voor een test kan ik het beste gebruiken om aan te tonen of populatie b binnen/buiten populatie a valt?

Mann-whitneytoets.

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

donderdag 21 september 2017 @ 19:23:02 #240

No-P

Dosis sola venenum facit

Graag uw hulp.

Ik heb van opeenvolgende jaren een populatie gevolgt waarvan een proportie positief scored op een test (dichotoom: positief of negatief).
Graag wil ik een trend analyse doen om aan te tonen dat de proportie positieve testen toeneemt in de tijd. De gescreende individuen in de populatie die worden getest verschillen per jaar.

Welke methode is hier geschikt voor? Ik denk dat ik met logistic regression een heel eind kom.

[ Bericht 4% gewijzigd door No-P op 21-09-2017 21:44:17 ]

Sei wachsam,
Fall nicht auf sie rein! Paß auf, daß du deine Freiheit nutzt,
Die Freiheit nutzt sich ab, wenn du sie nicht nutzt!

zondag 24 september 2017 @ 11:41:43 #241

crossover

quote:
Op donderdag 21 september 2017 19:23 schreef No-P het volgende:
Graag uw hulp.

Ik heb van opeenvolgende jaren een populatie gevolgt waarvan een proportie positief scored op een test (dichotoom: positief of negatief).
Graag wil ik een trend analyse doen om aan te tonen dat de proportie positieve testen toeneemt in de tijd. De gescreende individuen in de populatie die worden getest verschillen per jaar.

Welke methode is hier geschikt voor? Ik denk dat ik met logistic regression een heel eind kom.

Nee, want je schendt de assumptie van onafhankelijke waarnemingen, wanneer er sprake is van meerdere metingen per persoon. Een waarneming is dan niet meer onafhankelijk want het is immers afhankelijk van de persoon.

Multi level logistic regression corrigeert hiervoor, dus dat zou ik je aanraden.

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

vrijdag 13 oktober 2017 @ 21:21:34 #242

icecreamfarmer_NL

VOC mentaliteit

Meer statistiek/onderzoek maar het heeft een wiskunde component en het is niet de moeite om een apart topic te openen.

Ik zit met het probleem dat ik niet weet of ik een t-test moet doen of een regressie. In het verleden heb ik het allemaal gehad maar het is weg gezakt.

In het kort het onderzoek:
Op dag 1 wordt gevraagd naar de mening over A. (Via een likert schaal).
Op dag 2 wordt onder een compleet andere groep mensen gevraagd naar de mening over B.

Het is trouwens onbekend of de variatie van beiden gelijk zijn.

Nu is de vraag moet ik dit onderzoeken met een double tail independent two sample T test of Welchers T test. Of dat ik het beter kan doen met een regressie (least squares).

Zo ja welke moet ik kiezen en vooral waarom. Mijn gevoel en volgens wiki zegt de T test echter kom ik niet echt achter de voordelen van een T-test over een regressie.

[ Bericht 1% gewijzigd door icecreamfarmer_NL op 13-10-2017 21:28:48 ]

1/10 Van de rappers dankt zijn bestaan in Amerika aan de Nederlanders die zijn voorouders met een cruiseschip uit hun hongerige landen ophaalde om te werken op prachtige plantages.
"Oorlog is de overtreffende trap van concurrentie."

vrijdag 27 oktober 2017 @ 11:08:01 #243

Buurtzwaan

Houdt van de polder

Hoe krijg je een hoedje op de beta in een word document ? Iemand enig idee hier ?

vrijdag 27 oktober 2017 @ 11:35:30 #244

ulq

qlu.

quote:
Op vrijdag 13 oktober 2017 21:21 schreef icecreamfarmer_NL het volgende:
Meer statistiek/onderzoek maar het heeft een wiskunde component en het is niet de moeite om een apart topic te openen.

Ik zit met het probleem dat ik niet weet of ik een t-test moet doen of een regressie. In het verleden heb ik het allemaal gehad maar het is weg gezakt.

In het kort het onderzoek:
Op dag 1 wordt gevraagd naar de mening over A. (Via een likert schaal).
Op dag 2 wordt onder een compleet andere groep mensen gevraagd naar de mening over B.

Het is trouwens onbekend of de variatie van beiden gelijk zijn.

Nu is de vraag moet ik dit onderzoeken met een double tail independent two sample T test of Welchers T test. Of dat ik het beter kan doen met een regressie (least squares).

Zo ja welke moet ik kiezen en vooral waarom. Mijn gevoel en volgens wiki zegt de T test echter kom ik niet echt achter de voordelen van een T-test over een regressie.

Wat wil je uberhaupt onderzoeken?

zondag 29 oktober 2017 @ 12:02:03 #245

wild-r0se

Ik hoop heel erg dat iemand mij kan helpen hiermee.

Ik heb de volgende onderzoeksopzet:

Er werd getest wat het effect van beweging is op je witte bloedcellen. Hiervoor hebben we 7 mannen vier verschillende protocollen laten fietsen (A t/m D). Iedereen heeft elk protocol gerandomiseerd gefietst, met één of twee weken er tussen. In totaal zijn er op vier tijdstippen monsters genomen: t1= voor het fietsen,t2, t3 en t4 na het fietsen op vaste tijdstippen.

Data ziet er per protocol dus als volgt uit:
t1 t2 t3 t4
1 5% 6% 4% 5%
2
3
4
5
6
7

N.B. Er zit veel biologische variatie tussen de proefpersonen

Wat ik wil weten zijn twee dingen
1. zit er verschil tussen t1 van protocol A en protocol B ( en C en D).
2. Zit er binnen het protocol verschil tussen t1, t2, t3 en t4

Voor de tweede vraag heb ik een one way repeated measures anova gedaan. Omdat het om herhaalde metingen gaat op dezelfde persoon in de tijd. Post hoc = bonferroni

Maar uit de eerste vraag kom ik niet zo goed. Ik ging er niet van uit dat dit herhaalde metingen zijn en wilde een two-way anova doen om wel te blocken voor de biologische variatie, maar bij het uitvoeren er van (in GraphPad Prism) raakte ik wat in de war bij de 'multiple comparisons' en bedacht ik mij dat het niet klopt, want je kan een persoon niet als factor zien als je wilt zien wat het verschil is, maar ook kan je niet werken met een gemiddelde van de complete groep (t1 protocol a) vanwege de variatie.
Zou je hier ook een one-way ANOVA met herhaalde metingen op los kunnen laten?

Niet alle data is normaal verdeeld, denk dat dat (Deels) komt door het geringe aantal. Bij het uitvoeren van de test ga ik er wel altijd van uit dat de sphericty niet wordt gehaald en wordt er een Geisser-Green nogwat correctie uitgevoerd.

Klopt het een beetje wat ik doe?

maandag 30 oktober 2017 @ 14:12:10 #246

peperkoekmannetje

Ik heb een vraagje over het gebruik van SAS MACRO's . Ik heb hier zelf nooit eerder mee moeten werken, echter moet ik dit nu voor mijn thesis wel doen. Ik heb nu een syntax voor een macro gekregen die ik kan gebruiken. Het gaat hierbij om het maken van restricted cubic splines. Echter snap ik dus niet hoe ik deze macro moet runnen. Ik heb het idee dat ik iets heel simpels verkeerd doe.. Ik gebruik de RCS_Reg van loïc Desquilet, mocht het verhelderend werken.

Kan iemand mij simpel uitleggen wat je moet doen om het goed te laten runnen? In de spoiler staat een deel van de syntax.

SPOILER
Om spoilers te kunnen lezen moet je zijn ingelogd. Je moet je daarvoor eerst gratis Registreren. Ook kun je spoilers niet lezen als je een ban hebt.

[ Bericht 57% gewijzigd door peperkoekmannetje op 30-10-2017 14:16:42 (toevoeging) ]

maandag 6 november 2017 @ 21:45:19 #247

drcc

SPSS Statistiek

Hallo allemaal,

Graag zou ik de volgende data willen analyseren.

Verschil in resultaat (in percentage) na 4 weken en 1 jaar gescoord door dezelfde groep: wilcoxon signed rank test?

Verschil in resultaat in percentage na 4 weken (en 1 jaar) gescoord door 2 verschillende groepen

welke analyses kan ik hier het beste voor gebruiken in spes en waarom

Hallo,<br />Ik wil graag het volgende analyseren

vrijdag 10 november 2017 @ 16:00:02 #248

xenia_dekok

Four legs good, two legs bad.

Vraagje, ik heb een categorial variable: emailopen (email geopend: ja of nee) en een variable met de frequentie van de ja's en nee's. Moet ik dan een chi square goodness of fit test doen?

https://www.huisdierplezier.be/ - https://www.huisdierplezier.nl/ -
https://www.konijnenhokshop.com/

vrijdag 1 december 2017 @ 23:00:08 #249

Super-B

Heeft iemand kennis en ervaring met Matlab?

donderdag 14 december 2017 @ 16:44:20 #250

Pinuts

Ik ben bezig met een statistiek opdracht, maar ik kom er niet helemaal uit welke formule ik nu moet gebruiken:
X heeft een effect op Y, maar verwacht wordt dat dit een inverted U-shape is, door moderator Z.
Nu zit ik met het volgende, zet ik de kwadraat op de X of op de Z? X is trouwens een binary variable.
Op internet lees ik verschillende dingen, ook omdat de meeste sites uitgaan van gewoon in een inverted U, zonder de moderator.
Ik dacht zelf dat ik hem op de Z moest zetten...

Forum Opties
Forumhop:
Hop naar:	(afkorting, bv 'KLB')

» school, studie en onderwijs

» school, studie en onderwijs