[Centraal Statistiektopic] SPSS, R, excel, etc. #10

zondag 5 maart 2017 @ 18:16:08 #154

Drolflap

Iemand enig idee wat fout is aan de volgende formule voor excel ?

=ALS(OF(BW2 < 150, BW2 > 1500),1,0)

"the greatest enemy of knowledge is not ignorance, it is the illusion of knowledge." -Stephen W. Hawking

zondag 5 maart 2017 @ 20:21:32 #155

wimjongil

Harde man

Moet die komma in de or-statement geen puntkomma zijn?

Op dinsdag 23 november 2010 02:22 schreef Braddie het volgende:
Haal van internet af man.

zondag 5 maart 2017 @ 21:31:20 #156

Droppiedrie

Hoi!
Ik heb een vraag over mijn afstudeeronderzoek. Ik wil de test-hertest betrouwbaarheid en validiteit berekenen van een vragenlijst die bestaat uit twee schalen. De data is verzameld aan de hand van vragen op een 4-punts likertschaal (Helemaal mee eens, mee eens, oneens, helemaal oneens).

Op dit moment wil ik de assumpties testen voor de test-hertest betrouwbaarheid. Maar ik zit met de vraag of ik nu de schaal van de eerste afname en de schaal van de tweede afname tegelijkertijd moet testen op normaliteit, of moet ik dat eerst van elke schaal apart doen? Gezamenlijk zijn ze normaal verdeelt. Echter als ik naar ieder apart kijk, blijkt er dat een niet normaal verdeeld is.

Ik hoop dat jullie begrijpen wat ik bedoel en mij kunnen helpen.

maandag 6 maart 2017 @ 08:30:16 #157

crossover

quote:
Op zondag 5 maart 2017 21:31 schreef Droppiedrie het volgende:
Hoi!
Ik heb een vraag over mijn afstudeeronderzoek. Ik wil de test-hertest betrouwbaarheid en validiteit berekenen van een vragenlijst die bestaat uit twee schalen. De data is verzameld aan de hand van vragen op een 4-punts likertschaal (Helemaal mee eens, mee eens, oneens, helemaal oneens).

Op dit moment wil ik de assumpties testen voor de test-hertest betrouwbaarheid. Maar ik zit met de vraag of ik nu de schaal van de eerste afname en de schaal van de tweede afname tegelijkertijd moet testen op normaliteit, of moet ik dat eerst van elke schaal apart doen? Gezamenlijk zijn ze normaal verdeelt. Echter als ik naar ieder apart kijk, blijkt er dat een niet normaal verdeeld is.

Ik hoop dat jullie begrijpen wat ik bedoel en mij kunnen helpen.

Als je voldoende ruimte hebt om dit zo te beschrijven kan je er ook voor kiezen om alle varianten te presenteren. Als dat niet zo is, dan is er iets voor te zeggen om het bij de eerste keer te houden, want als je geen test-hertestbetrouwbaarheid had gedaan, had je ook de tweede set niet afgenomen.

Overigens, geeft het maar mooi aan dat er altijd iets bestaat als toevalstreffers, als dezelfde test op een ander moment een ander resultaat op je toets van assumptie geeft. Ik zou dus ook altijd een visuele inspectie doen om te kijken of je gekke dingen ziet. Normaliteitstoetsen zijn er in veel vormen en maten. Een simpele histogram helpt altijd wel wat, een Q-Q plot of P-P plot ook.

En daarbij komt de vraag, in hoeverre kan een vierpuntsschaal eigenlijk normaald verdeeld zijn? Je zal nooit een belvorm kunnen aantreffen omdat het geen continue schaal is. Dus ik zou t allemaal met een korreltje zout nemen.

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

maandag 6 maart 2017 @ 10:45:39 #158

Droppiedrie

quote:
Op maandag 6 maart 2017 08:30 schreef crossover het volgende:

[..]

Als je voldoende ruimte hebt om dit zo te beschrijven kan je er ook voor kiezen om alle varianten te presenteren. Als dat niet zo is, dan is er iets voor te zeggen om het bij de eerste keer te houden, want als je geen test-hertestbetrouwbaarheid had gedaan, had je ook de tweede set niet afgenomen.

Overigens, geeft het maar mooi aan dat er altijd iets bestaat als toevalstreffers, als dezelfde test op een ander moment een ander resultaat op je toets van assumptie geeft. Ik zou dus ook altijd een visuele inspectie doen om te kijken of je gekke dingen ziet. Normaliteitstoetsen zijn er in veel vormen en maten. Een simpele histogram helpt altijd wel wat, een Q-Q plot of P-P plot ook.

En daarbij komt de vraag, in hoeverre kan een vierpuntsschaal eigenlijk normaald verdeeld zijn? Je zal nooit een belvorm kunnen aantreffen omdat het geen continue schaal is. Dus ik zou t allemaal met een korreltje zout nemen.

Heel erg bedankt voor je antwoord! Ik denk dat ik inderdaad op het verkeerde spoor zit en dat ik het discontinue zou moeten bekijken. Ik ga het verder uitzoeken

donderdag 6 april 2017 @ 21:41:45 #159

Mishu

Fok verslaafde

Hallo. Ik wil een multivariabele logistische regressie analyse uitvoeren. Gaat allemaal goed, yolo, maar: hoe meer variabelen ik selecteer hoe kleiner mijn steekproef wordt en langzaamaan zijn mijn resultaten dan ook niet meer significant

Wat is hiervoor een goede oplossing? Minder variabelen nemen en proberen tot een optimaal voorspellend model te komen?

Wat is eigenlijk de ondergrens qua steekproefgrootte bij logistische regressie?

† In Memoriam † donderdag 6 april 2017 @ 22:12:46 #160

Zith

pls tip

Je hebt variabelen ertussen zonder waardes bij observaties. Observaties met missende waardes voor variabelen worden niet meegenomen in de regressie.

Oplossing : vul de missende waardes in

I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!

donderdag 6 april 2017 @ 22:36:30 #161

Mishu

Fok verslaafde

quote:
Op donderdag 6 april 2017 22:12 schreef Zith het volgende:
Je hebt variabelen ertussen zonder waardes bij observaties. Observaties met missende waardes voor variabelen worden niet meegenomen in de regressie.

Oplossing : vul de missende waardes in

Oftewel, de vragen zijn dan niet ingevuld? In dat geval kan ik dat niet doen want dan fraudeer ik

† In Memoriam † donderdag 6 april 2017 @ 23:17:53 #162

Zith

pls tip

Inderdaad... ik heb in het verleden wel eens missende cijfers de gemiddelde waarde gegeven van de rest, maar daar zit een handvol problemen aan (minder variabiliteit, bias, leugens, etc).

Ik denk dat je of moet accepteren dat je weinig observaties heb met het hele model, of bekijken welke variabelen degene zijn met veel missende waardes en bedenken of je het kan verdedigen om die eruit te laten.

I am a Chinese college students, I have a loving father, but I can not help him, he needs to do heart bypass surgery, I can not help him, because the cost of 100,000 or so needed, please help me, lifelong You pray Thank you!

zaterdag 8 april 2017 @ 10:22:45 #163

crossover

Dit probleem kan je 'oplossen' met behulp van (multipele) imputatie, maar inderdaad geldt garbage in, garbage out.

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

zaterdag 15 april 2017 @ 13:53:10 #164

fatma.95

Hallo,

Ik ben bezig met mijn thesis en loop een beetje vast met de analyses. De onderzoeksvraag is of de relatie tussen effortful control (een temperamentkenmerk) en externaliserend probleemgedrag gemodereerd wordt door sekse. Zowel effortful control als externaliserend probleemgedrag hebben een interval meetniveau. Sekse heeft een nominaal/dichotoom meetniveau. De analyse die ik wil doen is een multipele regressie waarbij ik zowel sekse als effortful control moet centreren. Nou kan ik van effortful control een gemiddelde uitrekenen en centreren met SPSS door een nieuwe variabele te maken. Hoe moet ik dan sekse centreren? Ik kan geen gemiddelde uitrekenen van jongen en meisje.

Ik hoop dat jullie mij kunnen helpen!!

donderdag 20 april 2017 @ 12:49:23 #165

Super-B

Hey,

Weet iemand hoe je in STATA het beste stocks kunt sorteren op basis van bepaalde karakteristieken en hoe je daaropvolgend portfolio's kunt aanmaken?

vrijdag 21 april 2017 @ 14:08:23 #166

Mishu

Fok verslaafde

quote:
Op zaterdag 15 april 2017 13:53 schreef fatma.95 het volgende:
Hallo,

Ik ben bezig met mijn thesis en loop een beetje vast met de analyses. De onderzoeksvraag is of de relatie tussen effortful control (een temperamentkenmerk) en externaliserend probleemgedrag gemodereerd wordt door sekse. Zowel effortful control als externaliserend probleemgedrag hebben een interval meetniveau. Sekse heeft een nominaal/dichotoom meetniveau. De analyse die ik wil doen is een multipele regressie waarbij ik zowel sekse als effortful control moet centreren. Nou kan ik van effortful control een gemiddelde uitrekenen en centreren met SPSS door een nieuwe variabele te maken. Hoe moet ik dan sekse centreren? Ik kan geen gemiddelde uitrekenen van jongen en meisje.

Ik hoop dat jullie mij kunnen helpen!!

Volgens mij centreer je die gewoon niet dan:

http://oupsy.nl/help/1393/wanneer-centreren-en-standaardiseren

vrijdag 21 april 2017 @ 14:14:45 #167

Mishu

Fok verslaafde

Vraagje: wat is de motivatie om bijvoorbeeld 'aantal kinderen' op interval of op nominaal (wel of geen kinderen) te meten?

Bij beiden is het effect significant, bij nominaal nog iets sterker.

Iemand een idee?

vrijdag 21 april 2017 @ 16:25:35 #169

student_123

Hoi,

Ik heb een vraag over SPSS. Ik heb een vragenlijst gemaakt via LimeSurvey (misschien heeft iemand hier ook ervaring mee). Ik heb nu de data/resultaten geëxporteerd naar SPSS.

Als je in SPSS een analyse wilt uitvoeren moet je de afhankelijke variabelen en de onafhankelijke variabelen selecteren. Mijn afhankelijke variabelen is mijn vragenlijst. Alleen is het probleem, dat ik nu dus in SPSS niet 1 variabele (mijn vragenlijst) heb, maar heel veel variabelen en elke variabele stelt 1 vraag/item voor uit mijn vragenlijst. Ik kan nu dus de analyses niet uitvoeren. Heb ik iets fout gedaan? Moet ik iets veranderen in SPSS?

Ik hoop dat iemand me kan helpen.

vrijdag 21 april 2017 @ 16:29:01 #171

Operc

Nr. 40

quote:
Op vrijdag 21 april 2017 16:25 schreef student_123 het volgende:
Hoi,

Ik heb een vraag over SPSS. Ik heb een vragenlijst gemaakt via LimeSurvey (misschien heeft iemand hier ook ervaring mee). Ik heb nu de data/resultaten geëxporteerd naar SPSS.

Als je in SPSS een analyse wilt uitvoeren moet je de afhankelijke variabelen en de onafhankelijke variabelen selecteren. Mijn afhankelijke variabelen is mijn vragenlijst. Alleen is het probleem, dat ik nu dus in SPSS niet 1 variabele (mijn vragenlijst) heb, maar heel veel variabelen en elke variabele stelt 1 vraag/item voor uit mijn vragenlijst. Ik kan nu dus de analyses niet uitvoeren. Heb ik iets fout gedaan? Moet ik iets veranderen in SPSS?

Ik hoop dat iemand me kan helpen.

Wat is je onderzoeksvraag? Want ookal heb je een vragenlijst, dan kunnen de variabelen daarin nog steeds de onafhankelijke variabele(n) en afhankele variabele(n) zijn.

vrijdag 21 april 2017 @ 23:31:50 #172

Super-B

Heb een behoorlijk probleem met missing values (ongeveer 300.000 observations). Iemand die hier truucjes mee weet met STATA of Excel, zo ja wie wil mij helpen? Als iemand dat wil, dan leg ik precies uit wat het probleem is. Het is niet zo simpel als dat het lijkt helaas

zaterdag 22 april 2017 @ 22:28:55 #173

Super-B

quote:
Op vrijdag 21 april 2017 23:31 schreef Super-B het volgende:
Heb een behoorlijk probleem met missing values (ongeveer 300.000 observations). Iemand die hier truucjes mee weet met STATA of Excel, zo ja wie wil mij helpen? Als iemand dat wil, dan leg ik precies uit wat het probleem is. Het is niet zo simpel als dat het lijkt helaas

Ik heb twee Excel-data files uit CompuStat global gehaald:

1. Maandelijkse MSCI-World index prices

2. Maandelijkse financial statement data (zoals P/E ratio, B/P ratio) van verschillende bedrijven over de periode 1990-2017. De bedrijven hebben allemaal een company-key als filter-optie in Excel.

Wat ik moet doen, en waar ik niet uit kom, is het volgende:

- In dataset 2 zijn er een hoop missing values:

* sommige bedrijven hebben geen waarden voor één of meerdere variabelen op bepaalde tijdspunten. En daarnaast hebben niet alle bedrijven een tijdsperiode van 1950 tot 2017, sommige hebben een periode van 1993-2017, bijvoorbeeld.

Dan is mijn vraag dus, hoe los ik dit op en hoe kan ik dit het beste mergen in Excel/STATA?

[ Bericht 4% gewijzigd door Super-B op 24-04-2017 21:08:58 ]

zondag 23 april 2017 @ 14:05:04 #174

Mishu

Fok verslaafde

quote:
Op zaterdag 22 april 2017 22:28 schreef Super-B het volgende:

[..]

Ik heb drie Excel-data files uit CompuStat global gehaald:

1. Maandelijkse MSCI-World index prices

2. Maandelijkse financial statement data (zoals P/E ratio, B/P ratio) van verschillende bedrijven over de periode 1990-2017. De bedrijven hebben allemaal een company-key als filter-optie in Excel.

Wat ik moet doen, en waar ik niet uit kom, is het volgende:

- In dataset 2 zijn er een hoop missing values:

* sommige bedrijven hebben geen waarden voor één of meerdere variabelen op bepaalde tijdspunten. En daarnaast hebben niet alle bedrijven een tijdsperiode van 1950 tot 2017, sommige hebben een periode van 1993-2017, bijvoorbeeld.

Dan is mijn vraag dus, hoe los ik dit op en hoe kan ik dit het beste mergen in Excel/STATA?

Ik werk met een voorbereide dataset maar ik wil best proberen om met je mee te denken: als er data ontbreekt, dan ontbreekt er gewoon data. Jammer dan.

In mijn dataset zitten er 'sysmis' variabelen waar de missende data en mensen die 0 of neutraal hebben geantwoord eruit zijn gehaald.

zondag 23 april 2017 @ 14:06:21 #175

Mishu

Fok verslaafde

quote:
Op vrijdag 21 april 2017 16:25 schreef student_123 het volgende:
Hoi,

Ik heb een vraag over SPSS. Ik heb een vragenlijst gemaakt via LimeSurvey (misschien heeft iemand hier ook ervaring mee). Ik heb nu de data/resultaten geëxporteerd naar SPSS.

Als je in SPSS een analyse wilt uitvoeren moet je de afhankelijke variabelen en de onafhankelijke variabelen selecteren. Mijn afhankelijke variabelen is mijn vragenlijst. Alleen is het probleem, dat ik nu dus in SPSS niet 1 variabele (mijn vragenlijst) heb, maar heel veel variabelen en elke variabele stelt 1 vraag/item voor uit mijn vragenlijst. Ik kan nu dus de analyses niet uitvoeren. Heb ik iets fout gedaan? Moet ik iets veranderen in SPSS?

Ik hoop dat iemand me kan helpen.

Je afhankelijke variabele is waar je onafhankelijke variabelen effect op hebben. Je hebt dus maar 1 afhankelijke variabele. Je test de invloed van 1 of meerdere onafhankelijke variabelen op die afhankelijke variabele.

zondag 23 april 2017 @ 23:57:22 #176

Mishu

Fok verslaafde

quote:
Op zaterdag 22 april 2017 22:28 schreef Super-B het volgende:

[..]

Ik heb drie Excel-data files uit CompuStat global gehaald:

1. Maandelijkse MSCI-World index prices

2. Maandelijkse financial statement data (zoals P/E ratio, B/P ratio) van verschillende bedrijven over de periode 1990-2017. De bedrijven hebben allemaal een company-key als filter-optie in Excel.

Wat ik moet doen, en waar ik niet uit kom, is het volgende:

- In dataset 2 zijn er een hoop missing values:

* sommige bedrijven hebben geen waarden voor één of meerdere variabelen op bepaalde tijdspunten. En daarnaast hebben niet alle bedrijven een tijdsperiode van 1950 tot 2017, sommige hebben een periode van 1993-2017, bijvoorbeeld.

Dan is mijn vraag dus, hoe los ik dit op en hoe kan ik dit het beste mergen in Excel/STATA?

In SPSS gebruik je de optie 'exclude cases pairwise' om missing values eruit te halen.

maandag 24 april 2017 @ 00:26:22 #177

Super-B

quote:
Op zondag 23 april 2017 23:57 schreef Mishu het volgende:
exclude cases pairwise

Wat doet die functie dan precies? Het zou fijn zijn als ik in Excel/STATA een functie heb waarbij alle rows van de desbetreffende firm en dus de firm uit de data wordt verwijderd op het moment dat er missing values zijn.

Met Excel kan ik automatisch rows laten verwijderen op het moment dat er missing values zijn, maar dan verwijdert Excel alleen één of meerdere jaren van een bepaalde firm. Nog steeds zit de firm er dan in, met 'gebroken' jaren, bijvoorbeeld 1995-2010 en dan 2013-2016.... En ik wil dan gewoon dat dan de firm dan gewoon helemaal uit de sample wordt verwijderd.

Handmatig is grofweg onmogelijk met zowat 200.000 observaties...

Iemand die mij hieruit kan helpen?

Dus op het moment dat er één of meerdere variabelen (kolommen) een missing value heeft in één of meerdere rijen (jaren) ---> dan gewoon alle rijen m.b.t. de firm verwijderen... Het ziet er ongeveer zo uit:

[ Bericht 11% gewijzigd door Super-B op 24-04-2017 00:39:05 ]

maandag 24 april 2017 @ 10:56:02 #178

Mishu

Fok verslaafde

quote:
Op maandag 24 april 2017 00:26 schreef Super-B het volgende:

[..]

Wat doet die functie dan precies? Het zou fijn zijn als ik in Excel/STATA een functie heb waarbij alle rows van de desbetreffende firm en dus de firm uit de data wordt verwijderd op het moment dat er missing values zijn.

Met Excel kan ik automatisch rows laten verwijderen op het moment dat er missing values zijn, maar dan verwijdert Excel alleen één of meerdere jaren van een bepaalde firm. Nog steeds zit de firm er dan in, met 'gebroken' jaren, bijvoorbeeld 1995-2010 en dan 2013-2016.... En ik wil dan gewoon dat dan de firm dan gewoon helemaal uit de sample wordt verwijderd.

Handmatig is grofweg onmogelijk met zowat 200.000 observaties...

Iemand die mij hieruit kan helpen?

Dus op het moment dat er één of meerdere variabelen (kolommen) een missing value heeft in één of meerdere rijen (jaren) ---> dan gewoon alle rijen m.b.t. de firm verwijderen... Het ziet er ongeveer zo uit:

[ afbeelding ]

Ik zou de term even googelen. Ik Google ook veel. Ik zou anders je dataset in SPSS voorbereiden en dan in het andere programma verder gaan.

maandag 24 april 2017 @ 16:13:56 #180

Super-B

quote:
Op maandag 24 april 2017 10:56 schreef Mishu het volgende:

[..]

Ik zou de term even googelen. Ik Google ook veel. Ik zou anders je dataset in SPSS voorbereiden en dan in het andere programma verder gaan.

Ben al zeker een week bezig om over deze drempel heen te komen. Ben de term die in 1 woord beschrijft wat ik wil, helaas, niet tegengekomen....

Hoe het moet gebeuren, maakt mij niet veel uit.. zolang ik maar er in STATA mee verder kan gaan.

maandag 24 april 2017 @ 16:14:25 #181

Super-B

quote:
Op maandag 24 april 2017 11:43 schreef MCH het volgende:

[..]

Kan dit niet beter met Access?

Geen idee? Heb jij een idee?

maandag 24 april 2017 @ 16:49:26 #182

Z

quote:
Op maandag 24 april 2017 00:26 schreef Super-B het volgende:

[..]

Wat doet die functie dan precies? Het zou fijn zijn als ik in Excel/STATA een functie heb waarbij alle rows van de desbetreffende firm en dus de firm uit de data wordt verwijderd op het moment dat er missing values zijn.

Met Excel kan ik automatisch rows laten verwijderen op het moment dat er missing values zijn, maar dan verwijdert Excel alleen één of meerdere jaren van een bepaalde firm. Nog steeds zit de firm er dan in, met 'gebroken' jaren, bijvoorbeeld 1995-2010 en dan 2013-2016.... En ik wil dan gewoon dat dan de firm dan gewoon helemaal uit de sample wordt verwijderd.

Handmatig is grofweg onmogelijk met zowat 200.000 observaties...

Iemand die mij hieruit kan helpen?

Dus op het moment dat er één of meerdere variabelen (kolommen) een missing value heeft in één of meerdere rijen (jaren) ---> dan gewoon alle rijen m.b.t. de firm verwijderen... Het ziet er ongeveer zo uit:

[ afbeelding ]

Zou ik in een macro doen. En ik vermoed dat dit gemakkelijk in Python kan, maar dat ken ik niet goed genoeg om je verder te helpen.

Aldus.

maandag 24 april 2017 @ 17:56:56 #183

Super-B

quote:
Op maandag 24 april 2017 16:49 schreef Z het volgende:

[..]

Zou ik in een macro doen. En ik vermoed dat dit gemakkelijk in Python kan, maar dat ken ik niet goed genoeg om je verder te helpen.

Hoe heet het wat ik wil doen eigenlijk?

maandag 24 april 2017 @ 18:54:58 #184

Z

quote:
Op maandag 24 april 2017 17:56 schreef Super-B het volgende:

[..]

Hoe heet het wat ik wil doen eigenlijk?

Je moet in stappen denken bij een Excel macro. Iets van:
Stap 1: Maak een lijst van bedrijven met een missende waarden.
Stap 2: Loop door deze lijst.
Stap 3: Wis eerste regel van het eerste bedrijf.
Stap 4: Wis de volgende regel van het eerste bedrijf.
Stap 5: Ga door tot je geen regels meer vindt.
Stap 6: Volgende bedrijf

Macro's schrijven vereist wel enige oefening maar het is ook weer niet heel moeilijk. Je zou het even in het Excel-topic kunnen vragen. Daar zitten een aantal Excel-wizzards.

Ik heb met de Python-module voor SPSS wel eens kolommen met lege waarden verwijderd in SPSS, dat kan SPSS zelf niet. Ik kan me voorstellen dat Python ook jouw probleem op zou kunnen lossen. Maar geen idee hoe precies.

Aldus.

maandag 24 april 2017 @ 21:19:45 #185

Super-B

quote:
Op maandag 24 april 2017 18:54 schreef Z het volgende:

[..]

Je moet in stappen denken bij een Excel macro. Iets van:
Stap 1: Maak een lijst van bedrijven met een missende waarden.
Stap 2: Loop door deze lijst.
Stap 3: Wis eerste regel van het eerste bedrijf.
Stap 4: Wis de volgende regel van het eerste bedrijf.
Stap 5: Ga door tot je geen regels meer vindt.
Stap 6: Volgende bedrijf

Macro's schrijven vereist wel enige oefening maar het is ook weer niet heel moeilijk. Je zou het even in het Excel-topic kunnen vragen. Daar zitten een aantal Excel-wizzards.

Ik heb met de Python-module voor SPSS wel eens kolommen met lege waarden verwijderd in SPSS, dat kan SPSS zelf niet. Ik kan me voorstellen dat Python ook jouw probleem op zou kunnen lossen. Maar geen idee hoe precies.

Ik denk dat ik niet de eerste ben met een soortgelijke vraag. Echter kan ik het niet vinden op Google, maar dat is omdat ik niet zoek op de juiste trefwoorden helaas.

dinsdag 25 april 2017 @ 11:00:31 #186

Super-B

Ik heb, tussendoor, nog een andere vraag:

Mijn Panel Data bestaat uit firm-year observaties die verschillende tijdsperioden hebben; Firm X bestaat uit observaties tussen 1962-2009, Firm Y uit 1982-2006, Firm Z dan weer 1965-2008 etc.

Moet ik ervoor zorgen dat ik een hoop firms/jaren uit de sample verwijder zodat de (overgebleven) firms in de sample allen dezelfde tijdsperiode hebben of maakt dat niet uit?

EDIT: wat googlen levert op dat dit fenomeen ''Unbalanced Panel Data'' heet. Wat is het beste om te doen? Of hoef ik daar niks aan te doen?

woensdag 26 april 2017 @ 14:05:48 #187

Mishu

Fok verslaafde

Vraagje: klopt het dat factoranalyse vooral een exploratieve inductieve methode is?

Want je gaat gewoon kijken wat de afhankelijke variabele het beste verklaard en je selecteert dus niet de onafhankelijke variabelen vooraf op basis van de theorie die je vervolgens test? Toch?

Ander vraagje: ik gebruik ook een panelstudie. Ik heb in mijn ondertitel staan: door middel van een panelstudie. Maar de methode die ik gebruik is logistische regressie. Hoe staat dat nou in verhouding tot elkaar? Is de panelstudie mijn dataset en logistische regressie mijn methode? Wat zouden jullie in de ondertitel zetten: panelstudie of logistische regressie?

[ Bericht 39% gewijzigd door Mishu op 26-04-2017 14:59:15 ]

vrijdag 28 april 2017 @ 14:44:14 #188

crossover

quote:
Op woensdag 26 april 2017 14:05 schreef Mishu het volgende:
Vraagje: klopt het dat factoranalyse vooral een exploratieve inductieve methode is?

Want je gaat gewoon kijken wat de afhankelijke variabele het beste verklaard en je selecteert dus niet de onafhankelijke variabelen vooraf op basis van de theorie die je vervolgens test? Toch?

Ander vraagje: ik gebruik ook een panelstudie. Ik heb in mijn ondertitel staan: door middel van een panelstudie. Maar de methode die ik gebruik is logistische regressie. Hoe staat dat nou in verhouding tot elkaar? Is de panelstudie mijn dataset en logistische regressie mijn methode? Wat zouden jullie in de ondertitel zetten: panelstudie of logistische regressie?

Voor wat betreft EFA (explorative factor analysis) klopt het. Je hebt ook een ander soort factor analyse, namelijk CFA (confirmative factor analysis). Hierbij specificeer je vooraf hoeveel factoren er zijn en hoe deze samenhangen met je variabelen. Je kan dan ook verschillende modellen toetsen en kijken welk voorspelde model het beste past. Hier kan je ook meer over vinden onder de naam structural equation modeling.

Je andere vraagje: ik zou het bij panelstudie houden, of eventueel longitudinaal design, want daar gaat het dan vooral om, de methode is minder relevant want logistische regressie kan je ook in ander soorten designs gebruiken. Overigens dacht ik dat je met logistische regressie geen herhaalde metingen kan doen, maar je bedoelt wellicht multilevel logistic regression?

'Expand my brain, learning juice!'
<a href="http://www.last.fm/user/crossover1" rel="nofollow" target="_blank">Last.fm</a>

vrijdag 28 april 2017 @ 21:54:18 #189

Mishu

Fok verslaafde

Weg

[ Bericht 99% gewijzigd door Mishu op 28-04-2017 22:14:03 ]

vrijdag 28 april 2017 @ 21:57:43 #190

Mishu

Fok verslaafde

quote:
Op vrijdag 28 april 2017 14:44 schreef crossover het volgende:

[..]

Voor wat betreft EFA (explorative factor analysis) klopt het. Je hebt ook een ander soort factor analyse, namelijk CFA (confirmative factor analysis). Hierbij specificeer je vooraf hoeveel factoren er zijn en hoe deze samenhangen met je variabelen. Je kan dan ook verschillende modellen toetsen en kijken welk voorspelde model het beste past. Hier kan je ook meer over vinden onder de naam structural equation modeling.

Je andere vraagje: ik zou het bij panelstudie houden, of eventueel longitudinaal design, want daar gaat het dan vooral om, de methode is minder relevant want logistische regressie kan je ook in ander soorten designs gebruiken. Overigens dacht ik dat je met logistische regressie geen herhaalde metingen kan doen, maar je bedoelt wellicht multilevel logistic regression?

Ik dacht dat panelstudie betekende een samengestelde dataset. Ik doe inderdaad geen longitudinaal onderzoek. Aanpassen dus?

Ik ben echt zo bang om fouten te maken... gelukkig heb ik nog even.

Edit: het betreft wel een panel in de zin dat deze mensen als sinds 1990 deze vragenlijst krijgen. Voor mijn onderzoek zijn voor het eerst in 2015 extra vragen toegevoegd. En het is dus een samengestelde dataset van twee steekproeven.

Nog een vraagje: weet iemand in welke range de ideale steekproefgrootte van logistische regressie zit?

[ Bericht 3% gewijzigd door Mishu op 28-04-2017 22:14:42 ]

vrijdag 28 april 2017 @ 22:28:58 #191

Super-B

-

[ Bericht 99% gewijzigd door Super-B op 29-04-2017 19:23:55 ]

vrijdag 28 april 2017 @ 22:54:49 #192

Mishu

Fok verslaafde

quote:
Op vrijdag 28 april 2017 22:28 schreef Super-B het volgende:
Daar ben ik weer met een STATA-gerelateerde vraag ;

Ik heb voor mijn dataset stock-returns berekend aan de hand van de aandelenprijzen van het jaar daarvoor. Echter stuit ik nu tegen het probleem aan dat, in mijn panel-data, het eerste jaar van ieder bedrijf een missing value heeft voor de nieuwe variabele (Stock-returns).

Hoe moet ik hier nu mee omgaan in mijn verdere analyses zoals regressions e.d.? Het eerste jaar kan ik niet zomaar verwijderen/excluden, omdat het daaropvolgende jaar dan gewoon door STATA als het eerste jaar wordt geidentificeerd waardoor ik wel oneindig door kan gaan met excluden totdat ik geen data meer over heb...

Wat kan ik het beste doen?

Volgens mij heb je echt een heel moeilijk onderwerp

ik ben geen expert hierin dus sterkte. Ik weet wel inmiddels dat reguliere regressie enorm vastloopt als er missing values zijn.

vrijdag 28 april 2017 @ 23:16:09 #193

Super-B

quote:
Op vrijdag 28 april 2017 22:54 schreef Mishu het volgende:

[..]

Volgens mij heb je echt een heel moeilijk onderwerp ik ben geen expert hierin dus sterkte. Ik weet wel inmiddels dat reguliere regressie enorm vastloopt als er missing values zijn.

Als ik mijn professor moet geloven, is het inderdaad een heel moeilijk onderwerp. Vooral voor een bachelor-thesis, laat staan een master-thesis.

Het is enorm motiverend en fascinerend, alleen soms is het méér dan irritant als het programmeren niet meezit.

zaterdag 29 april 2017 @ 04:29:53 #194

CapnIzzy

Geef aye voor de kapitein

quote:
Op vrijdag 28 april 2017 23:16 schreef Super-B het volgende:

[..]

Als ik mijn professor moet geloven, is het inderdaad een heel moeilijk onderwerp. Vooral voor een bachelor-thesis, laat staan een master-thesis.

Het is enorm motiverend en fascinerend, alleen soms is het méér dan irritant als het programmeren niet meezit.

Waarom doe je het dan?

Onoverwinnelijk/Rotterdam/Zeerover
https://www.playgwent.com/en/ - Official beta of Gwent: The Witcher Gard Game

zaterdag 29 april 2017 @ 15:07:54 #195

wimjongil

Harde man

quote:
Op vrijdag 28 april 2017 22:28 schreef Super-B het volgende:
Daar ben ik weer met een STATA-gerelateerde vraag ;

Ik heb voor mijn dataset stock-returns berekend aan de hand van de aandelenprijzen van het jaar daarvoor. Echter stuit ik nu tegen het probleem aan dat, in mijn panel-data, het eerste jaar van ieder bedrijf een missing value heeft voor de nieuwe variabele (Stock-returns).

Hoe moet ik hier nu mee omgaan in mijn verdere analyses zoals regressions e.d.? Het eerste jaar kan ik niet zomaar verwijderen/excluden, omdat het daaropvolgende jaar dan gewoon door STATA als het eerste jaar wordt geidentificeerd waardoor ik wel oneindig door kan gaan met excluden totdat ik geen data meer over heb...

Wat kan ik het beste doen?

Je kunt toch eerst die returns uitrekenen en vervolgens het eerste jaar weggooien? Dan hou je een dataset over met vanaf het begin alle waarden.

Op dinsdag 23 november 2010 02:22 schreef Braddie het volgende:
Haal van internet af man.

zaterdag 29 april 2017 @ 16:15:57 #196

Super-B

quote:
Op vrijdag 28 april 2017 23:16 schreef Super-B het volgende:

[..]

Als ik mijn professor moet geloven, is het inderdaad een heel moeilijk onderwerp. Vooral voor een bachelor-thesis, laat staan een master-thesis.

Het is enorm motiverend en fascinerend, alleen soms is het méér dan irritant als het programmeren niet meezit.

quote:
Op zaterdag 29 april 2017 04:29 schreef CapnIzzy het volgende:

[..]

Waarom doe je het dan?

zaterdag 29 april 2017 @ 19:20:10 #197

CapnIzzy

Geef aye voor de kapitein

quote:
Op zaterdag 29 april 2017 16:15 schreef Super-B het volgende:

[..]

[..]

Zo motiverend dat je je statitische deel van je scriptie moet navragen op een forum?

Onoverwinnelijk/Rotterdam/Zeerover
https://www.playgwent.com/en/ - Official beta of Gwent: The Witcher Gard Game

zaterdag 29 april 2017 @ 20:22:26 #198

Mishu

Fok verslaafde

quote:
Op zaterdag 29 april 2017 19:20 schreef CapnIzzy het volgende:

[..]

Zo motiverend dat je je statitische deel van je scriptie moet navragen op een forum?

Ik wist toen ik begon aan mijn scriptie ook niks van logistische regressie maar gelukkig was er genoeg over te vinden.

maandag 8 mei 2017 @ 23:03:31 #199

bbroeders

....

Hallo! Ik ben bezig met de afrondende fase van mijn thesis. Ik heb alle data binnen en ben bezig met analyse en schrijven, helaas loop ik vast met de statistiek. Ik heb via een Log10 transformatie de data van een test op twee meetmomenten T1 en T2 normaal verdeeld kunnen krijgen. Nu is de vraag hoe ik dit moet rapporteren.

We moeten schrijven volgens de PT Journal richtlijnen, waar staat dat je bij normaal verdeelde data de mean en sd moet geven, niet normaal de mediaan en range. Wat moet ik nu aangeven bij de getransformeerde data? Toch de mediaan en range, de mean en sd van de originele data of de mean en sd van de getransformeerde data? En moet ik in het laatste geval ook aangeven dat het om de geometric mean gaat?

Als ik op de getransformeerde data een t-toets uitvoer, wat moet ik dan gebruiken voor de effect size? Normaal gebruik ik een 95% BI, maar ik heb begrepen dat als je de 95% BI terug transformeerd, dat je dan alleen iets kan zeggen over de ratio.

zondag 28 mei 2017 @ 22:02:09 #200

poker4lifee

yoyo,
ook een vraagje over welke spss toets ik moet gebruiken

Ik heb een random 2x2 dus stel 1 of 2 en 3 of 4 (iemand kan 1,3 zijn of 1,4 of 2,3 of 2,4) en ik wil weten of bijvoorbeeld 1,3 significant hoger/lager scoort op een variabele (met een 5 puntsschaal) vergeleken met groep 2,3

is dat gewoon een 2 way anova?

'If you really think that the environment is less important than the economy try holding your breath while you count your money'

zondag 28 mei 2017 @ 22:18:23 #201

CapnIzzy

Geef aye voor de kapitein

quote:
Op maandag 8 mei 2017 23:03 schreef bbroeders het volgende:
Hallo! Ik ben bezig met de afrondende fase van mijn thesis. Ik heb alle data binnen en ben bezig met analyse en schrijven, helaas loop ik vast met de statistiek. Ik heb via een Log10 transformatie de data van een test op twee meetmomenten T1 en T2 normaal verdeeld kunnen krijgen. Nu is de vraag hoe ik dit moet rapporteren.

We moeten schrijven volgens de PT Journal richtlijnen, waar staat dat je bij normaal verdeelde data de mean en sd moet geven, niet normaal de mediaan en range. Wat moet ik nu aangeven bij de getransformeerde data? Toch de mediaan en range, de mean en sd van de originele data of de mean en sd van de getransformeerde data? En moet ik in het laatste geval ook aangeven dat het om de geometric mean gaat?

Als ik op de getransformeerde data een t-toets uitvoer, wat moet ik dan gebruiken voor de effect size? Normaal gebruik ik een 95% BI, maar ik heb begrepen dat als je de 95% BI terug transformeerd, dat je dan alleen iets kan zeggen over de ratio.

Wat voor soort variabele is het precies

Onoverwinnelijk/Rotterdam/Zeerover
https://www.playgwent.com/en/ - Official beta of Gwent: The Witcher Gard Game

dinsdag 30 mei 2017 @ 16:12:50 #202

koffiehagedis

Dus.

Hi iedereen, ik probeer een dataset te maken in SPSS. De data bestaat uit een enquête met vragen op nominaal niveau. In de enquête zijn per vraag 7 antwoordmogelijkheden, en de optie 'anders, namelijk...'. Ik snap hoe ik een dataset moet opstellen zonder die laatste optie, maar kom er niet uit hoe ik de 'anders, namelijk...' verwerk. Heeft iemand tips in ruil voor eeuwige dankbaarheid?

dinsdag 30 mei 2017 @ 18:43:12 #203

Z

quote:
Op dinsdag 30 mei 2017 16:12 schreef koffiehagedis het volgende:
Hi iedereen, ik probeer een dataset te maken in SPSS. De data bestaat uit een enquête met vragen op nominaal niveau. In de enquête zijn per vraag 7 antwoordmogelijkheden, en de optie 'anders, namelijk...'. Ik snap hoe ik een dataset moet opstellen zonder die laatste optie, maar kom er niet uit hoe ik de 'anders, namelijk...' verwerk. Heeft iemand tips in ruil voor eeuwige dankbaarheid?

Je kan een waarde toevoegen voor 'anders namelijk'. In marktonderzoek krijgt deze meestal een waarde als 99999996. En dan een nieuwe variabele toevoegen voor de tekstdata. Zo kan je in ieder geval de 'anders, namelijk' op totaalniveau meenemen in de analyse. Als de tekstsdata echt wil analyseren moet je deze moeten coderen. Of, een wat kwalitatievere optie, een woordenwolk maken oid.

Aldus.

dinsdag 30 mei 2017 @ 18:54:57 #204

ZuidGrens

VI Hooligans

quote:
Op dinsdag 30 mei 2017 18:43 schreef Z het volgende:

[..]

Je kan een waarde toevoegen voor 'anders namelijk'. In marktonderzoek krijgt deze meestal een waarde als 99999996. En dan een nieuwe variabele toevoegen voor de tekstdata. Zo kan je in ieder geval de 'anders, namelijk' op totaalniveau meenemen in de analyse. Als de tekstsdata echt wil analyseren moet je deze moeten coderen. Of, een wat kwalitatievere optie, een woordenwolk maken oid.

Dat is wel de meest handige (en volgens mij ook een redelijk vaak voorkomende) optie inderdaad.

Forum Opties
Forumhop:
Hop naar:	(afkorting, bv 'KLB')

» school, studie en onderwijs

» school, studie en onderwijs