In SPSS gebruik je de optie 'exclude cases pairwise' om missing values eruit te halen.quote:Op zaterdag 22 april 2017 22:28 schreef Super-B het volgende:
[..]
Ik heb drie Excel-data files uit CompuStat global gehaald:
1. Maandelijkse MSCI-World index prices
2. Maandelijkse financial statement data (zoals P/E ratio, B/P ratio) van verschillende bedrijven over de periode 1990-2017. De bedrijven hebben allemaal een company-key als filter-optie in Excel.
Wat ik moet doen, en waar ik niet uit kom, is het volgende:
- In dataset 2 zijn er een hoop missing values:
* sommige bedrijven hebben geen waarden voor één of meerdere variabelen op bepaalde tijdspunten. En daarnaast hebben niet alle bedrijven een tijdsperiode van 1950 tot 2017, sommige hebben een periode van 1993-2017, bijvoorbeeld.
Dan is mijn vraag dus, hoe los ik dit op en hoe kan ik dit het beste mergen in Excel/STATA?
Wat doet die functie dan precies? Het zou fijn zijn als ik in Excel/STATA een functie heb waarbij alle rows van de desbetreffende firm en dus de firm uit de data wordt verwijderd op het moment dat er missing values zijn.quote:
Ik zou de term even googelen. Ik Google ook veel. Ik zou anders je dataset in SPSS voorbereiden en dan in het andere programma verder gaan.quote:Op maandag 24 april 2017 00:26 schreef Super-B het volgende:
[..]
Wat doet die functie dan precies? Het zou fijn zijn als ik in Excel/STATA een functie heb waarbij alle rows van de desbetreffende firm en dus de firm uit de data wordt verwijderd op het moment dat er missing values zijn.
Met Excel kan ik automatisch rows laten verwijderen op het moment dat er missing values zijn, maar dan verwijdert Excel alleen één of meerdere jaren van een bepaalde firm. Nog steeds zit de firm er dan in, met 'gebroken' jaren, bijvoorbeeld 1995-2010 en dan 2013-2016.... En ik wil dan gewoon dat dan de firm dan gewoon helemaal uit de sample wordt verwijderd.
Handmatig is grofweg onmogelijk met zowat 200.000 observaties...
Iemand die mij hieruit kan helpen?
Dus op het moment dat er één of meerdere variabelen (kolommen) een missing value heeft in één of meerdere rijen (jaren) ---> dan gewoon alle rijen m.b.t. de firm verwijderen... Het ziet er ongeveer zo uit:
[ afbeelding ]
Kan dit niet beter met Access?quote:Op maandag 24 april 2017 00:26 schreef Super-B het volgende:
[..]
Wat doet die functie dan precies? Het zou fijn zijn als ik in Excel/STATA een functie heb waarbij alle rows van de desbetreffende firm en dus de firm uit de data wordt verwijderd op het moment dat er missing values zijn.
Met Excel kan ik automatisch rows laten verwijderen op het moment dat er missing values zijn, maar dan verwijdert Excel alleen één of meerdere jaren van een bepaalde firm. Nog steeds zit de firm er dan in, met 'gebroken' jaren, bijvoorbeeld 1995-2010 en dan 2013-2016.... En ik wil dan gewoon dat dan de firm dan gewoon helemaal uit de sample wordt verwijderd.
Handmatig is grofweg onmogelijk met zowat 200.000 observaties...
Iemand die mij hieruit kan helpen?
Dus op het moment dat er één of meerdere variabelen (kolommen) een missing value heeft in één of meerdere rijen (jaren) ---> dan gewoon alle rijen m.b.t. de firm verwijderen... Het ziet er ongeveer zo uit:
[ afbeelding ]
Ben al zeker een week bezig om over deze drempel heen te komen. Ben de term die in 1 woord beschrijft wat ik wil, helaas, niet tegengekomen....quote:Op maandag 24 april 2017 10:56 schreef Mishu het volgende:
[..]
Ik zou de term even googelen. Ik Google ook veel. Ik zou anders je dataset in SPSS voorbereiden en dan in het andere programma verder gaan.
Zou ik in een macro doen. En ik vermoed dat dit gemakkelijk in Python kan, maar dat ken ik niet goed genoeg om je verder te helpen.quote:Op maandag 24 april 2017 00:26 schreef Super-B het volgende:
[..]
Wat doet die functie dan precies? Het zou fijn zijn als ik in Excel/STATA een functie heb waarbij alle rows van de desbetreffende firm en dus de firm uit de data wordt verwijderd op het moment dat er missing values zijn.
Met Excel kan ik automatisch rows laten verwijderen op het moment dat er missing values zijn, maar dan verwijdert Excel alleen één of meerdere jaren van een bepaalde firm. Nog steeds zit de firm er dan in, met 'gebroken' jaren, bijvoorbeeld 1995-2010 en dan 2013-2016.... En ik wil dan gewoon dat dan de firm dan gewoon helemaal uit de sample wordt verwijderd.
Handmatig is grofweg onmogelijk met zowat 200.000 observaties...
Iemand die mij hieruit kan helpen?
Dus op het moment dat er één of meerdere variabelen (kolommen) een missing value heeft in één of meerdere rijen (jaren) ---> dan gewoon alle rijen m.b.t. de firm verwijderen... Het ziet er ongeveer zo uit:
[ afbeelding ]
Hoe heet het wat ik wil doen eigenlijk?quote:Op maandag 24 april 2017 16:49 schreef Z het volgende:
[..]
Zou ik in een macro doen. En ik vermoed dat dit gemakkelijk in Python kan, maar dat ken ik niet goed genoeg om je verder te helpen.
Je moet in stappen denken bij een Excel macro. Iets van:quote:Op maandag 24 april 2017 17:56 schreef Super-B het volgende:
[..]
Hoe heet het wat ik wil doen eigenlijk?
Ik denk dat ik niet de eerste ben met een soortgelijke vraag. Echter kan ik het niet vinden op Google, maar dat is omdat ik niet zoek op de juiste trefwoorden helaas.quote:Op maandag 24 april 2017 18:54 schreef Z het volgende:
[..]
Je moet in stappen denken bij een Excel macro. Iets van:
Stap 1: Maak een lijst van bedrijven met een missende waarden.
Stap 2: Loop door deze lijst.
Stap 3: Wis eerste regel van het eerste bedrijf.
Stap 4: Wis de volgende regel van het eerste bedrijf.
Stap 5: Ga door tot je geen regels meer vindt.
Stap 6: Volgende bedrijf
Macro's schrijven vereist wel enige oefening maar het is ook weer niet heel moeilijk. Je zou het even in het Excel-topic kunnen vragen. Daar zitten een aantal Excel-wizzards.
Ik heb met de Python-module voor SPSS wel eens kolommen met lege waarden verwijderd in SPSS, dat kan SPSS zelf niet. Ik kan me voorstellen dat Python ook jouw probleem op zou kunnen lossen. Maar geen idee hoe precies.
Voor wat betreft EFA (explorative factor analysis) klopt het. Je hebt ook een ander soort factor analyse, namelijk CFA (confirmative factor analysis). Hierbij specificeer je vooraf hoeveel factoren er zijn en hoe deze samenhangen met je variabelen. Je kan dan ook verschillende modellen toetsen en kijken welk voorspelde model het beste past. Hier kan je ook meer over vinden onder de naam structural equation modeling.quote:Op woensdag 26 april 2017 14:05 schreef Mishu het volgende:
Vraagje: klopt het dat factoranalyse vooral een exploratieve inductieve methode is?
Want je gaat gewoon kijken wat de afhankelijke variabele het beste verklaard en je selecteert dus niet de onafhankelijke variabelen vooraf op basis van de theorie die je vervolgens test? Toch?
Ander vraagje: ik gebruik ook een panelstudie. Ik heb in mijn ondertitel staan: door middel van een panelstudie. Maar de methode die ik gebruik is logistische regressie. Hoe staat dat nou in verhouding tot elkaar? Is de panelstudie mijn dataset en logistische regressie mijn methode? Wat zouden jullie in de ondertitel zetten: panelstudie of logistische regressie?
Ik dacht dat panelstudie betekende een samengestelde dataset. Ik doe inderdaad geen longitudinaal onderzoek. Aanpassen dus?quote:Op vrijdag 28 april 2017 14:44 schreef crossover het volgende:
[..]
Voor wat betreft EFA (explorative factor analysis) klopt het. Je hebt ook een ander soort factor analyse, namelijk CFA (confirmative factor analysis). Hierbij specificeer je vooraf hoeveel factoren er zijn en hoe deze samenhangen met je variabelen. Je kan dan ook verschillende modellen toetsen en kijken welk voorspelde model het beste past. Hier kan je ook meer over vinden onder de naam structural equation modeling.
Je andere vraagje: ik zou het bij panelstudie houden, of eventueel longitudinaal design, want daar gaat het dan vooral om, de methode is minder relevant want logistische regressie kan je ook in ander soorten designs gebruiken. Overigens dacht ik dat je met logistische regressie geen herhaalde metingen kan doen, maar je bedoelt wellicht multilevel logistic regression?
Volgens mij heb je echt een heel moeilijk onderwerp ik ben geen expert hierin dus sterkte. Ik weet wel inmiddels dat reguliere regressie enorm vastloopt als er missing values zijn.quote:Op vrijdag 28 april 2017 22:28 schreef Super-B het volgende:
Daar ben ik weer met een STATA-gerelateerde vraag ;
Ik heb voor mijn dataset stock-returns berekend aan de hand van de aandelenprijzen van het jaar daarvoor. Echter stuit ik nu tegen het probleem aan dat, in mijn panel-data, het eerste jaar van ieder bedrijf een missing value heeft voor de nieuwe variabele (Stock-returns).
Hoe moet ik hier nu mee omgaan in mijn verdere analyses zoals regressions e.d.? Het eerste jaar kan ik niet zomaar verwijderen/excluden, omdat het daaropvolgende jaar dan gewoon door STATA als het eerste jaar wordt geidentificeerd waardoor ik wel oneindig door kan gaan met excluden totdat ik geen data meer over heb...
Wat kan ik het beste doen?
Als ik mijn professor moet geloven, is het inderdaad een heel moeilijk onderwerp. Vooral voor een bachelor-thesis, laat staan een master-thesis.quote:Op vrijdag 28 april 2017 22:54 schreef Mishu het volgende:
[..]
Volgens mij heb je echt een heel moeilijk onderwerp ik ben geen expert hierin dus sterkte. Ik weet wel inmiddels dat reguliere regressie enorm vastloopt als er missing values zijn.
Waarom doe je het dan?quote:Op vrijdag 28 april 2017 23:16 schreef Super-B het volgende:
[..]
Als ik mijn professor moet geloven, is het inderdaad een heel moeilijk onderwerp. Vooral voor een bachelor-thesis, laat staan een master-thesis.
Het is enorm motiverend en fascinerend, alleen soms is het méér dan irritant als het programmeren niet meezit.
Je kunt toch eerst die returns uitrekenen en vervolgens het eerste jaar weggooien? Dan hou je een dataset over met vanaf het begin alle waarden.quote:Op vrijdag 28 april 2017 22:28 schreef Super-B het volgende:
Daar ben ik weer met een STATA-gerelateerde vraag ;
Ik heb voor mijn dataset stock-returns berekend aan de hand van de aandelenprijzen van het jaar daarvoor. Echter stuit ik nu tegen het probleem aan dat, in mijn panel-data, het eerste jaar van ieder bedrijf een missing value heeft voor de nieuwe variabele (Stock-returns).
Hoe moet ik hier nu mee omgaan in mijn verdere analyses zoals regressions e.d.? Het eerste jaar kan ik niet zomaar verwijderen/excluden, omdat het daaropvolgende jaar dan gewoon door STATA als het eerste jaar wordt geidentificeerd waardoor ik wel oneindig door kan gaan met excluden totdat ik geen data meer over heb...
Wat kan ik het beste doen?
quote:Op vrijdag 28 april 2017 23:16 schreef Super-B het volgende:
[..]
Als ik mijn professor moet geloven, is het inderdaad een heel moeilijk onderwerp. Vooral voor een bachelor-thesis, laat staan een master-thesis.
Het is enorm motiverend en fascinerend, alleen soms is het méér dan irritant als het programmeren niet meezit.
quote:
Zo motiverend dat je je statitische deel van je scriptie moet navragen op een forum?quote:
Ik wist toen ik begon aan mijn scriptie ook niks van logistische regressie maar gelukkig was er genoeg over te vinden.quote:Op zaterdag 29 april 2017 19:20 schreef CapnIzzy het volgende:
[..]
Zo motiverend dat je je statitische deel van je scriptie moet navragen op een forum?
Forum Opties | |
---|---|
Forumhop: | |
Hop naar: |