quote:Op vrijdag 21 maart 2014 14:44 schreef motorbloempje het volgende:
Nou, abstract ingeleverd! Spanning ende sensatie.
Hij was irritant gaaf aan het doen in het begin en zijn Diederik Stapel recap klopte al bij de eerste zin niet, daarna heb ik het gefrustreerd afgezetquote:Op zondag 23 maart 2014 20:27 schreef Felagund het volgende:
Redelijke interessante lezing over fraude in de wetenschap:
Hoewel ik het niet eens ben met zijn conclusie dat de wetenschap geen antwoorden moet/mag geven, zegt hij wel rake dingen. Bijvoorbeeld de focus bij publicaties op kwantiteit en niet kwaliteit, het niet publiceren van negatieve resultaten en problemen bij het reproduceren van onderzoek. Het blijft helaas wel een beetje oppervlakkig.
Net even gekeken.quote:Op zondag 23 maart 2014 20:27 schreef Felagund het volgende:
Redelijke interessante lezing over fraude in de wetenschap:
Hoewel ik het niet eens ben met zijn conclusie dat de wetenschap geen antwoorden moet/mag geven, zegt hij wel rake dingen. Bijvoorbeeld de focus bij publicaties op kwantiteit en niet kwaliteit, het niet publiceren van negatieve resultaten en problemen bij het reproduceren van onderzoek. Het blijft helaas wel een beetje oppervlakkig.
Hij is idd geen held in presentatie geven. Hij komt op het einde ook niet tot een conclusie op zijn stelling die hij in het begin stelt (alle wetenschappers zijn fraudeurs). Waarom hij de fraudeurs bij haalt is mij ook niet heel duidelijk. Maar de discussie i.h.a. lijkt mij nog steeds interessant. Ik vroeg mij ook af of de geschetste problemen afhankelijk zijn van het onderzoeksveld.quote:Op zondag 23 maart 2014 22:55 schreef Operc het volgende:
[..]
Net even gekeken.
Wat een vermoeiende kerel is dat zeg. Hij zegt ook weinig nieuws, maar als er in die zaal voornamelijk mensen zitten die niets met een universiteit te maken hebben dan kan ik me voorstellen dat het interessant is.
Vooral bij het stuk over wetenschappers die bij Pauw en Witteman zeggen dat als een experiment soms lukt en soms niet dat "hun hypothese niet geverifieerd is" snapte ik zijn punt niet. Dat niet alle (niet significante) studies worden gepubliceerd klopt, maar met dit voorbeeld is niets mis. Niet significante resultaten bewijzen immers niet dat het tegenovergestelde van de hypothese waar is dus is het logisch dat een wetenschapper zegt dat de hypothese niet geverifieerd is.
Inmiddels zijn er ook journals die focussen op effect sizes in plaats van p-waardes, juist om het hele niet-significante-resultaten-circus te verminderen. Klinkt als een goede zet, al vraag ik me af of dit de publication bias echt gaat verminderen.
Laatste punt is dat ik het niet heel zinvol vond om citaten van Stapel te gebruiken om uit te leggen wat er mis is in de wetenschap en dit te generaliseren naar alle wetenschappers. Het staat ook haaks op zijn opmerking dat je niet zomaar je onderzoeksresultaten kunt generaliseren naar een grotere populatie (met zijn voorbeeld over Amsterdammers interviewen.)
effect sizes helpen daar an sich weinig bij. een d van .01 kan superbelangrijk zijn of er totaal niet toe doen.quote:Op zondag 23 maart 2014 23:40 schreef Felagund het volgende:
[..]
Hij is idd geen held in presentatie geven. Hij komt op het einde ook niet tot een conclusie op zijn stelling die hij in het begin stelt (alle wetenschappers zijn fraudeurs). Waarom hij de fraudeurs bij haalt is mij ook niet heel duidelijk. Maar de discussie i.h.a. lijkt mij nog steeds interessant. Ik vroeg mij ook af of de geschetste problemen afhankelijk zijn van het onderzoeksveld.
Ik snap je tweede punt niet echt. Je kan je (alternatieve) hypothese sowieso niet verifiėren, omdat je bij een statistische test altijd je nullhypothese aanneemt. Het is dus eerder andersom: dat een experiment statistisch significant is wil nog niet zeggen dat je (alternatieve) hypothese waar/aannemelijk is.
Het probleem van de klassieke t-test is dat als je maar genoeg data hebt je ieder futiel verschil significant kan maken. Volgens mij zijn effect sizes vooral bedoeld om dat probleem te verhelpen/voorkomen.
Dat gaat meer om de maatschappelijke relevantie van het resultaat. Daar kun je sowieso statistisch weinig over zeggen.quote:Op zondag 23 maart 2014 23:47 schreef oompaloompa het volgende:
[..]
effect sizes helpen daar an sich weinig bij. een d van .01 kan superbelangrijk zijn of er totaal niet toe doen.
verbetering van behandeling tegen kanker? fantastisch
verhoging schoolprestaties na investering 10k per student? waardeloos
als je stelling is dat elk futiel verschil vanzelf statistisch significant is geef je aan dat statistische significantie dus niet iets is waar je het op wilt beoordelen, de andere opties zijn al snel maatschappelijk of theoretisch, allebei zijn niet per se afhankelijk van de effect size dus effect size an sich kan nooit de oplossing voor dat probleem zijn.quote:Op zondag 23 maart 2014 23:53 schreef Felagund het volgende:
[..]
Dat gaat meer om de maatschappelijke relevantie van het resultaat. Daar kun je sowieso statistisch weinig over zeggen.
Nee, mijn stelling was dat je een futiel verschil significant kan maken door de sample size te vergroten. Dus d=0.0000001 is ook significant te maken. Als je maar genoeg data hebt. Statistische significantie is dus afhankelijk van de grootte van je sample, effect sizes geven duidelijker een verschil hoe groot het verschil nu echt is (in verhouding tot de variantie). Meer heb ik niet gezegd.quote:Op zondag 23 maart 2014 23:56 schreef oompaloompa het volgende:
[..]
als je stelling is dat elk futiel verschil vanzelf statistisch significant is geef je aan dat statistische significantie dus niet iets is waar je het op wilt beoordelen, de andere opties zijn al snel maatschappelijk of theoretisch, allebei zijn niet per se afhankelijk van de effect size dus effect size an sich kan nooit de oplossing voor dat probleem zijn.
Maar waarom is dat dan een probleem?quote:Op maandag 24 maart 2014 00:00 schreef Felagund het volgende:
[..]
Nee, mijn stelling was dat je een futiel verschil significant kan maken door de sample size te vergroten. Dus d=0.0000001 is ook significant te maken. Als je maar genoeg data hebt. Statistische significantie is dus afhankelijk van de grootte van je sample, effect sizes geven duidelijker een verschil hoe groot het verschil nu echt is (in verhouding tot de variantie). Meer heb ik niet gezegd.
Omdat het verschil tussen d=2.00 en d=0.01 vrij groot is? Een t-test geeft je die informatie niet, je p-value is ook afhankelijk van de grootte van je sample.quote:Op maandag 24 maart 2014 00:00 schreef oompaloompa het volgende:
[..]
Maar waarom is dat dan een probleem?
Misschien praten we helemaal langs elkaar heen / heb ik je totaal verkeerd begrepen, maar daar is een p-waarde ook niet voor. Dus ik snap niet zo goed dat je zegt dat het een probleem is dat iets iets niet doet waar het sowieso niet voor bedoeld is. Maar als dat het probleem is dan is effect-size inderdaad een oplossing omdat dat daar wel voor bedoeld is.quote:Op maandag 24 maart 2014 00:24 schreef Felagund het volgende:
[..]
Omdat het verschil tussen d=2.00 en d=0.01 vrij groot is? Een t-test geeft je die informatie niet, je p-value is ook afhankelijk van de grootte van je sample.
Ik bedoelde idd niet direct de p-waarde, maar of je een significant resultaat krijgt. Dat is afhankelijk van hoeveel datapunten je hebt. Dus als je maar vaak genoeg meet kun je ieder resultaat significant krijgen. Oorspronkelijk was de t-test bedoeld om een verschil in gemiddelde aan te tonen. Een t-test zegt niet hoe groot dat verschil is. Het verschil in gemiddelde bij een significant resultaat (zeg met p=0.05) is kleiner naarmate je meer datapunten hebt. Het gevaar zit er dus bij een grote sample in dat bij een significant verschil dat je kan denken dat het verschil ook groot moet zijn. Terwijl dit helemaal niet hoeft te zijn.quote:Op maandag 24 maart 2014 00:28 schreef oompaloompa het volgende:
[..]
Misschien praten we helemaal langs elkaar heen / heb ik je totaal verkeerd begrepen, maar daar is een p-waarde ook niet voor. Dus ik snap niet zo goed dat je zegt dat het een probleem is dat iets iets niet doet waar het sowieso niet voor bedoeld is. Maar als dat het probleem is dan is effect-size inderdaad een oplossing omdat dat daar wel voor bedoeld is.
We praten langs elkaar heenquote:Op maandag 24 maart 2014 00:37 schreef Felagund het volgende:
[..]
Ik bedoelde idd niet direct de p-waarde, maar of je een significant resultaat krijgt. Dat is afhankelijk van hoeveel datapunten je hebt. Dus als je maar vaak genoeg meet kun je ieder resultaat significant krijgen. Oorspronkelijk was de t-test bedoeld om een verschil in gemiddelde aan te tonen. Een t-test zegt niet hoe groot dat verschil is. Het verschil in gemiddelde bij een significant resultaat (zeg met p=0.05) is kleiner naarmate je meer datapunten hebt. Het gevaar zit er dus bij een grote sample in dat bij een significant verschil dat je kan denken dat het verschil ook groot moet zijn. Terwijl dit helemaal niet hoeft te zijn.
Maar nu volg ik jou niet meer.
Volgens mij zijn we het idd eens, het probleem is misschien meer dat t-testen vaak misbruikt worden om een groot verschil aan te duiden. Terwijl een t-test daar dus niets over zegt. Dat is wel vrij problematisch. Zeker in mijn vakgebied, waar effect sizes nog niet echt (veel) gebruikt worden.quote:Op maandag 24 maart 2014 00:44 schreef oompaloompa het volgende:
[..]
We praten langs elkaar heen
Een t-test is niet echt bedoel om een verschil in gemiddelden aan te geven maar om aan te geven of het waarschijnlijk is zo'n verschil tussen groepen steekproeven te vinden als ze in de werkelijkheid niet verschillen. Een p-value is vrijwel hetzelfde maar ipv sig / ns geeft de p-waarde de kans aan zulke verschillen of groter tussen steekproeven te vinden als de groepen in de werkelijkheid niet verschillen.
De maten zijn dus niet bedoeld om de grootte van het verschil aan te geven, daar zijn effect sizes voor.
het is dus een beetje vreemd om te zeggen dat een probleem van p-waardes / t-toetsen is dat ze niet aangeven hoe groot een effect is omdat ze daar nooit voor bedoeld waren
Maar dit is nogal semantisch geneuzel en volgens mij zijn we het eigenlijk helemaal eens
yeap,quote:Op maandag 24 maart 2014 00:53 schreef Felagund het volgende:
[..]
Volgens mij zijn we het idd eens, het probleem is misschien meer dat t-testen vaak misbruikt worden om een groot verschil aan te duiden. Terwijl een t-test daar dus niets over zegt. Dat is wel vrij problematisch. Zeker in mijn vakgebied, waar effect sizes nog niet echt (veel) gebruikt worden.
Het mag dan een semantisch geneuzel zijn, het correct gebruik en interpretatie van statistiek is wel belangrijk vind ik.
Hij lijkt het expres te doen om een beetje tof over te komen, maar doet mij vooral denken aan een cabaretier die vergeten is grappen in zijn praatje te verwerken.quote:Op zondag 23 maart 2014 23:40 schreef Felagund het volgende:
[..]
Hij is idd geen held in presentatie geven.
Ik zal proberen het wat te verduidelijken: Bij een p-waarde van kleiner dan .05 wordt de nulhtpothese verworpen en de alternatieve hypthese (doorgaans dat er een verschil is tussen de groepen) aangenomen. Als de p-waarde groter of gelijk aan .05 is, wordt de nulhypothese behouden. Net zoals een verworpen nulhypothese geen garantie geeft dat de nulhyothese fout is en de alternatieve hypothese waar is, zo geeft een behouden nulhypothese geen garantie dat deze waar is en dat de alternatieve hypothese fout is. Dus op het moment dat de nulhypothese niet wordt verworpen, dan heb je geen uitsluitsel waar dat nu precies aan ligt (een van de redenen waarom niet-significante resultaten moeilijk publiceerbaar zijn.)quote:Ik snap je tweede punt niet echt. Je kan je (alternatieve) hypothese sowieso niet verifiėren, omdat je bij een statistische test altijd je nullhypothese aanneemt. Het is dus eerder andersom: dat een experiment statistisch significant is wil nog niet zeggen dat je (alternatieve) hypothese waar/aannemelijk is.
Klopt, alleen wordt door het 95% betrouwbaarheidsinterval meteen zichtbaar of het effect volgens alfa =.05 significant is. Het niet rapporteren van de p-waarde voegt dus weinig toe omdat je het aan het betrouwbaarheidsinterval al kunt aflezen. Ik vraag me daarom af hoe reviewers omgaan met de verschuiving naar "alleen effect sizes rapporteren."quote:Het probleem van de klassieke t-test is dat als je maar genoeg data hebt je ieder futiel verschil significant kan maken. Volgens mij zijn effect sizes vooral bedoeld om dat probleem te verhelpen/voorkomen.
Grappig hoe serieus jullie reageren op dit filmpje. Ik zie het veel meer als een column, waarbij hij gaaf doet voor de coole online university van Alexander Clubbing.. Gewoon ff door de vorm heen kijken. Hij zegt idd niet zoveel nieuws maar het blijft wel goed om attent te blijven op de druk om gewenste onderzoeken en resultaten te produceren.quote:Op zondag 23 maart 2014 20:27 schreef Felagund het volgende:
Redelijke interessante lezing over fraude in de wetenschap:
Forum Opties | |
---|---|
Forumhop: | |
Hop naar: |