Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Is een eenzijdige toetsing niet informatiever (groep A presteert beter, bijv) dan een tweezijdige toetsing?

1 leuk 0 niet-leuks

DAnk je wel voor je heldere uitleg over eenzijdig vs tweezijdig toetsen. Mijn vraag is echter of een eenzijdige toetsing niet sterker (informatiever) is? Als je een verband in een bepaalde richting verwacht, dan is het toch sterker om het ook enkel in die richting te toetsen (en de andere staart ook als ​niet significant te beschouwen, door middel van alpha te veranderen?)

Daniel Lakens heeft hier een blog over geschreven, niet zo lang geleden. Eenzijdig toetsen zou meer moeten voorkomen.

http://daniellakens.blogspot.nl/search?updated-max=2016-03-19T03:17:00-07:00&max-results=7

Bij voorbaat dank,
Remy

gevraagd 1 juni 2016 in Methodologie door RemyHertogs (270 punten)
Niets toe te voegen aan het uitstekende antwoord van Ron; wilde alleen even verwijzen naar mijn reactie op Daniel's blog post (waar ik overigens geen reactie meer op heb gekregen).

De reactie staat op http://sciencer.eu/2016/03/why-one-sided-tests-in-psychology-are-practically-indefensible/

Zie ook https://alexanderetz.com/2015/04/20/pvalue-para/?utm_content=buffere49fb&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

En eventueel https://twitter.com/matherion/status/713281357527515136 voor meer discussie.
Dit soort discussies vind ik eindeloos boeiend, omdat ik hierdoor steeds wat meer inzicht krijg.

Als ik goed begrijp wat jullie zeggen, dan zouden jullie de resultaten van Fishers experiment met de theedrinkende Dame (https://en.wikipedia.org/wiki/Lady_tasting_tea) anders analyseren.

Fisher stelde dat hij zijn nulhypothese (de Dame is niet helderziend) slechts zou verwerpen als ze alle kopjes correct aanduidde. Hij testte dus eenzijdig. Jullie stellen voor om tweezijdig te testen en wanneer de Dame ALLE kopjes verkeerd aanduidt, te rapporteren dat ze significant afweek van de hypothese dat ze niet helderziend was, met weliswaar de opmerking dat ze op verrassende wijze 'omgekeerd helderziend' was?

Merk op de verdeling van uitkomsten van Fishers experiment (als zijn nulhypothese correct was) helemaal symmetrisch was. Er was evenveel kans op 'alles fout' als op 'alles juist'. Er was dus geen 'andere verdeling' zoals Gjalt-Jorn in zijn blog stelt. Fisher hield alleen maar geen rekening met het uiteinde van die ene staart van de verdeling.

Ik denk dat jullie aanpak inderdaad beter is, omdat uitzonderlijke resultaten altijd in de kijker moeten gezet worden, en niet moeten beschouwd worden als een ondersteuning van de nulhypothese. Dat zijn ze immers niet. Ook 'omgekeerde helderziendheid' is interessant, en dient in replicatie verder onderzocht te worden.
Ik zou inderdaad zeggen: je toetsingsframework veronderstelt dat alle afwijkingen uitsluitend het gevolg zijn van normaal verdeelde error. Dus ze kan puur door kans alles fout hebben. In een meta-analyse zou dat effect worden meegenomen als negatieve effect size; sterke evidentie tegen helderziendheid.

Ik zou uitsluitend eenzijdig toetsen in die situatie als het onmogelijk is dat iemand 'omgekeerd helderziend' is. Maar dat is niet onmogelijk; dus zoals je concludeert: je kunt mogelijk iets heel boeiends leren. Dus ja, je hebt helemaal gelijk. Ik zal Fisher even emailen :-)

1 Antwoord

2 leuk 0 niet-leuks
 
Beste antwoord
Eenzijdige toetsing is sterker, maar dat is eigenlijk juist het probleem. Aan een kant van de normaalverdeling kijken levert stiekem meer winst op dan men zich claimt toe te eigenen. Hoewel het totale oppervlakte onder de verdeling gelijk blijft (bij elkaar of aan een kant is het steeds 5%), is de toename van p niet lineair.

Omdat verdelingen eigenlijk niet zijn ontworpen om eenzijdig gebruikt te worden is er in de afgelopen decennia dusdanig veel kritiek op deze praktijk gekomen dat het eigenlijk nu een breedgedragen consensus is om niet meer eenzijdig te toetsen.

Tegenwoordig is het ook minder een 'issue' dan vroeger. Waar niet zo lang geleden onderzoeken stonden of vielen bij de significantie van een effect, wordt nu meer waarde gehecht aan confidence intervals en effectgrootten. Hierdoor voelen steeds meer onderzoekers niet meer de noodzaak om het systeem te 'gamen' voor significante p-waarden.

Addendum: het is eigenlijk ook nog maar een kunstmatige 'kracht'. Er verandert niets aan de toetsing, maar de onderzoeker speelt een spelletje alsof waarnemingen onder het gemiddelde ineens niet meer kunnen bestaan, en geen kans hebben om gevonden te worden of extreem te zijn. Het is daarom niet zo dat de toets meer kracht heeft, maar dat de onderzoeker besluit dat er veel meer waarnemingen extreem mogen worden genoemd. De foutenmarge wordt dan stiekem van 5% naar 10% verlegd. Ik kan mij daarom ook bijzonder slecht vinden in de gelinkte blog; er is echt wel een case te maken voor eenzijdig toetsen, maar die punten komen in de blog niet (overtuigend) aan de orde.
beantwoord 1 juni 2016 door Ron Pat-El (40,810 punten)
geselecteerd 1 juni 2016 door gjp
...