Je stelt dat correlatie samenhang is. Dat klopt niet.
Correlatie is een maat voor samenhang. Net als Cohen's $d$. En de $t$-waarde. Die laatste heeft als nadeel dat hij niet alleen afhankelijk is van hoe sterk de samenhang is, maar ook van de steekproefomvang. De correlatie en Cohen's $d$ zijn gestandaardiseerd, en hebben daar geen last meer van.
Dus: een verschil tussen twee gemiddelden is samenhang.
Die twee gemiddelden komen uit twee groepen. Die groepen zijn niets meer dan meetwaarden van een dichotome variabele. Als je bijvoorbeeld mannen en vrouwen vergelijkt op hun intelligentie, betreft dit de variabelen geslacht en intelligentie. Als de gemiddelde van mannen en vrouwen in de steekproef dermate ver uit elkaar liggen in vergelijking met de standaardfout dat het aannemelijk is dat die gemiddelden in de populatie ook verschillen, dan is er dus samenhang tussen geslacht en intelligentie.
Of je groepen vergelijkt is dus niets anders dan een ander perspectief op hetzelfde: het analyseren van een verband.
Alle statistiek (behalve univariate statistiek) gaat om verbanden.
Het is dus een misverstand (en fout) om te denken dat er twee soorten analyses zijn: analyses waarbij je naar een verband kijkt, en analyses waarbij je groepen vergelijkt. Bij al deze analyses doe je hetzelfde, en kijk je naar een verband. Je kunt categorische variabelen zien als variabelen die door middel van hun meetwaarden (man of vrouw; hun categorieen, dus) groepen creeeren - maar dit verandert niets aan het feit dat het gewoon variabelen zijn, en dat je een verband analyseert.
Dus, samenhang bestuderen zegt niets over of je correlaties gebruikt of Cohen's $d$ (of omegakwadraat). Deze worden allemaal gebruikt voor samenhang. Het enige dat je weet als er een correlatie wordt gebruikt, is dat alle variabelen het intervalniveau hebben, terwijl je bij Cohen's $d$ weet dat een van de variabelen het intervalniveau heeft en de andere dichotoom is.
Een Cohen's $d$ van 0.17 betekent inderdaad dat het verband in je steekproef erg zwak is. Natuurlijk kan het verband in de populatie nog steeds heel sterk (of afwezig) zijn: hoe plausibel dat is, kun je zien aan het betrouwbaarheidsinterval van Cohen's $d$.
De $p$-waarde is de kans op een verband (samenhang) dat zo sterk is als dat wat jij in je steekproef hebt gevonden, aangenomen dat er in de populatie geen verband bestaat (Cohen's $d = 0$).
Als deze kans erg laag is (bijvoorbeeld $.001$ of lager) dan betekent dat dat de kans dat je dat verband in je steekproef vindt als de nulhypothese klopt, heel klein is. Binnen het kader van de nulhypothese toetsing wordt dit geinterpreteerd als evidentie dat de nulhypothese wellicht niet klopt, en dat het aannemelijk is dat het getoetste verband bestaat in de populatie.
Dus, je zou dan inderdaa concluderen dat deze dataset suggereert dat het onderzochte verband bestaat: in die zin klopt jouw interpretatie.
De volgende vraag is dan: hoe sterk is dat verband? Want ook triviale, verwaarloosbare verbanden kunnen gepaard gaan met hele lage $p$-waarden. In dit geval hebben we een lage $p$-waarde gevonden, maar misschien komt dat wel omdat we een relatief grote steekproef hebben (of om een andere reden heel veel power hebben), en niet omdat het verband noemenswaardig is.
Om die vraag te beantwoorden bereken je een effectgrootte, in dit geval Cohen's $d$; met daar omheen een betrouwbaarheidsinterval, omdat de puntschatting van steekproef tot steekproef kan verschillen, en dus bijna niets zegt. Dat betrouwbaarheidsinterval vertelt je wat de meest plausibele waarden voor Cohen's $d$ zijn in de populatie, en dat is wat je eigenlijk vooral wil weten: hoe sterk is het verband in de populatie?
Als je alleen de puntschatting tot je beschikking hebt, zoals in dit geval, dan kun je alleen zeggen dat deze dataset consistent is met een triviaal, misschien zelfs verwaarloosbaar klein verband (samenhang) tussen de twee variabelen. Oftewel: voor zover de gemiddelden verschillen in de populatie, kan dat een superklein verschil zijn.
Het zou ook een groot verschil kunnen zijn: hoe plausibel dat is, kunnen we niet zeggen zonder betrouwbaarheidsinterval.
Significantie (een $p$-waarde onder je alpha, meestal onder de .05) zegt dus niets over hoe sterk de samenhang is. Die zegt alleen dat je, binnen dat kader van nulhypothesetoetsing, kunt concluderen dat er wellicht een verband (van onbekende grootte) bestaat in de populatie. Dat verband kan verwaarloosbaar klein zijn, of heel sterk: alleen een effectgrootte zoals Cohen's $d$ kan je daar iets over vertellen.
Of, je kunt het ruwe verschil tussen de gemiddelden zelf vergelijken met de standaarddeviatie en de standaardfout, en dan op basis van je kennis over de meetschaal van de intervalvariabele (bijvoorbeeld intelligentie, in het voorbeeld hierbove) zelf de sterkte van het verband interpreteren. Dat is alleen wat lastiger, en vereist forse expertise, en hoef je dus tijdens deze eerste cursus nog niet te kunnen.
Is het zo te volgen? Zonee, voeg dan een opmerking toe met je vragen - of, als het wat uitgebreidere vragen zijn, stel een gerelateerde vraag met de link hieronder.