Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Bij een regressie analyse worden zowel een regressievergelijking berekend als een proportie verklaarde variantie. Wat is het verband tussen die 2? Is dat zoals bij een ANOVA en zijn post hoc toetsen? Als je bij een ANOVA uitkomt dat het verschil niet significant is, hoeven de posthoc toetsen niet meer uitgerekend te worden. Geldt dit ook voor een regressieanalyse: als de proportie verklaarde variantie niet significant verschilt van 0, moet dan nog de regressiecoëfficiënt uitgerekend worden? Het viel me op dat bij een enkelvoudige regressie de p-waarde gelijk is voor de R2 als voor b (regressiecoëfficiënt).

Bedankt!
in Multivariate statistiek door (120 punten)
-opmerking verwijderd-

1 Antwoord

0 leuk 0 niet-leuks
Als je 1 voorspeller in je regressiemodel hebt, is het dezelfde toets (namelijk: is de Pearson r gelijk aan 0 of niet).

Als je meerdere voorspellers hebt, toetst de Anova bij regressie-analyse je volledige model, terwijl de regressiecoefficienten juist over individuele voorspellers gaan.

Bij regressie-analyse kun je met de coefficienten een formule bouwen waarmee je voor elke deelnemer in je dataset de beste voorspelling voor de afhankelijke variabele kunt berekenen. Die 'beste voorspelling' kun je dan correleren met de echte geobserveerde waarde voor die afhankelijke variabele. Die correlatie, de multipele correlatie ($R$), wordt getoetst met de Anova.

Dus, hoe beter je regresiecoefficienten werken, hoe hoger je $R$, en dus hoe hoger je $R^2$.

De toetsen van de regressiecoefficienten ($\beta$'s) en de anova hangen dus inderdaad samen!

Als je meerdere voorspellers hebt, en je $R^2$ is niet significant, dan betekent dat dat je model geen significante proportie van de variantie in je afhankelijke variabele voorspelt. Je kunt je afvragen hoe zinvol het dan is om te kijken of er misschien individuele voorspellers wel significant zijn. Mocht dat wel het geval zijn, dan wordt de interpretatie lastig. Maakt de toets van $R^2$ dan een Type-2 fout, of maakt de toets van de regressie-coefficient dan een Type-1 fout?
door (77.8k punten)

Goed antwoord; mag ik hier aan toevoegen:

Het zijn twee verschillende zaken die allebei van belang zijn om te beantwoorden:

  1. de regressievergelijking beantwoord de vraag: wat is het model?
  2. de R^2 beantwoord de vraag: hoe goed is dat model?

De regressievergelijking geeft informatie per geschatte parameter (het verband van iedere variabele met de afhankelijke variabele), terwijl de R^2 aangeeft in hoeverre het geheel van alle variabelen verklarend is voor alle individuele variabiliteit op Y.

Ah, goede toevoeging!
 

Nu we er toch wat langer over aan het nadenken zijn :-)

Ik bedacht nog het volgende. In een regressie-analyse wordt elke voorspeller gecorrigeerd voor elke andere voorspeller (zie ook http://oupsy.nl/help/35/wat-zijn-de-vif-en-tolerance-bij-regressie-analyse en http://oupsy.nl/help/258/correlaties-tussen-tussen-predictoren-regressieanalyses). Overlap in deze voorspelling wordt verwijderd door SPSS als de regressiecoefficienten worden getoetst op significantie. Neem de volgende drie situaties:

Venn diagrammen

De rode variabele is de afhankelijke variabele; de groene en paarse variabelen zijn voorspellers. In de bovenste situatie hangen de voorspellers niet met elkaar samen; in de tweede situatie hangen ze deels samen; en in de derde situatie zijn ze bijna gelijk.

In alle drie de situaties is waarschijnlijk de $R^2$ significant; samen voorspellen de voorspellers tenslotte een forse proportie van de variantie in de afhankelijke variabele. In de eerste situatie zijn bovendien waarschijnlijk de $\beta$'s van allebei de voorspellers significant. In de tweede situatie overlappen deze, waardoor ze wat minder variantie verklaren; en in de derde situatie verklaren ze bijna geen variantie uniek. In die laatste situatie zal waarschijnlijk geen van de $\beta$'s significant zijn, terwijl $R^2$ wel significant is.

Dit is een gevolg van het feit dat SPSS zogenaamde 'Type 3 sums of squares' gebruikt bij de toetsing van de regressiecoefficienten. Dit is allemaal erg technische, en gaat ver buiten de examenstof, maar omdat het hier expliciet over gaat wilde ik het toch even toevoegen.

Overigens gaat regressie-analyse met meer dan één voorspeller sowiesie ver buiten de examenstof voor Kwantitatieve Data Analyse!

PS: je kunt formule's zoals $R^2$ (of complexer) gebruiken door ze tussen enkele dollartekens (als ze in de lopende tekst moeten komen) of dubbele dollartekens (als ze een aparte 'alinea' moeten vormen) te plaatsen. Zie voor meer informatie en voorbeelden etc http://meta.math.stackexchange.com/questions/5020/mathjax-basic-tutorial-and-quick-reference

...