Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Kwadratische regressie F-waarde net niet significant maar de variabelen in het model allebei wel

0 leuk 0 niet-leuks
Bij een kwadratische regressie is de F waarde net niet significant (p=.07), maar de 2 variabelen in het model zijn allebei wel significant (p =.03 en p=.02). Welke conclusie kan ik hieruit trekken? Mag ik zeggen dat het model (ondanks dat de F-waarde p = .07 is) toch significant is? Hoe kunnen de variabelen allebei wel significant zijn maar de F-waarde niet?
gevraagd 2 juli 2015 in Multivariate statistiek door Labyrinth (120 punten)
Dit is een uitzonderlijke situatie. Ik vermoed dat het te maken heeft met collineariteit. Hoe sterk hangen je voorspellers met elkaar samen? Kun je de correlatietabel van alle drie de variabelen even toevoegen? En voeg dan gelijk de anova-tabel en de tabel met de coefficienten van je regressie-analyse toe.
Natuurlijk,

Dit is de correlatietabel met alle variabelen:

 

En dit is de uitkomst van de kwadratische regressie analyse:

Edit: ik zie dat de output overlappend mijn met mijn commentaar kwam ;)

Collineariteit zou ik ook het eerste naar kijken. Een tweede punt: zijn alle variabelen intervalniveau of hoger, of is een van de variabelen categorisch, of ordinaal met weinig geordende categorieeen?

De variabelen zijn niet categorisch, maar van interval niveau.

1 Antwoord

0 leuk 0 niet-leuks

Je twee voorspellers zijn praktisch identiek; ze correleren ,947 met elkaar.

Daarentegen correleren ze niet met je afhankelijke variabele: ,012 en ,106.

Je steekproefomvang is erg laag (zelfs bij een gewone bivariate correlatie heb je 84 mensen nodig voor 80% power bij een gemiddelde correlatie; en de correlaties van jouw voorspellers met je afhankelijke variabele zijn veel lager).

Je stopt dus twee variabelen die bijna helemaal overlappen (ze verklaren $.947^2=90%$ van elkaars variantie), en die niet lineair samenhangen met je afhankelijke variabele, in een model, met een zeer lage steekproefomvang. Op basis hiervan zou ik zeggen: de significanties zijn statistische artefacten (type-1 fouten).

Alleen, je hebt het steeds over kwadratische regressie - ik dacht eerst dat het een onhandige manier was om naar $R^2$ te verwijzen, maar nu begin ik te twijfelen. Bedoel je iets anders, heb je je voorspellers gekwadrateert, of gebruik je een andere methode dan OLS ('ordinary least squares')?

Ik zou in elk geval even de antwoorden over power en multicollineariteit lezen:

De onderste situatie in het plaatje in die derde link is de jouwe, behalve dat de overlap tussen je voorspellers en je afhankelijke variabele veel kleiner is (want, lage correlaties).

beantwoord 2 juli 2015 door gjp (63,300 punten)
Hartelijk dank voor uw antwoord.

Het klopt dat ze correleren, want de variabele aantalesessiesQRT is de variabele aantal_esessies gekwadrateert (aantal_esessies * aantal_esessies).

Eerst heb ik een lineaire regressie uitgevoerd, maar er bleek in plaats van een lineair verband sprake te zijn van een kwadratisch verband. Daarom zit er een kwadratische variabele in om een kwadratische regressie uit te voeren ipv een lineaire regressie.

Ik heb zelf tijdens statistiek nooit iets gehad over een kwadratische regressie (wel over een lineaire regressie uiteraard) dus ik vind het lastig hoe ik het moet interpreteren, want mij was gezegd dat ik de niet-gekwadrateerde/gewone variabele en de gekwadrateerde variabele allebei in de regressie moest doen (en dan overlappen ze inderdaad..).

Volgens http://statisticalhorizons.com/multicollinearity (puntje 2) is collineariteit geen probleem als deze het gevolg is van bijvoorbeeld kwadrateren van een voorspeller of een interactieterm (=product van twee voorspellers).

Dat F niet significant (p = .07) is, toont volgens mij gewoon aan dat dit kwadratisch model geen (heel) goede 'fit' geeft met je gegevens. Je zegt dat er een kwadratisch verband "bleek" te zijn. Uit wat heb je dit afgeleid?

Heb je al eens een X-Y plot gemaakt in Excel van X=aantal_esessies en Y=Verschilklachten1_2? 'Zie' je daar een kwadratisch (parabool) verband, dus met een bult of een dal in 't midden? Kun je vanuit de theorie vermoeden dat het een kwadratisch verband zou zijn?

Hoe zijn de verdelingen van je twee variabelen? Zijn het beide gehele getallen? Zo ja, hoeveel verschillende waarden hebben ze in je dataset? 

Bedankt voor de link en je reactie!

Het kwadratisch verband heb ik inderdaad afgeleid van de X-Y plot aantal_esessies en verschilklachten1_2. Hieruit kwam een kwadratisch verband met een bult in het midden. De klachten nemen eerst toe en daarna af na mate er meer esessies zijn.

De verdeling van de variabele aantal_esessies en aantal_esessiesQRT zijn hele getallen zonder decimalen en kunnen niet onder de 0 komen. De variabele verschilklachten1_2 zijn ook hele getallen zonder decimalen, maar kunnen wel onder de 0 komen. Voorbeeld: participant a: Klachtenverschil meetmoment 1 - meetmoment 2 = -22 (toename klachten van 22punten); participant b: klachtenverschil meetmoment 1 - meetmoment 2 = 15 (afname klachten van 15 punten).
Wat is het minimum en maximum van aantal_esessies?

Verder moet je oppassen met X-Y plots met gehele waarden voor X en Y: identieke X/Y combinaties worden daarin voorgesteld als 1 'punt', waardoor het zicht wat vertroebeld wordt. Een oplossing hiervoor is om bij elke X en Y wat ruis bij te tellen. In Excel kun je bv. met +ASELECT()/3-0.66 random tussen -0.33 en +0.33 tellen bij je waarden, waardoor de afzonderlijke X/Y combinaties als een 'wolkje' voorgesteld worden, met elk punt nog steeds 1 X/Y combinatie. Misschien geeft dat wel een heel ander zicht.
Het minimum van het aantal_esessies is 0 en het maximum is 18.

Oké, dat ga ik even uitproberen, thanks!
...