Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks

Ik heb de meetgegevens van de Bilt van het KNMI gedownload vanaf 1901 en per jaar het gemiddelde berekend.

Mijn hypothese was: de temperatuur stijgt met de jaren. 

Ik heb dit in een scatterplot gezet met de regressiecoëfficient erbij.

(Temperatuur is het jaargemiddelde van de maximale dagtemperatuur in tienden van graden)

Pearsons r=.6 met een betrouwbaarheidsinterval van [.47; .7], p<.001
Multiple R-squared: [.22; .49] (point estimate = 0.36, adjusted = 0.35)
Test for significance: F[1, 119] = 65.79, p < .001

Dus de correlatie "hoe hoger het jaar, des te hoger de temperatuur" is volgens mij evident, .6 is behoorlijk hoog met een fatsoenlijke betrouwbaarheidsinterval en een voorbeeldige p.

De precisie van de temperatuur aan de hand van het jaar kunnen voorspellen is ook redelijk groot: 35%, met een p < 0.01.

Het getal "65.79" begrijp ik niet.

Klopt dit zo een beetje? Als ik dit zo zie, lijkt mij dat het niet goed te ontkennen is dat de aarde (of in ieder geval meetstation De Bilt) aan het opwarmen is. Of zijn er nog andere manieren om er naar te kijken?

in Inleiding Onderzoek (OIO, PB02x2; was Inleiding Data Analyse, IDA) door (3.7k punten)
bewerkt door

Plot twist: als ik de metingen vanaf mijn geboortejaar (76) eraf knip, krijg ik een veel "slechtere" r en p: r=.11, p=.356. Ik ontken persoonlijk alle betrokkenheid, maar het lijkt dus een trendbreuk vanaf ongeveer die tijd.

Voor wie ook wil testen:
- debilt_metingen.txt (ruwe data)
- debilt_metingen_temp.csv (handzamer gemaakt voor verwerking)
- debilt_metingen_temp_tm1975.csv (wat jaren eruit)

in R:

x <- read.table("debilt_metingen_temp.csv", header=TRUE, sep = ';');
y <- aggregate(Temp ~ Jaar, x, mean);
# (y bevat de data waar je verder mee kunt)
rosetta::regr(y$Temp ~ y$Jaar, plot=TRUE);

1 Antwoord

0 leuk 0 niet-leuks
Wat een leuke exercitie!

Dit klopt bijna helemaal. De 65.5 is de F-waarde: een variantieanalyse waarbij het gehele model (met in dit geval 1 voorspeller) wordt vergeleken met een model dat niets voorspelt. De term met de onverklaarde + verklaarde variantie is 65.5 keer zo groot als de onverklaarde variantie alleen.

Het enige dat niet klopt is het model dat je tekent. Je drukt hier een causaal verband uit tussen tijd en temperatuur. Dat model onderzoek je hier niet. Correlaties impliceren geen causaliteit: uit deze correlatie kun je dus niet afleiden dat tijd invloed heeft op temperatuur. Als er geen correlatie was geweest had je ook niet kunnen afleiden dat tijd geen invloed heeft op temperatuur. Correlationele patronen zijn het gevolg van een complex causaal web, in dit geval vol met confounders en zogenaamde colliders (zie ook het fantastisch toegankelijke "Thinking Clearly About Correlations and Causation: Graphical Causal Models for Observational Data" van Julia Rohrer, https://doi.org/gcvj3r).

In dit geval is het zelfs niet logisch dat de temperatuur op aarde opwarmt door de tijd (maar door veranderende samenstelling van de atmosfeer etc - die zich natuurlijk ontvouwt over tijd, vanwege industralisering etc).
door (77.8k punten)
Thanks! Ik heb het model even aangepast om geen desinformatie te verspreiden. (Was: een pijl van jaar naar temperatuur)
Super, heel goed!
...