Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Ik zou graag de formule weten welke gebruikt wordt om de spitsheid te berekenen.
in Inleiding Onderzoek (OIO, PB02x2; was Inleiding Data Analyse, IDA) door (200 punten)

1 Antwoord

0 leuk 0 niet-leuks

Spitsheid, of kurtosis, heet ook wel het vierde 'moment' van een datareeks, of beter gezegd, van een verdeling.

Deze 'momenten' beschrijven een verdeling. Er zijn ruwe momenten, gecentraliseerde momenten (als de datareeks is gecentreerd, oftewel, als overal het gemiddelde van is afgetrokken), en gestandaardiseerde momenten (als de datareeks is gestandaardiseerd, oftewel, als hij is omgerekend in z-scores, door overal het gemiddelde van af te trekken en vervolgens alle resulterende verschillen te delen door de standaarddeviatie).

Het eerste ruwe moment is het gemiddelde; de eerste gecentraliseerde en gestandaardiseerde momenten zijn beiden $0$.

Er is geen tweede ruwe moment; dit kan alleen worden berekend na centralisatie. Het tweede gecentraliseerde moment is de variantie, en het tweede gestandaardiseerde moment is $1$ (want na standaardisatie is de standaarddeviatie $1$, en $1^2=1$).

Het derde en vierde moment bestaan alleen als gestandaardiseerde momenten, en zijn de scheefheid en de spitsheid.

Dit leg ik allemaal uit zodat je het patroon in de formule voor de kurtosis kunt herkennen.

Het gemiddelde is:

$$m_1 = \frac{\sum_{i=1}^n x_i^1}{n} $$

Oftewel, je telt alle datapunten bij elkaar op, en deelt ze door het aantal datapunten. De $x_i^1$ is gelijk aan $x_i$: machtsverheffen betekent dat we iets met zichzelf vermeingvuldigen. Als we iets kwadrateren, vermenigvuldigen we het eenmaal met zichzelf (dus $x^2 = x \times x$), en als we iets 'tot de derde doen', vermenigvuldigen we het drie keer met zichzelf (dus $x^3 = x \times x \times x$), et cetera. Dus, $x^2 = x$. Maar, dit staat hier alvast vanwege de formules hieronder.

Laten we nu het verschil tussen elk datapunt en dat gemiddelde opslaan. Dit noemen we bijvoorbeeld $z$. We trekken dus voor elke waarde van $x$ (dus voor elke $x_i$) de waarde van $m_1$ af:

$$z_i = x_i - m_1$$

Nu werken we verder met $z$ in plaats van $x$: dit is dezelfde datareeks, maar dan gecentreerd. Dan kunnen we de variantie berekenen:

$$m_2 = \frac{\sum_{i=1}^n z_i^2}{n} $$

Als het goed is zie je hier een patroon: dit is precies dezelfde formule als we voor het eerste moment gebruikten, alleen nu is het $x^2$ in plaats van $x^1$! (Ok, er staat nu $z$ in plaats van $x$, maar het idee is hetzelfde.)

Op diezelfde manier kunnen we $m_3$ en $m_4$ berekenen:

$$m_3 = \frac{\sum_{i=1}^n z_i^3}{n} $$

$$m_4 = \frac{\sum_{i=1}^n z_i^4}{n} $$

Die $m_3$ en $m_4$ zijn nu alleen nog gebaseerd op de gecenteerde datareeks, en zoals ik boven uitlegde kunnen skewness (het derde moment) en kurtosis alleen worden berekend voor de gestandaardiseerde datareeks. Er is een makkelijke manier om die correctie snel door te voeren:

$$g_1 = \frac{m_3}{m_2^{\frac{2}{3}}}$$

$$g_2 = \frac{m_4}{m_2^{2}}$$

(zoals je ziet kun je ook machtsverheffen tot een breuk. Geen idee hoe dat precies werkt :-))

$g_1$ is de scheefheid; $g_2$ is de spitsheid (kurtosis).

Omdat de kurtosis van een standaardnormale verdeling gelijk is aan 3, wordt meestal over 'excess kurtosis' gesproken, en wordt er standaard 3 van afgetrokken. Dit is wat verwarrend; maar in de praktijk wordt nooit de 'niet-excess' kurtosis gebruikt, dus de verwarring valt mee. Gewoon altijd 3 er vanaf trekken. Als je de kurtosis met de hand berekent. Wat je nooit doet :-) Anyway, die laatste formule wordt dus in de praktijk:

$$g_2 = \frac{m_4}{m_2^{2}} - 3$$

Als je er echt dieper in wilt duiken: als je R gebruikt kun je deze berekeningen terugvonden in de broncode van de functie dataShape door het volgende in te typen:

dataShape

(userfriendlyscience moet dan wel zijn geladen)

Je kunt het volgende fragment dan vinden:

  res$intermediate$m1 <- sum(sampleVector^1)/n
  res$intermediate$centeredVector <- sampleVector <- sampleVector - 
      res$intermediate$m1
  res$intermediate$m2 <- m2 <- sum(sampleVector^2)/n
  res$intermediate$m3 <- m3 <- sum(sampleVector^3)/n
  res$intermediate$m4 <- m4 <- sum(sampleVector^4)/n
  res$intermediate$g1 <- m3/(m2^(3/2))
  res$intermediate$g2 <- (m4/(m2^2)) - 3
door (77.8k punten)
...