Het significantieniveau is meestal de p-waarde die hoort bij een bepaalde toetsingsgrootheid. Bij KDA worden drie toetsingsgrootheden besproken: t, F, en r. Elk van deze toetsingsgrootheden heeft een verdeling die conditioneel is op de betreffende vrijheidsgraden van die toetsingsgrootheid.
Bij een onafhankelijke steekproef waarbij twee groepen worden vergeleken van 38 en 43 deelnemers, wordt een t-waarden uitgerekend met 38 + 43 - 2 = 81 vrijheidsgraden. Software kan de verdeling van alle mogelijke t-waarden genereren, uitgaande van die vrijheidsgraden en de aanname dat t in de populatie 0 is. Doordat die verdeling (een soort histogram, maar dan met oneinding veel waarden erin) gebaseerd is op de aanname dat t in de populatie 0 is, kan worden berekend hoeveel procent van die t-verdeling groter of kleiner is dan een gegeven t-waarde. Bij een positieve t-waarde is het percentage van de verdeling dat groter is dan die t-waarde gelijk aan de kans dat je in je met een steekproef een t-waarde vindt die groter is dan de t-waarde die je nu hebt gevonden:

Deze kans vertelt ons iets over hoe plausibel de verdeling is die we hebben gebruikt. In dit geval vonden we een t-waarde die, als t in de populatie 0 is, in 3.5% van de steekproeven van 81 deelnemers die we zouden nemen zou voorkomen (of een nog grotere t-waarde). Dit betekent dus dat de kans op een t-waarde die zo extreem is of nog extremer (in plaats van zo groot of groter), twee keer zo groot is. Een t-waarde van -3.5 is immers net zo (on)waarschijnlijk als een t-waarde van 3.5: onze nulhypothese is immers dat elke afwijking van een t-waarde van 0 uitsluitend tot stand komt door error (steekproeftoeval, meetfout, etc), en die error is gedefinieerd als ongeveer normaal verdeeld ('t-verdeeld', om precies te zijn).
In dit geval is de kans op een t-waarde zo extreem (of extremer) als die die wij hebebn gevonden (1.833) dus gelijk aan 2 * .035 = .07, oftewel 7%. Als onze t-verdeling klopt (als t in de populatie inderdaad 0 is - oftewel, als de nulhypothese klopt), dan zouden wij dus in 7 van de 100 steekproeven van 81 deelnemers die we zouden nemen, een t-waarde vinden die zo extreem of extremer is als die die we hebben gevonden. Dat we nu een steekproef uit die 7% hebben, is nog best aannemelijk. Deze t-waarde geeft dus niet veel reden te twijfelen aan de t-verdeling die we hebben gebruikt; en dus is de aanname dat t in de populatie eigenlijk 0 is, nog plausibel. We verwerpen de nul-hypothese dus niet.
Het is een conventie om de nul-hypothese wel te verwerpen als deze kans kleiner is dan 5% (dus als p < .05). In ons geval, als we 81 vrijheidsgraden hebben, is de bijbehorende grenswaarde t=1.99:

Alle t-waarden < -1.99 en > 1.99 horen dus bij een p-waarde die kleiner is dan .05 (het rode gebied in deze t-verdeling), en dit wordt wel het kritieke gebied genoemd (dit omdat t-waarden in dit gebied leiden tot verwerping van de nulhypothese).
Significantieniveau wordt (verwarrend genoeg) soms gebruikt om de p-waarde van een specifieke toetsingseenheid aan te duiden, en soms om de p-waarde, die het kritieke gebied bepaalt, aan te duiden.
In de eerste betekenis is ons significantieniveau gelijk aan onze p-waarde. De t-waarde die we vonden was 1.833, en in de t-verdeling met df=81 hoort daar een p-waarde van .07 bij.
In de tweede betekenis is ons significantieniveau gelijk aan de kritieke p-waarde: de p-waarde die de t-waarden die niet leiden tot verwerping van de nulhypothese, scheidt van de t-waarden die wel leiden tot verwerping van de nulhypothese. Zoals ik aangaf is dit volgens conventie bijna altijd p=.05.
Zie voor wat meer informatie http://oupsy.nl/help/805/hoe-bereken-je-de-p-waarde.
Of er een type-2 fout gemaakt wordt weet je nooit zeker; je weet immers nooit wat het populatiegemiddelde is. Een type-2 fout betekent dat je er niet in slaagt om een verschil in de populatie aan te tonen in een gegeven steekproef. Met kleine steekproeven is de kans hierop erg groot (als we bijvoorbeeld 38 met 43 deelnemers zouden vergelijken, dan zou deze kans onacceptabel groot zijn; om 80% kans te hebben om een effect van gemiddelde grootte aan te tonen, zijn 64 deelnemers per groep nodig. Met 82 deelnemers is de kans om een gemiddeld groot effect aan te tonen maar 62%).