Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

descriptives sportcasus

0 leuk 0 niet-leuks

Beste Ron en Gjalt-Jorn,

Ik worstel een beetje met de descriptives van de sportcasus. 

Als ik het vergelijk met het antwoordt van SPSS (2.5 ) dan heb ik het gevoel dat ik dingen mis/ zie ik dat ik dingen mis. Maar ik kan niet goed beoordelen waar dat aan ligt of wat ik kan veranderen aan mijn input/ output.

Ik heb gewerkt met en zonder data.frame

Wat ik laat zien is gemaakt met de data.frame 

Kunnen jullie mij helpen?

> leeftijd<-gl(2,54,108, labels = c("<45", ">45"));

> Voorlichting<-gl(3,36,108, labels = c("controle", "DV", "PV"));

> sportscore2<-c(3,2,3,2,3,3,2,2,4,1,3,3,1,2,2,2,2,3,1,2,1,2,2,2,2,1,1,2,1,1,1,1,2,1,1,2,3,3,3,4,4,5,4,5,3,3,4,5,4,5,3,2,4,3,2,2,1,1,2,2,1,2,2,3,2,1,1,1,2,1,2,2,4,4,5,4,3,4,3,4,3,4,5,4,4,4,3,4,3,5,1,4,3,2,3,2,2,3,2,3,3,2,2,3,2,4,3,4);

> sportcasus2<-data.frame(leeftijd, voorlichting, sportscore2);

> summary.data.frame(sportcasus2);

 leeftijd voorlichting  sportscore2 

 <45:54   1:36         Min.   :1.00 

 >45:54   2:36         1st Qu.:2.00 

          3:36         Median :2.50 

                       Mean   :2.63 

                       3rd Qu.:3.25 

                       Max.   :5.00 

> by(sportcasus2$sportscore2, list(sportcasus2$leeftijd, sportcasus2$voorlichting), stat.desc);

: <45

: 1

     nbr.val     nbr.null       nbr.na          min          max        range

  36.0000000    0.0000000    0.0000000    1.0000000    4.0000000    3.0000000

         sum       median         mean      SE.mean CI.mean.0.95          var

  69.0000000    2.0000000    1.9166667    0.1343710    0.2727876    0.6500000

     std.dev     coef.var

   0.8062258    0.4206395

------------------------------------------------------------

: >45

: 1

NULL

------------------------------------------------------------

: <45

: 2

     nbr.val     nbr.null       nbr.na          min          max        range

  18.0000000    0.0000000    0.0000000    2.0000000    5.0000000    3.0000000

         sum       median         mean      SE.mean CI.mean.0.95          var

  67.0000000    4.0000000    3.7222222    0.2109046    0.4449698    0.8006536

     std.dev     coef.var

   0.8947925    0.2403920

------------------------------------------------------------

: >45

: 2

     nbr.val     nbr.null       nbr.na          min          max        range

  18.0000000    0.0000000    0.0000000    1.0000000    3.0000000    2.0000000

         sum       median         mean      SE.mean CI.mean.0.95          var

  30.0000000    2.0000000    1.6666667    0.1400280    0.2954333    0.3529412

     std.dev     coef.var

   0.5940885    0.3564531

------------------------------------------------------------

: <45

: 3

NULL

------------------------------------------------------------

: >45

: 3

     nbr.val     nbr.null       nbr.na          min          max        range

  36.0000000    0.0000000    0.0000000    1.0000000    5.0000000    4.0000000

         sum       median         mean      SE.mean CI.mean.0.95          var

 118.0000000    3.0000000    3.2777778    0.1623787    0.3296463    0.9492063

     std.dev     coef.var

   0.9742722    0.2972356

gevraagd 2 mei 2017 in Inleiding Data Analyse (IDA) door TiffanyOW (470 punten)
Zou je aan de vraag de informatie kunnen toevoegen over wat je zelf in SPSS krijgt en hoe R afwijkt?
Ron,

Kun je AUB. antwoorden??!!

Het is heel frustrerend wanneer ik niet weet waar ik aan toe benen of ik nog antwoordt ga krijgen of niet. Ik kon zo niet verder en ik blijf maar wachten.

Groeten Tiffany

Beste Tiffany,

Ik moet eerlijk zeggen dat zelfs met je link erbij mij nog niet helemaal duidelijk is wat je vraag is. Je repliceerbare voorbeeld werkt niet, waarschijnlijk door opmaakfouten.

Als ik je voorbeeld zoveel mogelijk na doe, krijg ik het volgende:

lft <- c(rep("<45",18),rep(">45",18),rep("<45",18),rep(">45",18),rep("<45",18),rep(">45",18))
cond <- c(rep("control",36), rep("digitaal", 36), rep("persoonlijk", 36))   
sportscore2<-c(3,2,3,2,3,3,2,2,4,1,3,3,1,2,2,2,2,3,1,2,1,2,2,2,2,1,1,2,1,1,1,1,2,1,1,2,3,3,3,4,4,5,4,5,3,3,4,5,4,5,3,2,4,3,2,2,1,1,2,2,1,2,2,3,2,1,1,1,2,1,2,2,4,4,5,4,3,4,3,4,3,4,5,4,4,4,3,4,3,5,1,4,3,2,3,2,2,3,2,3,3,2,2,3,2,4,3,4);
mydata <- data.frame(lft, cond, sportscore2);

if (!'doBy' %in% installed.packages()) {install.packages("doBy")}
library(doBy)
summaryBy(sportscore2 ~ cond + lft, data = mydata, 
         FUN = function(x) { c(m = mean(x), s = sd(x)) } )

Dit levert mij de volgende output op:

         cond lft sportscore2.m sportscore2.s
1     control <45      2.388889     0.7775443
2     control >45      1.444444     0.5113100
3    digitaal <45      3.722222     0.8947925
4    digitaal >45      1.666667     0.5940885
5 persoonlijk <45      3.888889     0.6763995
6 persoonlijk >45      2.666667     0.8401681

Dit is volledig in overeenstemming met de descriptives die ik in SPSS krijg:

descriptives sportcasus - sportscore2

PS: Tevens kan het wel eens gebeuren dat een vraag even weer aan de aandacht ontschiet. Ik verwacht dan op een professionele manier door vraagstellers op dit forum benaderd te worden. Een vraag naar update is in orde, maar bovenstaande is niet hoe ik met studenten wens te communiceren.

Beste Ron,

In reactie op je PS. Ik heb er even over nagedacht en ik begrijp  niet helemaal wat je bedoelt met een professionele manier van vragen stellen. Ik raak en samen met heel veel andere studenten, naar wat ik bergrijp, er gefrustreerd van dat de communicatie vaak naar mijn mening onzeker is. Dit zeg ik niet zonder respect of begrip voor jullie situatie en dit is ook niet persoonlijk naar jou bedoelt, maar de vraag ligt in deze wel bij jou. Daarnaast verwacht ik ook niet dat jullie altijd gelijk een antwoordt hebben of alles precies weten. Wel verwacht ik dat er over gecommuniceerd wordt. Al is het maar om te zeggen ik kom er op terug. En als je zegt dat ik en anderen om een update moeten vragen, prima, dat zal ik dan in het vervolg doen en ook bij deze want er is nog een andere vraag waar je een onderdeel van hebt beantwoordt die met de "package WRS" wat nu goed werkt, dank daarvoor, maar de rest van de vraag staat nog open.  Emoties zijn niet onprofessioneel en behalve je eigen emoties zijn ze ook niet van jouw, het is mijn frustratie. Dus mijn vraag naar jou is om je voor te stellen hoe het is voor mij en ons als studenten, die dingen graag willen leren en begrijpen en waarbij het ook ons veel tijd kost binnen een module wanneer we lang moeten wachten of niets horen.

Wat de stof betreft;

Ik zie dat je een aantal dingen anders doet dat in het boek, Ik gebruik het boek van R om in te studeren en de codering uit te halen. 

Ik zie dat je lft  en cond gebruikt om uiteindelijk je dataframe mee op te bouwen. In het boek wordt de functie gl gebruikt. De sportscore2 is wel op de zelfde manier gedaan. 

Dan vraag ik me even af of je een andere package (doBy?) hebt gebruikt om de summaryBy als commando te gebruiken om de output van de dataframe te kunnen genereren. 

Dan is de data in overeenstemming met wat je in SPSS krijgt maar er ontbreekt op jouw output nog de totalen, die schijn ik weer wel te krijgen in mijn output. 

Nou roept dit het volgende bij mij op. Output, de juiste output, is een middel om waardes te krijgen van je gemeten hypothese. 

Mijn vraag heeft niet alleen betrekking op de verschillen/ fouten in mijn output in vergelijk met wat er uit SPSS komt, maar ook welke informatie heb ik precies nodig. Naar wat ik begrepen heb zijn het idd o.a. de mean, sd en totalen die je in je APA omschrijving moet verwerken. Of zit het anders. 

Dan, in de lessen van Dirk Hoek wordt alle aandacht besteed aan het genereren van de juist output in SPSS. En ik begrijp wel dat het werken in R een eigen doch geaccepteerde keuze is en dat het wat meer zelf uitzoeken vraagt. Maar ik heb soms het gevoel dat ik op kleine dingen vastloop. Zoals nu ook weer. 

Je zegt bijvoorbeeld, dat mijn repliceerbare voorbeeld, uit het R boek, niet werkt waarschijnlijk door opmaakfouten, maar wat bedoel je met opmaakfouten? Bedoel je de commando's die ik gebruik, wellicht verkeerd geïnterpreteerd uit het boek. En jij gebruikt in je voorbeeld andere commando's. Of bedoel je fouten in de codering van mijn commando? 

En ik ben benieuwd naar waarom je gekozen hebt voor lft en cond voor de opbouw van je dataframe in plaats van 

> leeftijd<-gl(2,54,108, labels = c("<45", ">45"));

> Voorlichting<-gl(3,36,108, labels = c("controle", "DV", "PV"));

Waarom doe je dit en hoe moet ik hiermee omgaan, want het geeft jou een oplossing maar mij nog niet. Juist ook om ervan te kunnen leren!

P.S. 

Ik studeer vanuit het buitenland en ik heb dus niet de mogelijkheid om naar de bijeenkomsten om vragen te stellen. En al hoewel de zelfstudie ok is voor mij, ben ik mij ook bewust van de tekortkomingen ervan. 

Mocht je ervoor open staan en denken dat de communicatie in dit geval sneller en soepeler kan verlopen als we het via een korte skype call even doornemen dan zou dat een goede optie zijn om de onduidelijkheden van deze vraag te behandelen. ik heb in dat geval dus alleen wel een tijdverschil van 6 uur en ik loop achter. 

Met vriendelijke groet, 

Tiffany

De labels 'lft' en 'cond' heb ik zelf even zo genoemd, maar heeft verder geen enkele impact op de uitkomst. Dit zijn geen functies, maar objectnamen. Bedoel je met 'het boek' het R-boek van Andy Field? Het gebruik van gl zal ongeveer hetzelfde moeten doen als mijn procedure middels 'rep()'. Het is een persoonlijke gewoonte. Het fijne van rep() is dat ik zelf een volledige controle heb over de opbouw. 

Voor het kiezen van de descriptives is het meetniveau van groot belang. Interval/ratio behoeft M en SD, ordinaal, mediaan en IQR, nominaal officieel de modus, maar in een tabel heeft dat meestal niet veel waarde.

doBy gebruik ik uit het gemak van de package; het doet hetzelfde als 'by' (base R), maar overzichtelijker. De totalen zijn met dezelfde package te verkrijgen door het weer te geven model aan te passen:

> summaryBy(sportscore2 ~ cond, data = mydata, 
+           FUN = function(x) { c(m = mean(x), s = sd(x)) } )
         cond sportscore2.m sportscore2.s
1     control      1.916667     0.8062258
2    digitaal      2.694444     1.2832870
3 persoonlijk      3.277778     0.9742722

> summaryBy(sportscore2 ~ lft, data = mydata, 
+           FUN = function(x) { c(m = mean(x), s = sd(x)) } )
  lft sportscore2.m sportscore2.s
1 <45      3.333333     1.0279123
2 >45      1.925926     0.8434398

Ja ik gebruik het boek R van Andy Field.

Bedankt voor de aanvulling.

Groeten Tiffany
Ik ben een grote R-fan, maar voor iedere R-programmeur een waarschuwing: programmeren kan frusterend zijn. 90% van de programeertijd wordt besteed aan bug-fixing. Ik ben iedere dag nog verbaasd als een stuk code probleemloos werkt. Verbaasd, of argwanend... ik ben daar nog niet uit
Dat is grappig!

Aub. inloggen or registreren om deze vraag te beantwoorden.

...