torsdag 29. mai 2014

Deskriptiv statistikk

Mål med deskriptiv statistikk



1. Se etter feil og anomalier
2. forstå fordelingen av hver enkel variabel
3. forstå naturen og styrke


Histogram


Et histogram er en grafisk framstilling av data hvor det er fornuftig å samle svarene i forskjellige grupper som i et søylediagram (Vittinghoff et al. 2012, s. 10). Det er viktig at et histogram har god fordeling mht definisjon av grupper.

Boxplot

Et «boxplot» representerer et kompromiss mellom et histogram og en numerisk analyse (ibid, s.12) og gir et skjematisk bilde av fordelingen. Boxplot’et beskriver data rundt medianen og det kan beskrive spredningen av dataene. Det kan også si noe om form og outliere.

Medianen i box-plottet til modell a er lokalisert i litt mer nedre sjikt av boksen («toward bottom of the box»). Det viser en mer skjev fordeling av observasjonene. Det betyr at dataene består av flere lave verdier og fordelingen er dermed «venstre-skjøvet» mot lavere verdier (ibid, s.13).

Q-Q-plott
 

 «QQ-plott er et punktplott av kvantil-funksjonen av et datasett vs. kvantil-funksjon av en fordeling» (Venables, 2014). Det er nyttig når man skal sammenligne fordelingen av dataene/residualene, for å se om det er en normalfordeling av dataene. Det er lett å se om datapunktene faller langs en rett linje (Vittinghoff et al. 2012, s. 13).
Smoothed scatterplots

Scatterplots kan glattes ved å montere en linje til datapunktene i et diagram. Denne linjen forsøker å vise en ikke-tilfeldig komponent av sammenhengen mellom variablene i et 2D-spredningsdiagram. Glattingens forsøk på å separere den ikke-tilfeldig opptreden i dataene fra tilfeldige svingninger, å fjerne eller redusere disse svingningene, og tillater forutsigelse av respons basert på verdien av den forklarende variable.

Ingen kommentarer:

Legg inn en kommentar