torsdag 29. mai 2014

Fordeling

Normalfordeling

Binomisk fordeling
En binomisk fordeling eller binomialfordeling er en diskret fordeling (et begrep innen sannsynlighetsteori og matematisk statistikk) som håndterer hyppige (diskrete) forsøk med fast sannsynlighet.
Dersom en stokastisk variabel X er binomisk fordelt, med n=antall forsøk og p=sannsynligheten for å lykkes i hvert forsøk, skriver man :

Statistikerens favoritteksempel er urnemodeller som bygger på urner med svarte og hvite kuler. Sannsynligheten for å ta ut en hvit kule ved en tilfeldig trekning er p. Sannsynligheten for at man tar ut nøyaktig k hvite kuler ved n forsøk, dersom man har s antall svarte og v hvite kuler i en urne, og legger tilbake kulene mellom hver trekning (trekning med tilbakelegging), gis da av sannsynlighetsfunksjonen over med
 p = {v \over {s+v}} \quad og \quad q = 1 - p,
der p og q gis gjennom den klassiske sannsynlighetsdefinisjonen.

Noen formler

Empirisk gjennomsnitt:



Standardavvik:



Standardavviket er kvadratroten av variansen.

Variansen er er avvikskvadrat per måling.


Noen benevnelser
x = aritmetiske gjennomsnitt = middelverdi

x= måling nr. i
n = antall målinger

X = stokastiske variabel

x = symbolet for en observasjon
E (X) = forventningsverdi eller μ

Av og til kan   x  være lik μ
 
Median
Midterste verdien i et datasett
Typetall
Antall like tall
Frihetsgrad
Vi bruker dataene en gang, derfor blir formelen n-1
 
s² = varians
s = standardavvik
forventningsverdi av
σ² varians
σ standardavviket
Variasjonskoeffisient
eller kalt relativt standardavvik => standardavviket delt på middelverdien
s
x

Variasjonsbredde
Høyeste minus laveste verdi

Midlere avvik
Absoluttverdiene av avvikene xᵢ - x

Kvartilbredde
Kvartilbredden er definert som avstanden mellom øvre og nedre kvartil: 25% - 75%

Skjevhet
Skjevhet for et datasett er et mål på hvordan observasjonene er fordelt i forhold til gjennomsnittsverdien. Fortegnet på skjevheten forteller om





Definisjoner

Kovariat:
Betegner kontinuerlig uavhengige variabler i noen statistiske teknikker.

Uavhengig variabel:
= X => Forklaringsvariabel

Prediktor:
Noe som forventer, spår eller forutsier

Univariat:
Som angår en variabel (eks. univariat analyse)

Standardavvik:
Et mål på spredning for kontinuerlige variabler. Det beregnes som kvadratroten til variansen.

P-verdi:
I statistisk hypotesetesting er p-verdien sannsynligheten for at man får et testresultat som er likt det man fikk eller enda mer ekstremt, dersom han går ut fra at nullhypotesen H0 stemmer. Man vil ofte forkaste nullhypotesen dersom p-verdien blir under det signifikansnivået man har satt på forhånd, 0,05 eller 0,01 er ofte benyttet, og man kan da si at testen er signifikant. p-verdien er et tall mellom 0 og 1. Jo lavere verdien er, jo mindre forenlig er observasjonene våre med nullhypotesen (H0), og små p-verdier fører til forkasting av denne.
I seg selv sier p-verdi ikke noe direkte om nullhypotesen er sann eller ikke, men den gir bevis mot nullhypotesen.

T-test:
En t-test (også kalt Students t-test) er en statistisk hypotesetest basert på Students t-fordeling. Den brukes gjerne for å teste om gjennomsnittsverdien i et normalfordelt datasett er signifikant forskjellig fra en nullhypotese, om det er signifikant forskjell mellom gjennomsnittsverdiene i to datasett, eller om stigningstallet til en regresjonslinje er signifikant forskjellig fra null.

Konfidensintervall:
Et konfidensintervall er i statistikken en måte å angi feilmarginen av en måling eller en beregning på. Et konfidensintervall angir intervallet som med en spesifisert sannsynlighet inneholder den sanne (men vanligvis ukjente) verdien av variabelen man har målt. Sannsynligheten angis i prosent. Således inneholder et 95 %-konfidensintervall den sanne verdien med en sannsynlighet på 0,95.

I de empiriske vitenskapene er ingen verdier kjente med uendelig presisjon eller absolutt sikkerhet. Derfor er det viktig at man ikke bare angir verdien som er målt (eller beregnet), men også hvor mye tillit man har til målingen. Begrepet konfidensintervall kommer fra det latinske ordet for «tillit» (confidentia). Slikt «tillit» angis som ytterpunktene for et intervall. Når man f.eks. skriver «12,34 ± 0,98 (95 % CI)», så betyr dette at målingen var 12,34, og at konfidensintervallet strekker seg fra 11,36 til 13,32.
Jo sikrere man vil være på at konfidensintervallet inneholder den sanne verdien, desto bredere konfidensintervaller velger man, men desto mindre informativt er intervallet. Vil man være helt sikker og velger et 100 %-konfidensintervall, vil dette vanligvis (f.eks. for normalfordelte verdier) strekke seg fra minus uendelig til pluss uendelig. Velger man smale konfidensintervaller, øker derimot sannsynligheten for at de ikke inneholder den sanne verdien.
Grunnen til at man oftest bruker 95 %-konfidensintervaller, er at man i mange statistiske tester opererer med et såkalt signifikansnivå på 5 %. En verdi som ligger utenfor 95 %-konfidensintervallet kan altså sies å avvike signifikant fra forventningen. Ved normalfordelte variabler kan 95 %-konfidensintervallene nokså nøyaktig regnes om fra variablens gjennomsnitt (m) og standardavvik (s) som:
CI = [m − 1,96 · s; m + 1,96 · s]

Logistisk regresjon
er en type probabilistisk statistisk modell klassifisering. Det er brukt til å forutsi en binær respons fra en binær prediktor, som brukes til å forutsi utfallet av en kategorisk avhengig variabel (dvs. en klasse etikette) basert på en eller flere forklaringsvariabler (funksjoner). Det vil si at den er anvendt for å estimere parameterne for en kvalitativ responsmodell. De sannsynligheter som beskriver mulige utfall av et enkelt forsøk er modellert som en funksjon av de forklarende (prediktor) variabler, ved hjelp av en logistisk funksjon. Ofte brukes "logistisk" for å referere spesifikt til det problem som den avhengige variable er binær - det er, er antall tilgjengelige kategorier to - mens problemer med flere enn to grupper kalles multinomisk logistisk regresjon eller , dersom flere kategorier er bestilt.
Logistisk regresjon måler forholdet mellom en kategorisk avhengige variable og én eller flere uavhengige variabler, som vanligvis er (men ikke nødvendigvis) kontinuerlig, ved hjelp av sannsynlighets score som de anslåtte verdier av den avhengige variabel.

Single predictor models
Logisk modellering er den prosessen som en modell blir laget eller valgt for å prøve å best forutsi sannsynligheten for et utfall. I mange tilfeller blir modellen valgt på basis av deteksjons teori for å prøve å gjette sannsynlighet for et utfall gitt et bestemt beløp av inndata, for eksempel gitt en epost bestemme hvor sannsynlig at det er spam.

Modeller kan bruke en eller flere klassifiserere i forsøk for å bestemme sannsynligheten for at et sett med data som tilhører et annet sett, si uønsket eller 'skinke'.

Kategorisk variabel
en kategorisk variabel er en variabel som kan ta på seg en av et begrenset , og vanligvis fast , antall mulige verdier. Kategoriske data er den statistiske datatype som består av kategoriske variabler eller data som har blitt omgjort til den form, for eksempel som grupperte data. 
En kategorisk variabel som kan ta på nøyaktig to verdier kalles en binær variabel eller dummy variabel og er vanligvis behandles på egen hånd som et spesielt tilfelle. Som et resultat, kan kategoriske variabler ofte antas å inneholde, eller i det minste potensielt inneholde tre eller flere verdier. F.eks. yes or no eller menn/kvinner o.l.

Ordinale variabel
En variabel med verdier hvis ordre er betydelig, men som ikke gir noen mening for aritmetiske el. lignende operasjoner.
f.eks: "mye aktiv", "litt mindre aktiv", "lite aktiv"

Nominal variabel
En variabel med verdier som ikke har numerisk verdi, for eksempel kjønn eller yrke.
f.eks: "sivilstatus", "yrke", "geografisk region"

Bootstrapping
I statistikk er bootstrapping en metode for å tildele tiltak av nøyaktighet (definert i form av skjevhet, varians, konfidensintervall, prediksjon feil eller noen andre slike tiltak) for å prøve estimater. Denne teknikken tillater estimering av prøvetaking distribusjon av nesten alle statistikken ved hjelp av bare meget enkle metoder.Vanligvis faller det i det bredere klasse av resampling metoder.
Bootstrapping er praksisen med å estimere egenskaper av en estimator (for eksempel dens varians ) ved å måle disse egenskapene ved prøvetaking fra en approksimerings fordeling. En standard valg for en approksimerings distribusjon er den empiriske fordelingen av de observerte data. I det tilfelle hvor et sett av observasjoner kan antas å være fra en uavhengig og identisk fordelte befolkning, kan dette bli gjennomført ved å konstruere en rekke resamples av den observerte datasettet (og av lik størrelse til den observerte datasettet), hvor hver av disse er oppnås ved stikkprøvekontroll med erstatning fra det opprinnelige datasettet.
Det kan også bli brukt for å konstruere hypotese. Det blir ofte brukt som et alternativ til slutning basert på parametriske forutsetninger når disse forutsetningene er i tvil, eller hvor para slutning er umulig eller krever svært kompliserte formler for beregning av standardfeil .


Chi-kvadrattest
En Chi-kvadrattest, også referert til som chi-kvadrat-test eller prøve, er en hvilken som helst statistisk hypotesetest hvor sampling fordeling av teststatistikken er en chi-kvadrat fordeling når null hypotesen er sann. Også ansett som en chi-kvadrat-testen er en test hvor dette er asymptotisk sant, hvilket betyr at prøvetakingsfordeling (hvis null-hypotesen er sann) kan gjøres til tilnærmet en chi-kvadrat fordeling så tett som ønskelig ved at prøvestørrelsen stort nok.

Confounding
I statistikk er en konfunderende variabel (også problemfaktor, en forvirre, eller confounder) en utenforliggende variabel i en statistisk modell som korrelerer (direkte eller omvendt) med både den avhengige variabelen og den uavhengige variabelen. En oppfattet forhold mellom en uavhengig variabel, og en avhengig variabel som har blitt misestimert på grunn av den manglende står for en problemfaktor er betegnet en falsk forhold, og tilstedeværelsen av misestimering av denne grunn er betegnet utelatt variabel bias. I tilfelle av risikovurderinger evaluere størrelsen og naturen til helserisiko for mennesker, er det viktig å kontrollere for blander sammen for å isolere effekten av en spesiell fare for eksempel et tilsetningsstoff, plantevernmidler, eller nytt medikament. For prospektive studier, er det vanskelig å rekruttere og skjerm for frivillige med samme bakgrunn (alder, kosthold, utdanning, geografi, etc. ), og i historiske studier, kan det være samme variasjon . På grunn av manglende evne til å kontrollere for variasjon av frivillige og studier på mennesker, er confounding en særlig utfordring. For disse grunner, eksperimenter tilby en måte å unngå de fleste former for konfundering.

Mediation
I statistikk er en mekling modell som søker å identifisere og explicate mekanisme eller prosess som ligger bak en observert sammenheng mellom en uavhengig variabel og en avhengig variabel via inkludering av en tredje forklaringsvariabel, kjent som en mellomvariabel. Snarere enn hypoteser en direkte årsakssammenheng mellom den uavhengige variabelen og den avhengige variabelen, hypotesegjøre en mediational modell som den uavhengige variabelen påvirker "mekleren" variabel, noe som i sin tur påvirker den avhengige variabelen. Således tjener "mekleren" variabel for å klargjøre innholdet i forholdet mellom de uavhengige og avhengige variabler.
Med andre ord, som medierer forbindelser oppstår når en tredje variable spiller en viktig rolle i å styre forholdet mellom de to andre variable.

Deskriptiv statistikk

Mål med deskriptiv statistikk



1. Se etter feil og anomalier
2. forstå fordelingen av hver enkel variabel
3. forstå naturen og styrke


Histogram


Et histogram er en grafisk framstilling av data hvor det er fornuftig å samle svarene i forskjellige grupper som i et søylediagram (Vittinghoff et al. 2012, s. 10). Det er viktig at et histogram har god fordeling mht definisjon av grupper.

Boxplot

Et «boxplot» representerer et kompromiss mellom et histogram og en numerisk analyse (ibid, s.12) og gir et skjematisk bilde av fordelingen. Boxplot’et beskriver data rundt medianen og det kan beskrive spredningen av dataene. Det kan også si noe om form og outliere.

Medianen i box-plottet til modell a er lokalisert i litt mer nedre sjikt av boksen («toward bottom of the box»). Det viser en mer skjev fordeling av observasjonene. Det betyr at dataene består av flere lave verdier og fordelingen er dermed «venstre-skjøvet» mot lavere verdier (ibid, s.13).

Q-Q-plott
 

 «QQ-plott er et punktplott av kvantil-funksjonen av et datasett vs. kvantil-funksjon av en fordeling» (Venables, 2014). Det er nyttig når man skal sammenligne fordelingen av dataene/residualene, for å se om det er en normalfordeling av dataene. Det er lett å se om datapunktene faller langs en rett linje (Vittinghoff et al. 2012, s. 13).
Smoothed scatterplots

Scatterplots kan glattes ved å montere en linje til datapunktene i et diagram. Denne linjen forsøker å vise en ikke-tilfeldig komponent av sammenhengen mellom variablene i et 2D-spredningsdiagram. Glattingens forsøk på å separere den ikke-tilfeldig opptreden i dataene fra tilfeldige svingninger, å fjerne eller redusere disse svingningene, og tillater forutsigelse av respons basert på verdien av den forklarende variable.