Kovariat:
Betegner kontinuerlig uavhengige variabler i noen statistiske teknikker.
Uavhengig variabel:
= X => Forklaringsvariabel
Prediktor:
Noe som forventer, spår eller forutsier
Univariat:
Som angår en variabel (eks. univariat analyse)
Standardavvik:
Et mål på spredning for kontinuerlige variabler. Det beregnes som kvadratroten til variansen.
P-verdi:
I statistisk hypotesetesting er
p-verdien sannsynligheten for at man får et testresultat som er likt det man fikk eller enda mer ekstremt, dersom han går ut fra at nullhypotesen H
0 stemmer. Man vil ofte forkaste nullhypotesen dersom p-verdien blir under det signifikansnivået man har satt på forhånd, 0,05 eller 0,01 er ofte benyttet, og man kan da si at testen er signifikant. p-verdien er et tall mellom 0 og 1. Jo lavere verdien er, jo mindre forenlig er observasjonene våre med nullhypotesen (H
0), og små p-verdier fører til forkasting av denne.
I seg selv sier p-verdi ikke noe direkte om nullhypotesen er sann eller ikke, men den gir bevis mot nullhypotesen.
T-test:
En
t-test (også kalt
Students t-test) er en statistisk hypotesetest basert på Students t-fordeling. Den brukes gjerne for å teste om gjennomsnittsverdien i et normalfordelt datasett er signifikant forskjellig fra en nullhypotese, om det er signifikant forskjell mellom gjennomsnittsverdiene i to datasett, eller om stigningstallet til en regresjonslinje er signifikant forskjellig fra null.
Konfidensintervall:
Et
konfidensintervall er i statistikken en måte å angi feilmarginen av en måling eller en beregning på. Et konfidensintervall angir intervallet som med en spesifisert sannsynlighet inneholder den sanne (men vanligvis ukjente) verdien av variabelen man har målt. Sannsynligheten angis i prosent. Således inneholder et 95 %-konfidensintervall den sanne verdien med en sannsynlighet på 0,95.
I de empiriske vitenskapene er ingen verdier kjente med uendelig presisjon eller absolutt sikkerhet. Derfor er det viktig at man ikke bare angir verdien som er målt (eller beregnet), men også hvor mye tillit man har til målingen. Begrepet
konfidensintervall kommer fra det latinske ordet for «tillit» (
confidentia). Slikt «tillit» angis som ytterpunktene for et intervall. Når man f.eks. skriver «12,34 ± 0,98 (95 % CI)», så betyr dette at målingen var 12,34, og at konfidensintervallet strekker seg fra 11,36 til 13,32.
Jo sikrere man vil være på at konfidensintervallet inneholder den sanne verdien, desto bredere konfidensintervaller velger man, men desto mindre informativt er intervallet. Vil man være
helt sikker og velger et 100 %-konfidensintervall, vil dette vanligvis (f.eks. for normalfordelte verdier) strekke seg fra minus uendelig til pluss uendelig. Velger man smale konfidensintervaller, øker derimot sannsynligheten for at de ikke inneholder den sanne verdien.
Grunnen til at man oftest bruker 95 %-konfidensintervaller, er at man i mange statistiske tester opererer med et såkalt signifikansnivå på 5 %. En verdi som ligger utenfor 95 %-konfidensintervallet kan altså sies å avvike signifikant fra forventningen. Ved normalfordelte variabler kan 95 %-konfidensintervallene nokså nøyaktig regnes om fra variablens gjennomsnitt (
m) og standardavvik (
s) som:
- CI = [m − 1,96 · s; m + 1,96 · s]
Logistisk regresjon
er en type probabilistisk statistisk modell klassifisering. Det er brukt til å forutsi en binær respons fra en binær prediktor, som brukes til å forutsi utfallet av en kategorisk avhengig variabel (dvs. en klasse etikette) basert på en eller flere forklaringsvariabler (funksjoner). Det vil si at den er anvendt for å estimere parameterne for en kvalitativ responsmodell. De sannsynligheter som beskriver mulige utfall av et enkelt forsøk er modellert som en funksjon av de forklarende (prediktor) variabler, ved hjelp av en logistisk funksjon. Ofte brukes "logistisk" for å referere spesifikt til det problem som den avhengige variable er binær - det er, er antall tilgjengelige kategorier to - mens problemer med flere enn to grupper kalles multinomisk logistisk regresjon eller , dersom flere kategorier er bestilt.
Logistisk regresjon måler forholdet mellom en kategorisk avhengige variable og én eller flere uavhengige variabler, som vanligvis er (men ikke nødvendigvis) kontinuerlig, ved hjelp av sannsynlighets score som de anslåtte verdier av den avhengige variabel.
Single predictor models
Logisk modellering er den prosessen som en modell blir laget eller valgt for å prøve å best forutsi sannsynligheten for et utfall.
I mange tilfeller blir
modellen valgt på basis av deteksjons teori for å prøve å gjette sannsynlighet for et utfall gitt et bestemt beløp av inndata,
for eksempel gitt en epost bestemme hvor sannsynlig at det er spam.
Modeller kan bruke en eller flere klassifiserere i forsøk for å bestemme sannsynligheten for at et sett med data som tilhører et annet sett,
si uønsket eller 'skinke'.
Kategorisk variabel
en kategorisk variabel er en variabel som kan ta på seg en av et begrenset , og vanligvis fast , antall mulige verdier.
Kategoriske data er den statistiske datatype som består av kategoriske variabler eller data som har blitt omgjort til den form, for eksempel som grupperte data.
En kategorisk variabel som kan ta på nøyaktig to verdier kalles en binær variabel eller dummy variabel og er vanligvis behandles på egen hånd som et spesielt tilfelle. Som et resultat, kan kategoriske variabler ofte antas å inneholde, eller i det minste potensielt inneholde tre eller flere verdier. F.eks. yes or no eller menn/kvinner o.l.