Enten du studerer statistikkgrunnskole- eller universitetsnivå, eller bare trenger litt med å forbedre statistikkarakterene dine, vil disse øvelsene gi deg det du trenger. Statistiske analysemetoder og statistiske modellering er ofte knyttet direkte til dataanalyse, men det er viktig å forstå aritmetikken som ligger til grunn for disse analytiske metodene.

De fleste programvarepakker, som for eksempel SPSS og Stata, krever liten eller ingen statistisk beregning, men det er likevel viktig å vite hvordan denne programvaren fungerer.

Grunnlaget for det meste av statistisk analyse er en matematisk gren som kalles bayesiansk statistikk. Det er lite sannsynlig at Bayes teorem er et aktuelt tema på et kurs i grunnleggende statistikk, men det er viktig å huske implikasjonene av det som er kjent som bayesiansk inferens.

En matematisk ligning skrevet på en grønn tavle
Statistikkunnskaper er avgjørende for en karriere innen datavitenskap. (kilde: visualhunt)

Bayes teorem bruker sannsynlighet for å beskrive sannsynligheten for at en hendelse skjer med utgangspunkt i gitt informasjon om den aktuelle hendelsen, også kalt en prior.

Hvis du, for eksempel, vil beregne sannsynligheten for at Isbilen kommer til nabolaget ditt på en solskinnsdag, kan du bruke tidligere, empiriske data til å estimere sannsynligheten for at du får muligheten til å kjøpe iskrem den aktuelle dagen.

Definisjonen av bayesiansk inferens er å trekke sannsynligheten for en hendelse fra en befolkningsfordeling ved bruk av Bayes teorem. Dette er grunnlaget for mange statistiske problemer og tester du vil støte på, og det er viktig å ha i bakhodet fordi det ikke alltid kommer eksplisitt til uttrykk.

Denne artikkelen vil handle om tre eksempler med utgangspunkt i denne teorien.

Grunnleggende statistiske beregninger

For å kunne gjennomføre disse eksempeloppgavene i statistikk, er det viktig med forståelse av elementær statistikk. Du har sannsynligvis tatt et grunnkurs i sannsynlighet og forstår viktigheten av betinget sannsynlighet for å utarbeide selv den mest enkle utforskende dataanalysen.

Statistikk og sannsynlighet går hånd i hånd, og det er derfor viktig å forstå disse emnene før du tar fatt på disse øvingsoppgavene.

Definisjonene og ferdighetene du trenger for å kunne løse oppgavene i denne artikkelen inkluderer:

  • Sentralgrenseteoremet
  • Sentral tendens

  • Normalfordeling

  • Utvalgets gjennomsnitt, median og typetall

Oppgave 1: Lag et boksdiagram ved å bruke stamme-blad-diagram

Boksdigram og stamme-blad-diagram er forskjellige måter å vise fordelingen av en bestemt variabel i dataene dine. Forskjellen er at et boksdiagram viser hvordan dataene distribueres basert på en normalfordeling. For å kunne lage boksdiagrammet, er det viktig å forstå hva hvert punkt på diagrammet representerer.

Et eksempel er hvis du har et datamateriale som består av fire kvartiler. Da ville man brukt 1, 2, 3 og 4 som representanter for disse kvartilene, og man ville funnet medianen i midten. Det betyr at hvis vi tar utgangspunkt i den første kvartilen, så ligger 25% av dataene dine i denne regionen.

Med utgangspunkt i kvartil 3 betyr det at 75% av dataene dine ligger på det punktet eller under. Kvartil 0 representerer minimum og kvartil 4 representerer maksimum. Dette sammenlignes deretter med en normalfordeling.

Hvis man tenker på eksempelet overfor, kan man se at omtrent 50% av dataene vil falle mellom kvartil 1 og kvartil 3. Under kvartil 1 og over kvartil 3 ligger bare omtrent 25% av dataene våre. Utover minimum og maksimum regnes disse datapunktene som avvikende. En utligger er et datapunkt som ikke er normalt i forhold til utvalgspopulasjonen.

Med utgangspunkt i denne informasjonen, kan vi beregne stamme-blad-diagrammet:

StammeBlad
15, 6
21, 3, 3, 6, 6
30, 2
41

Etter at du har ordnet informasjonen i en tabell, kan du bare prøve deg på å presentere den i et boksdiagram.

Masse uordnede tall på en dataskjerm
Det er lurt å fremstille tallmaterialet grafisk. (kilde: unsplash)

Oppgave 2: Hvordan beregne og tolke korrelasjonskoeffisienten

Med utgangspunkt i det foregående, er det viktig å forstå hvordan bestemte variabler i datasettet ditt forholder seg til hverandre. Dette er spesielt nyttig fordi uavhengig av hvilke typer data du kommer over, vil du kunne bruke disse verktøyene uavhengig av hva slags statistiske begreper du bruker.

En viktig tabell du vil møte på er tabellen over korrelasjonen og kovariansen mellom variablene i datasettet ditt.

Definisjonen av korrelasjon er styrken i forholdet mellom to variabler, men kovariansen refererer til hvordan disse to variablene varierer sammen. Målet med disse tallene er å kunne måle hvor nær hver variabel forholder seg til hverandre.

Et eksempel er et datasett som relaterer seg til friske elever på ungdomsskolen. I et slikt tilfellet vil høyde og vekt sannsynligvis ha en sammenheng, mens variabler som høyde og favorittfarge sannsynligvis ikke har en sammenheng. Ved bruk av regresjonsmodeller er beregning og tolkning av korrelasjonen ekstremt viktig.

Den vanligste tabellen ser slik ut, og kalles Pearsons produkt-moment korrelasjonskoeffisient:

  Korrelasjon  
FavorittfargeHøydeVektKjønn
Favorittfarge1
Høyde0,151
Vekt0,040,871
Kjønn0,570,760,841

Tallene i tabellen representerer korrelasjonen, som er et mål på hvor sterkt forholdet mellom variablene i tabellen er. For å beregne korrelasjonen, trenger du bare variablenes standardavvik for å prøve kovariansen.

Standardavviket er målet for hvor langt dataene dine er spredt rundt gjennomsnittet. Det er enkelt å forveksle dette med standardfeilen, men det må man ikke gjøre.

Standardavvik og standardfeil går nemlig ut på det samme, men baserer seg på forskjellige tall. Mens standardavvik baserer seg på eksempeldataene dine, baserer standardfeil seg på den faktiske befolkningen.

Kovariansen er derimot en måling på hvordan to variabler varierer sammen, noe som er veldig avhengig av eksempeldataene dine. Det er viktig å ikke forveksle kovariansen med variansen, som bare måler hvordan en variabel varierer inne i et datasett.

Tolkningen av korrelasjonen følger tre grunnleggende regler. Den første er at tallene langs diagonalen alltid skal være ett. Diagonalen representerer korrelasjonen mellom variabelen med seg selv, som alltid skal være 1 eller 100%, for eksempel når korrelasjonen mellom variabelens favorittfarge og samme variabel er 100%.

Den andre regelen er at korrelasjon som er høyere enn 50% betraktes som positiv korrelasjon, mens korrelasjon som er under 50% betraktes som negativ korrelasjon. Et eksempel er, favorittfarge og vekt har negativ korrelasjon med bare 4%, men vekt og høyde har positiv korrelasjon på nesten 90%.

Den tredje regelen sier at selv om korrelasjoner under 50% blir ansett som negative, så betyr ikke det at det er ensbetydende med uinteressant. I dette eksempelet har favorittfarge en 57% korrelasjon med kjønn. Selv om det ikke nødvendigvis blir vektlagt i tabellen, signaliserer det uansett mot forskjeller i kjønn som det kan være verdt å undersøke nærmere.

Oppgave 3: Hvordan tolke statistiske metoder for analyse

Statistikk, som du kanskje har lagt merke til, er veldig avhengig av informasjonen du har lært. Derfor er det viktig å mestre grunnleggende statistikk før du prøver å forstå og gjennomføre statistiske tester.

Tolkningen av statistiske tester vil være forskjellig avhengig av hvilken test du utfører. De to vanligste testene du vil lære i begynnelsen av karrieren som statistiker er:

  • Kji-kvadrattest

  • T-test

Begge testene involverer hypotesetesting, som bruker statistikk for å teste om variabler i dataene er beslektet eller ikke. En t-test sammenligner middelverdien til to variabler og gir deg innsikt i hvordan disse to variablene er beslektet. Når sammenligner, for eksempel et nytt medikament og en placebo, kan helsepoengene til de ti pasientgruppene analyseres ved hjelp av en t-test.

En kji-kvadrattest, derimot, kan brukes enten til å bestemme om fordelingen av eksempeldataene samsvarer med en populasjon, eller om to variabler i en beredskapstabell er beslektet.

Den første testen kalles en kji-kvadrattest for godhet av passform, mens den andre kalles en kji-kvadrattest for uavhengighet. Et eksempel på en kji-kvadrattest for uavhengighet kan bli funnet når du prøver å se om antall utdanningsnivå og sivilstand er beslektet ved å sammenligne dem med en beredskapstabell.

Hvis du er usikker på hvilken test som er riktig for datasettet ditt, burde du ta en titt på denne artikkelen!

En mann med et undrende uttrykk i ansiktet sitter med en laptop på fanget
Mange datavitenskapelige prosjekt involverer hypoteser og hypotesetesting. (kilde: unsplash)

Få privatundervisning i statistikk

Heldigvis finnes det mange ressurser hvor du kan finne nyttige tips og hjelp hvis du sliter med statistikk. Ressursene består av et bredt utvalg av elektroniske plattformer, fra for eksempel Superprof, til lærebøker og annet lesestoff. I tillegg til dette finnes det også nettplattformer hvor man kan få ekstrahjelp i statistikk, og noen eksempler på dette er matematikk.org og matematikk.net.

Hvis du skulle trenge forklaringer som er litt mer detaljerte, så kan det være veldig lurt å ta en titt på YouTube hvor mange som legger ut videoveiledninger. Der er det bare å gjøre et søk med statistikkuttrykkene du sliter med og bla for å se om du finner en video som passer for deg.

Hvis du derimot foretrekker at noen forklarer det personlig til deg, så er det å skaffe deg privatlærer i statistikk et flott alternativ. Den beste måten å dra nytte av dette på er å ikke være redd for å be læreren eller foreleseren din om litt ekstra hjelp. Det er viktig å huske på at alle lærer i sitt eget tempo og på forskjellige måter, så det er ikke noe å være redd for.

Trenger du en lærer i ?

Likte du artikkelen?

5,00/5 - 1 stemme(r)
Loading...

Hanne