Det er et stort utvalg av dataanalysemetoder i statistikk. Dataanalyse defineres ved å samle inn, utforske, rengjøre, transformere og modellere datamateriale.

Denne artikkelen vil fokusere på utforskende og modelleringsmetoder - det vil si å gi deg informasjon om ulike typer data, som du trenger for å bestemme hvilke metode i dataanalyse du skal utføre på datamaterialet ditt.

Når du har samlet inn datamaterialet, bør det første trinnet i enhver form for dataanalyse være å forstå hva hver av variablene dine betyr, for eksempel hvor vidt de er kvantitative eller kvalitative. Kvantitative og kvalitative data bør testes og tolkes annerledes, så det er viktig å definere variablene dine før du begynner å analysere. De aller fleste statistiske programvarer, som SPSS, vil gjøre dette for deg automatisk.

Det er imidlertid viktig å gå gjennom hver variabel selv for å bestemme hva hver variabel er og hvorfor den er av interesse i henhold til analysen din.

For å finne ut av dette kan man gjennomføre en utforskende analyse av datamaterialet. Det gjør man ved å undersøke og trekke ut noen beskrivende statistikker. Husk at du også kan få utvinningskunnskap fra et statistikkurs.

Beskrivende statistikk kan enten rapporteres numerisk eller ved hjelp av noen nyttige visualiseringer. Noen eksempler på numerisk rapportering finnes i beregning av gjennomsnitt, median og standardavvik. Man kan også rapportere beskrivelser visuelt i form av grafiske fremstillinger som for eksempel søylediagrammer, kakediagrammer og korrelasjonstabeller.

Når du har utført den utforskende analysen, bør du sjekke om datamaterialet ditt oppfyller forutsetningene som hver test krever. Det er også derfor en utforskende analyse er nødvendig, fordi det å forstå beskrivelsene av datamaterialet ditt vil hjelpe deg å finne ut hvilke tester som er passende å bruke på datamaterialet ditt.

Ark med diagrammer
Å fremstille informasjonen grafisk er også veldig hjelpsomt. (kilde: unsplash)

Hypotesetesting: forskjellen mellom en hypotese og en nullhypotese

Som forsker er det mange måter å begynne analysearbeidet av datamaterialet ditt. Å samle inn data er viktig for å begynne å danne et forskningsdesign. Da danner man et forskningsspørsmål basert på en observasjon av en bestemt befolkning, også kalt hypotese.

Hypotesetesting slik vi kjenner det i dag ble popularisert av statistikerne Jerzy Neyman og Egon Pearson på 1930-tallet. Hypoteser i statistikk er normalt en påstand om et datamateriale, der hypotesetesting er en forskningsmetode som tester sannsynligheten for at et utsagn er sant.

Sammen med enhver hypotese er det også en nullhypotese. En nullhypotese er en uttalelse om utvalgspopulasjonen som generelt sier at de forskjellige gruppene man tester ikke har noe forhold til hverandre.

Avhengig av om du utfører en kvantitativ eller en kvalitativ dataanalyse, vil både hypotesen og nullhypotesen endres. For å bestemme hvilket spørsmål du vil stille, er det viktig å bestemme hvilke variabler som er av interesse for deg.

Hvis du utfører en variansanalyse (ANOVA), kan hypotesene dine være for eksempel:

  • H1: gjennomsnittet av den avhengige variabelen er ikke den samme i alle grupper

  • H2: gjennomsnittet av den avhengige variabelen er den samme i alle grupper

Det kan være lurt å sjekke hva du kan om statistisk analyse, og det kan man gjøre ved å gjøre noen nettbaserte øvingsoppgaver!

Multivariate analysemetoder

Det er mange forskjellige metoder som kan brukes når du utfører multivariate hypotesetester. Den valgte metodikken vil være sterkt avhengig av hvilken type spørsmål du vil løse, og hvilke typer variabler du har. Avhengig av hvilken strategi du bruker, vil målet med analysen din endres.

Ved å sammenligne disse forskjellige metodene kan du finne ut hvilken type statistisk test du vil bruke. En tommelfingerregel er at multivariate metoder for avhengighet involverer hypoteser, men multivariate metoder for gjensidig avhengighet involverer ikke hypotesetesting.

En tommel omgitt av grønne planter
Det kan være nyttig å lage seg noen tommelfingerregler, hvis man plutselig skulle stå fast i arbeidet. (kilde: unsplash)

Multivariate analysemetoder for avhengighet

Multivariate analysemetoder for avhengighet er kraftige analysen som beskriver forholdet mellom en eller flere avhengige variabler som flere uavhengige variabler. De vanligste multivariate analysemetodene for avhengighet er:

MetodeObjektHypoteseVariabler
Multippel regresjonÅ finne forholdet mellom to eller flere variabler og bruke denne informasjonen til å estimere verdien av den avhengige variabelen.Hypotese: de avhengige variablene har en effekt på den uavhengige variablen.
Nullhypotese: de avhengige variablene har ingen effekt.En avhengig skalavariabel med uavhengige variabler med flere skalaer.
Multivariat variansanalyse (MANOVA)Å finne ut om to kategoriske variabler har effekt på to skalavariablerHypotese: Det er en effekt av en eller begge kategoriske variablene på skalavariablene.
Nullhypotese: det er ingen effekt.
To avhengige skalavariabler og to kategoriske variabler
Diskriminerende analyseÅ identifisere hvor vidt en eller flere grupper er forskjellige, og hvilke variabler som er mest forskjellige hos gruppene.Hypotese: gruppene er forskjellige når det gjelden den avhengige variabelen.
Nullhypotese: gruppene er ikke forskjellige når det gjelder den avhengige variabelen.
En avhengig kategorisk variabel og to eller flere uavhengige skalavariabler

Multivariate analysemetoder for gjensidig avhengighet

Gjennom multivariate analysemetoder for gjensidig avhengighet tolker man et sett av variabler som en gruppe, og det er ikke viktig hvor vidt en variabel er avhengig eller uavhengig. De vanligste multivariate analysemetodene for gjensidig avhengighet er:

MetodeBruksområdeVariabler
FaktoranalyseÅ kondensere informasjon hvis det er mange variabler for å redusere mange individuelle variabler til noen få dimensjonerSkalavariabler eller ordinale variabler
KlyngeanalyseÅ tildele egenskaper til grupper av variabler slik at hver gruppe er like med hensyn til disse egenskapene, og gruppene selv er forskjelligeSkala eller kategorisk, men tolkning vil være vanskeligere med en blanding av variabler

Hvordan tolke bestemmelseskoeffisienten og p-verdi

Når du arbeider med tolkning av hypoteser, er det viktig å forstå hvilken test du har utført. Det er vanlig å tolke resultatene på samme måte som den statistiske programvaren man bruker i arbeidet, og resultatene blir da vanligvis oppsummert i tabellform.

La oss ta multippel lineær regresjon som et eksempel, med vekt som avhengig variabel og inntekt, diett og høyde som uavhengige variabler. De viktigste rapporteringsverdiene finner man i r-kvadratverdien og p-verdien. Ta en titt på tabellen nedenfor for å se hvordan du kan tolke hver enkelt rapporteringsverdi.

AspektHypoteseTolkning
HypoteseMultippel regresjon der: j representerer tallet på den avhengige variabelen. B er koeffisienten. H1 er Bj er ikke lik 0 i minst en j. H0 er Bj = 1.H1: Inntekt, kosthold og høyde påvirker vekten.
H0: Inntekt, kosthold og høyde påvirker ikke vekten.
R-kvadratverdiR2 = 0.6868% av variabiliteten i vekt er forklart av de uavhengige variablene - inntekt, diett og høyde - i modellen.
P-verdiP = 0.0001Med en p-verdi mindre en 0,05, ved 0,0001 beholder vi hypotesen og avviser nullhypotesen.

Det er viktig å huske at når man arbeider med de forskjellige multivariate analysemetodene, så vokser sammenhengen utenfor korrelasjonstabellene sjeldent. Sørg for å bruke ordet korrelasjon i rapporten din på riktig måte.

Et tre som har vokst opp fra en haug med mynter
Inntekt blir ofte sett som en variabel i sammenheng med en analyse. (kilde: unsplash)

Hvordan strukturere en analytisk rapport

Vi har alle vært der: å prøve å skrive en konklusjon kan være overraskende vanskelig. Denne frustrasjonen kan imidlertid unngås ved å strukturere rapporten riktig. Vanligvis kommer et abstrakt først, som er en kort oppsummering av forskningsprosessen som er skrevet etter at forskningen og analysen har funnet sted.

Deretter burde en introduksjon av prosjektet komme, for å gi en kontekstuell ramme til oppgaven din. I tillegg til å redegjøre for målet med rapporten din, bør man også vise til andre artikler som har utgangspunkt i databasert teoriutvikling. Gyldigheten av disse rapportene er viktig med hensyn til ditt eget eksperiment, for gjennom dette vil du være i stand til å gjøre en innholdsanalyse av ditt eget arbeid.

Hvis du var forsker i en datainnsamlingsprosess, ville det være nødvendig å oppgi metodikken din. Metodisk innsamling av rådata varierer og kan omfatte alt fra undersøkelser, tester i et laboratorium, eller fra elektroniske databaser. Det er derfor viktig å ha en detaljert beskrivelse av hvordan du gjorde det.

Analysedelen av datamaterialet ditt vil involvere alt som har blitt diskutert tidligere. Denne delen inkluderer undersøkende analyse gjennom strukturerte grafer og tabeller, samt de forskjellige statistiske metodene som brukes på datamaterialet ditt. Du bør tydelig oppgi om variablene dine oppfyller forutsetningene for de statistiske testene du benytter.

Når du skal analysere resultatene fra datamaterialet ditt, er det viktig å formulere dette på en organisert og tydelig måte, ettersom det er kjernen i rapporten din. Enhver antagelse som er brutt eller transformasjon av en variabel bør noteres enten i denne delen av rapporten eller i et vedlegg, avhengig av hvem du skriver for.

En enkel måte å strukturere denne delen på er å sørge for å skille de viktigste delene av analysen din fra resten av rapporten. Dette kan gjøres ved å enten markere, understreke eller utheve disse setningene med fet skrift.

Til slutt skal du konkludere og skrive en konklusjon. Denne delen skal ikke bare inneholde et sammendrag av testresultatene dine, men også en evaluering av selve rapporten. Det betyr at rapporten skal se på de forskjellige måtene den kunne håndtert forskningsprosessen på forskjellige måter og hva du som forsker kan gjøre annerledes neste gang.

Det er også viktig å reflektere over hvordan man kan forske videre på det aktuelle temaet, hvis det skulle være noen som vil gjøre det på et senere tidspunkt.

Hvis du føler at du trenger litt ekstrahjelp med big data studier eller i dette emnet generelt, kan du sjekke ut noen webinarer på nettet eller søke etter en privat statistikklærer!

Trenger du en lærer i ?

Likte du artikkelen?

5,00/5 - 1 stemme(r)
Loading...

Hanne