Hva er egentlig data? Data defineres som informasjon om verden og dens individer som samles inn og analyseres som et hjelpemiddel i beslutningstaking. I dag blir data ofte assosiert med nyttig datavisualisering, deriblant diagrammer og infografikk, men det er likevel viktig å forstå dens historie utvikling.

Data er et fenomen som går langt tilbake, til for eksempel år 3200 f.Kr. På det tidspunktet hadde skriving begynt å utvikle seg i Mesopotamia, og de skriftlærde registerte data som skatte- og avlingsinformasjon fra dagliglivet med hensikten å forbedre regnskaps- og landbrukssystemene deres.

Natur- og matematisk vitenskap var også under utvikling på den tiden, og det ble utviklet seg mer og mer. Etter hvert som teknologien ble bedre, forvandlet matematisk statistikk seg til noe kraftigere, og det var datavitenskap.

Et bord med en datamaskin, bøker og skrivesaker
Datavitenskap består av mange forskjellige emner, så dette faget kan være gøy for mange. (kilde: unsplash)

Datavitenskap kombinerer det vi tenker på som tradisjonell statistikk og informatikk, for å analysere store mengder data og finne nye analysemetoder.

Dataanalyse bruker matematisk kunnskap fra et statistikkurs for å modellere data, mens datavitenskap hovedsakelig fungerer som en disiplin som brukes til å hente ut og forstå informasjon fra store datamengder. Noen av de grunnleggende ferdighetene du må tilegne deg for å lære datavitenskap er:

  •  Kalkulus 1 & 2
  •  Lineær algebra
  • Å lære seg sannsynlighet og annen sannsynlighetsteori
  • Matematisk statistikk
  • Datavitenskap

Det finnes en rekke nettbaserte ressurser som kan hjelpe deg i gang med å lære disse grunnleggende ferdighetene. Nettsteder som Superprof tilbyr et bredt utvalg av privatlærere som kan gi både online og ansikt-til-ansikt undervisning i statistisk matematikk og datadrevet datavitenskap.

Les om grunnleggende statistiske metoder og begreper.

Hva er big data og analyse av big data?

Når du definerer datavitenskap, er det umulig å gjøre det uten å først definere hva big data er. Det første gjennombruddet i ''big data'' går tilbake til andre verdenskrig med gruppen datamaskiner kjent som Colossus.

I tidsrommet 1943-1945 brukte britiske kryptografer et innovativt rammeverk for å tyde koder som ble brukt av naziregimet.

Det var John Mashey i selskapet Silicon Graphics som først begynte å bruke begrepet big data om de store datamengdene rundt 50 år senere, og det brukes fremdeles på samme måte i dag. Det betyr at dataprogrammer og avanserte algoritmer brukes til analyse av ekstremt store datamengder for å finne verdifulle mønstre og trender.

I dag kan analyse av big data gjøres av en rekke behandlingsprogramvarer og utføres av både enkeltpersoner, myndigheter og selskaper. Hadoop, som ble utgitt i 2005, var den første gratis programvaren med åpen kildekode som bedrifter og forhandlere kan bruke for å lagre store mengder data og levere bedre søkeresultater til kundene sine.

Noen av de mest populære selskapene på Internett brukes Hadoop, deriblant Facebook, Twitter, Amazon og Linkedin. Hadoop blir sett på som et revolusjonerende produkt innen big data og forretningsanalyse, men det har kommet flere forskjellige programmer med samme formål i senere tid. Et av disse programmene er Spark.

Den vanligste definisjonen av big data er lik Dog Laneys 2001-definisjon, som i dag er kjent som de tre v-ene:

  • Volum: ideen om at selskaper og myndigheter samler store mengder data fra en rekke kilder, inkludert sosiale medier og forretningstransaksjoner.
  • Variasjon: forestillingen om at data kommer i forskjellige former, som for eksempel tekst, lyd og e-post.
  • Velositet: ideen om at data strømmer inn i en bemerkelsesverdig hastighet og må behandles raskt og effektivt.

De viktigste utvidelsene av denne definisjonen inkluderer innovasjon, noe man er helt avhengig av for å kunne bruke de tre v-ene på en effektiv måte. Å være i stand til å fatte beslutninger er også viktig, siden det er det ultimate resultatet av behandling av big data.

En dataskjerm med tall som former et hjerte
Datavitenskap innebærer blant annet å strukturere datamengder til meningsfull informasjon. (kilde: unsplash)

Hva gjør egentlig en dataforsker?

I begynnelsen av tiåret ble datavitenskap omtalt som den mest sexy jobben i det 21. århundre av Harvard Business Review. Denne uttalelsen tok ikke bare utgangspunkt i den økende rollen til big data i forretningsstrukturer og regjeringer, men også fra faktum. To av Linkedins lister over nye attraktive jobber inkluderer spesialiseringer innen datavitenskap.

Det neste store spørsmålet er, hva gjør dataforskere egentlig?

I 1962 skrev Jon W. Tukey artikkelen The Future of Data Analysis der han stiller spørsmål ved den sentrale funksjonen innen statistikkfeltet som han mente begynte å utvikle seg til det han kalte dataanalyse.

I dag er det å jobbe med dataanalyse veldig vanlig, men tvetydighetene som utfordret den voksende fagfeltet på slutten av 1900-tallet er fremdeles høyst aktuelle. Disse tvetydighetene blir dog omtalt som datavitenskap i nyere tid. Dataforskere jobber med mye forskjellig, men dette er noen av hovedoppgavene deres:

  • Å samle inn, rengjøre og transformere ofte ustrukturerte, store datamengder.
  • Bruke programmeringsspråk som SAS, SPSS, Python og R i arbeidet sitt.
  • Finne mønstre og modellere big data fra bedrifter og myndigheter med hensikten å øke profitt og forbedre strategier.
  • Finne bedre håndteringsmetoder til arbeid med big data
  • Å automatisere prosessene

Det siste punktet er en viktig implikasjon av datavitenskap. Mange bedrifter ansetter dataforskere for å gjøre nettopp det, mens andre sektorer er ute etter dataforskere til å jobbe mot fremtidige mål. Ferdighetene som ofte er knytt til dette arbeidet er maskinlæring og dyp læring.

Hva er maskinlæring og dyp læring?

Det var en gang kunstig intelligens ble ansett som en fremtidig prestasjon. I dag kjenner vi det som også som Al og det blir brukt daglig, i form av blant annet digitale assistenter og ansiktsgjenkjenningsfunksjoner.

Mange tror at grensene for kunstig intelligens kun strekker seg til datavitenskap, men det innebærer faktisk mange flere datavitenskapelige attributter. To av disse attributtene er nettopp maskinlæring og dyp læring.

Det var Alan Turning som gjorde et av de første forsøkene på å definere maskinlæring. Det skjedde i 1950, og han forsøkte å finne ut om maskiner faktisk kunne tenke, noe han skrev om i artikkelen Computing Machinery and Intelligence.

Et år etter at denne artikkelen ble publisert, introduserte Marvin Minsky og Dean Edmonds den første databaserte simuleringen som replikerte den menneskelige hjernen. Det blir også kalt et kunstig nevralt nettverk.

Men begrepet maskinlæring har, siden den gang, vokst til å omfatte at datamaskiner kan motta informasjon og lære av dataene selv, og bli mer nøyaktige når de fortsetter "å lære".

Mens maskinlæring blir ansett som et delemne av feltet Al, blir dyp læring sett på som et delemne av maskinlæring. Hvis man så skal ta automatisering et skritt videre, så er målet med dyp læring at maskiner skal kunne gjenkjenne objekter og konsepter uten å være programmert til å gjøre det.

Et godt eksempel på både maskinlæring og dyp læring er katter. Maskiner kan trenes ved trinn som involverer algoritmer for å gjenkjenne en katt gjennom maskinlæring, mens dyp læring antyder at ved å eksponere en enorm mengde bilder av katter for en maskin, vil de til slutt lære å gjenkjenne en katt på egen hånd.

Med andre ord innebærer den ene å manipulere data for at maskinen skal kunne forutsi utfall, og den andre innebærer å introdusere store datamengder slik at maskinen kan forutsi utfall. Begge disse prosessene har likhetstrekk med prediktiv analyse.

En person som sitter foran en PC med statistikk på skjermen
Statistikk er en viktig del av datavitenskap. (kilde: unsplash)

Hvordan blir man dataforsker?

Det finnes heldigvis mange kilder som kan hjelpe folk som er interessert i datavitenskap, enten du bare vil lære mer om emnet generelt eller ønsker å spesialisere deg i et felt. To eksempler på hva man kan gjøre er å studere IT eller å ta en bachelor i data science.

For de som leter etter utdanningsprogrammer innen data, er det viktig å huske på to ting:

  • Er datavitenskap riktig for deg?
  • Hva kan man jobbe med innen datavitenskap?

Når du skal bestemme deg for hvilket utdanningsprogram du ønsker å ta, er det viktig å sammenligne alle fagene som tilbys i løpet av programmet, for dette kan variere veldig fra universitet til universitet.

Noen utdanningsprogrammer er sterkt mattebaserte og har en tendens til å lene seg mer på kvantitative teoretiske applikasjoner, mens andre utdanningsprogrammer vil være mer rettet mot datadrevet forretningsinformasjon.

Hvis du trenger hjelp med å ta et valg, kan du søke på nettet etter jobbmuligheter innen datavitenskap og se om det er noe som virker spennende eller matcher interessene dine.

Hvis det er noen nødvendige ferdigheter som gjentar seg, så skriv dem gjerne ned for å kunne sammenligne dem med utdanningsprogrammene du er interessert i. På den måten kan du få en bedre forståelse for hvilket utdanningsprogram som ikke bare passer for deg, men som også vil hjelpe deg med å finne en jobb etter endt skolegang.

Hvis du derimot vil omskolere deg, er det viktig å finne ut om datavitenskap er riktig for deg. Også da kan det være nyttig å se på stillingsannonser som fanger oppmerksomheten din og se på ferdighetene som kreves.

Hvis det er noen av ferdighetene du ikke har, men som du har lyst til å lære, så kan du begynne å finne måter du kan mestre dem på. Noen vanlige ferdigheter som kreves av dataforskere er:

  • SQL
  • Python
  • Hadoop
  • Statistikk
  • Analytiske ferdigheter
  • Forberedelse av data

Heldigvis finnes det nettsider som Superprof som tilbyr et bredt spekter av privatlærere i disse feltene, og disse finner man raskt og enkelt på nettsiden deres. For mer informasjon, datasett og dataanalyseverktøy, kan du også sjekke ut online ressurser som Kaggle og datavitenskapens verktøykasse.

Trenger du en lærer i ?

Likte du artikkelen?

5,00/5 - 1 stemme(r)
Loading...

Hanne