Kapittel 6: Stordata

Jon Atle Gulla

Publikasjon:

Publisert 16.9.2024

Samfunnet har de siste årene sett en eksplosiv økning i tilgjengeligheten av data. Virksomheter genererer data som aldri før, myndigheter samler inn og samkjører data fra stadig flere og større kilder, og innbyggere selv fotfølges av data som dokumenterer nesten hvert skritt de tar. Mens vi før hadde begrensede muligheter til å foreta dypere analyser av slike store datasett, kan vi nå med teknologien rundt stordata – eller Big Data på engelsk – avdekke ny og faktabasert innsikt. Teknologien brukes til å effektivisere og ta bedre beslutninger, og den har ført til innovasjon og nye metoder for kunnskapsforvaltning.

Jon Atle Gulla har arbeidet som professor ved NTNU i Trondheim siden
2002. Under hans data- og lingvistikkstudier utviklet han teorier for
automatisk analyse av tekstlig innhold. Som leder av lingvistikkgruppen
til Fast Search & Transfer på starten av 2000-tallet var han av de første
som brukte lingvistiske teknikker til å forstå ustrukturerte data i store
søkeløsninger. I dag samarbeider han med mediabransjen om
anbefalingssystemer og semantikk, og han er medgründer i flere selskaper
som jobber med innholdsanalyse og Big Data-teknologi.

Denne artikkelen er hentet fra boken Teknologien endrer samfunnet utgitt på Fagbokforlaget i 2017 (ISBN 978-82-450-2297-1).

Boken kan bestilles her: https://www.fagbokforlaget.no/sok/?q=978-82-450-2297-1

Hva er stordata?

I 2015 publiserte Telenor Research i samarbeid med Harvard T. H. Chan School of Public Health og Telenor Pakistan et studium som viste hvordan massive mengder data fra Telenors mobilnett i Pakistan kunne brukes til å spore og forutsi spredningen av denguefeber i Pakistan (Wesolowski, A. et al. Impact of human mobility on the emergence of dengue epidemics in Pakistan. Proceedings of the National Academy of Sciences. Volum 112, nr. 38, September). Studien, som omfattet 39 millioner SIM-kort og rundt 2–300 milliarder hendelser under et utbrudd av denguefeber i 2013, viste at statistisk store forflytninger av mobilbrukere fra epidemi-infiserte områder gir en overraskende god indikasjon på hvordan sykdommen vil spre seg de påfølgende dagene. Slike analyser av mobilbrukere og lokasjonene til basestasjonene som de til enhver tid er oppkoplet mot, kan vise seg å bli viktig for å identifisere sårbarhet ved utbrudd av sykdommen og forbedre rutinene for håndtering av viruset. Dette er et godt kjent eksempel på hvordan selskaper i stadig større grad bruker avanserte analysemetoder på massive datasett til å kartlegge sammenhenger, avdekke nye kunnskaper og skaffe seg innsikt i problemområder som for få år siden ble betraktet som uhåndterlige i kompleksitet og skala. En eksplosjon av data og nye teknologier har muliggjort denne utviklingen, og vi ser nå hvordan dette fagfeltet – stordata (Big Data) – griper inn i en rekke samfunnsområder og kan gi store gevinster på tvers av sektorer og fagområder. Teknologien legger til rette for innovasjon og nyskaping, men møter også utfordringer og etiske dilemmaer rundt personvern og sikkerhet.

Figur 1 Menneskers mobilitet i Pakistan over sju måneder i 2013. Stedsnavn angir stedene for de tre største utbruddene av viruset, mens de lysintensive mønstrene representerer store geografiske forflytninger av mobilbrukere. Studiet viste at menneskers bevegelsesmønstre kan gi gode estimater på den geografiske spredningen av og tidspunktene for epidemiske utbrudd (Wesolowski, A. et al. Impact of human mobility on the emergence of dengue epidemics in Pakistan. Proceedings of the National Academy of Sciences. Volum 112, nr. 38, September).

Selv om mange snakker om stordata, er det forbausende vanskelig å gi en klar definisjon på begrepet som alle kan enes om. Det ble muligens brukt første gang på midten av 1990-tallet av John Mashey, den gang chief scientist ved Silicon Graphics, men lite skjedde før vi på 2000-tallet innså at vi trengte nye ideer for å lagre, prosessere og analysere alle disse dataene som ble produsert i stadig større mengder. I en rapport fra McKinsey fra 2011 ble stordata beskrevet som data av en slik skala, distribusjon, variasjon og/eller trang til tidskrav at den krever nye tekniske arkitekturer og analysemetoder for å gi innsikt som utløser nye kilder til forretningsverdi. Det ble klart at tradisjonelle løsninger med relasjonsdatabaser, datavarehus og tilhørende statistiske rapporter hadde begrensninger når dataene ble store og uoversiktlige, og Google slo fast i 2012 at vi produserte like mye data på to dager som det ble produsert totalt fra sivilisasjonens vugge fram til 2003. Ifølge et studium fra EMC Corporation regner en med at det innen 2020 blir generert 1,7 megabytes i sekundet med ny informasjon for hvert menneske på jorda (EMC Corporation (2011). IDC Digital Universe Study: Big Data, Bigger Digital Shadows and Biggest Growth in the Far East).

De tre V-ene beskriver stordata

Det er ingen konsensus om hva som utgjør stordata og stordata-knyttede teknologier. Litt uformelt kan vi si at det dreier seg om utnyttelse av store mengder data, ofte i sanntid og ofte på tvers av organisasjoner, datakilder og formater, der den underliggende teknologien omfatter hele verdikjeden fra datainnsamling til analyse og visualisering av resultater. Begrepet er relatert til Business intelligence og Data mining, men fokuserer i større grad på data som er så store, omskiftelige eller komplekse at egne metoder og teknologier må til for å trekke mening ut av dem. Begreper som Data science og Data analytics brukes noen ganger synonymt med stordata, og de som jobber med stordataproblemer og - teknologier, kaller seg ofte data scientists.

Å kvantifisere stordata i eksakte tall er vanskelig, og kanskje heller ikke formålstjenlig, men det er vanlig å beskrive stordata gjennom de tre V-ene: Volume, Velocity og Variety.

Volume (volum): Store mengder av data. Størrelsen til datasettene kan være fra terrabytes til zettabytes (se tabell 6.1). Google prosesserte for eksempel 24 petabytes hver dag i 2012, mens en undersøkelse gjort av KDNuggets i 2015 viste at 2–3 % av de som responderte nå jobbet med datasett over 100 petabytes. Allerede i 2012 genererte Walmart daglig rundt 2,5 petabytes med data for sine én million kunder.

Velocity (omløpshastighet): Store datamengder fra transaksjoner med høy oppdateringsfrekvens gir datastrømmer av stor hastighet. I motsetning til de retrospektive analysene i konvensjonelle løsninger krever disse datastrømmene ofte at analysene og beslutningene gjøres i sanntid. Mens Google i 1998 betjente 3,5 millioner spørringer daglig, måtte de i 2012 håndtere 3 milliarder daglige spørringer som hver skulle ha et svar innen brøkdelen av et sekund.

Variety (variasjon): Dataene kan komme fra både eksterne og interne kilder, og har ofte variabel form og struktur. Transaksjons- og loggdata er ofte detaljerte, veldefinerte og strukturerte, mens ustrukturerte data fra for eksempel tekst, bilder og videostrømmer kan være vanskelige å tolke og analysere. Ustrukturerte data vokser i dag 15 ganger raskere enn strukturerte, og utgjør allerede nå over 90 % av dataene vi produserer.

IBM har foreslått å inkludere en fjerde «V» som de kaller Veracity. Dette kan oversettes med sannferdighet, pålitelighet eller kvalitet, og tanken er at begrepet skal reflektere graden av usikkerhet knyttet til dataene. Datakildens sannferdighet eller pålitelighet er avgjørende for bruken av visse algoritmer, både fordi hvert datapunkt kan påvirke sluttresultatet og fordi brister eller hull i datasettene kan rettes opp hvis en kan stole på kildene. Dette kan være spesielt viktig for datasensitive beslutninger i private og offentlige virksomheter.

Flere har også tatt til orde for å la Value (verdi) være en dimensjon i definisjonen av stordata. Et sentralt aspekt i stordataarbeidet er at analysene skal gi økt verdi i forhold til de originale datakildene. Det betyr at arkitekturen og de anvendte teknikkene må være kostnadseffektive og fleksible, og vi må kunne legge til rette for at vi kan søke etter sammenhenger i dataene som ikke er definert på forhånd eller mulig å tenke seg når løsningen ble satt opp.

Tabell 1 Måleenheter for digitale data.

Hvor finner vi stordata?

Det kan være lett å se seg blind på de store globale selskapene og deres massive datasett. Spotify har i dag over 100 millioner brukere og 30 millioner sanger, og de lagrer én terrabyte av loggdata hver eneste dag. Ebay prosesserer data om 150 millioner aktive brukere og 800 millioner objekter, mens Google Play må håndtere mer enn en milliard brukere og godt over en million apper i sine systemer. Disse selskapene er i dag ikke typiske for den vanlige bruker av stordata. Stordata handler om å kunne finne nye sammenhenger i strømmer av data av variabel kvalitet og struktur, og det er ofte den samlede kompleksiteten som får tradisjonelle tilnærminger til å knele. Noen ganger er det størrelsen på dataene som er den største utfordringen, andre ganger kan det være at beslutninger må tas på veldig kort tid, at dataene er dårlig strukturert eller vanskelige å tolke, eller at vi rett og slett ikke vet hva dataene kan fortelle oss. Ta for eksempel Sparebanken 1 SMN i Trondheim. Mens de i 2001 hentet inn 2,5 GB av data fra 94 kilder, var tallet for 2016 99 GB fra 629 kilder. Antall transaksjoner hadde i samme periode økt fra 5 millioner pr. måned til 11,5 millioner. Selv om disse tallene ikke kan måle seg med selskaper som Google og Spotify, er det aspekter knyttet til sanntidsprosessering og intelligente analyser av heterogene data som gjør det attraktivt å ta i bruk stordatateknologi også for slike virksomheter. Transaksjonsdata er noe mange organisasjoner har god erfaring med å samle inn, organisere og prosessere. Med stordata kommer det ofte inn andre operasjonelle data i stor hastighet og fra ulike kilder. Typisk for disse kildene er at de er raskt voksende, kan være av ømfintlig natur og kan gi en dypere innsikt i domener og brukere:

Tekstlige data: Tekster fra for eksempel eposter, sosiale sider og nyhetsportaler er noen av de mest anvendte typene av stordata. Her prøver vi å trekke ut essensen av tekster som i neste omgang kan brukes til å søke, kategorisere dokumenter, avsløre falske forsikringskrav, bygge profiler over leserne og mye mer.

Webdata: Bortsett fra innholdsdata fra selve websidene er det ofte snakk om data om kundeadferd i form av sidevisninger, spørringer, handlekurver på netbutikker eller lesetider. Slike data kan brukes blant annet til å personalisere websider, målrette annonser og segmentere kunder.

Tid og lokasjon: GPS, mobile telefoner og trådløse nettverk har ført til at tid og lokasjon er blitt viktige datakilder i stordataløsninger. På individuelt nivå kan dette brukes til å overvåke personer og personalisere tjenester. På et aggregert nivå sier det noe om forflytninger og ansamlinger av mennesker, noe som har gitt opphav til mange nye tjenester de siste årene.

Sosiale nettverk: Ved å analysere lenker mellom personer på sosiale sider som Facebook, LinkedIn og Instagram kan vi avdekke personers sosiale relasjoner og bygge modeller for både hvem den enkelte bruker stoler på og hvilke personer som har innflytelse eller troverdighet i visse miljøer. Over en milliard mennesker bruker Facebook på en enkelt dag og etterlater seg spor om interesser, venner og relasjoner.

Sensordata og tingenes Internett: Sensordata samles inn fra for eksempel satellitter, biler, oljeledninger og strømnett med veldig høy frekvens. Med tingenes Internett ser vi en utvikling der stadig fl enheter, som kjøleskap og tannkoster, koples opp på Internett og sender ut datastrømmer som brukes til å overvåke systemer samt diagnostisere og utvikle løsninger på problemer. Det er vanskelig å spå hvordan tingenes Internett utvikler seg, men anslagene spenner fra 20 til 200 milliarder enheter innen 2020.

Åpne data: Stadig mer offentlig informasjon gjøres tilgjengelig som åpne, lenkede data. Siden de defineres i henhold til åpne semantiske standarder, kan de tolkes og lett inkluderes i helt andre systemer enn det de opprinnelig ble laget for. Informasjon om norske selskaper i Brønnøysundregisteret er for eksempel tilgjengelig som åpne data. Et interessant lenket datasett er Wikidata, som i dag definerer rundt 24 millioner konsepter i flerfoldige språk og vedlikeholdes av frivillige over hele verden.

På mange måter er stordata likevel mer et paradigmeskifte enn et spørsmål om terrabytes og zettabytes. Som Tabell 2 viser, er analysen av stordata preget av en veldig åpen, uttømmende og eksplorativ tilnærming. Vi ønsker å analysere alle tilgjengelige data, selv om de kan være av variabel kvalitet og kan være ekstremt vanskelig å tolke. Siden dataene ikke er organisert for en bestemt hypotese eller et bestemt formål, må en lete etter interessante mønstre i dataene som kan gi ny innsikt i domenet. Mens vi i en konvensjonell analyse setter opp en datastruktur for å verifisere om et bestemt medikament har en positiv effekt ved behandling av en sykdom, kan vi med stordata tenke oss at vi heller prøver å trekke ut nye relasjoner mellom alle slags sykdommer og medikamenter gjennom analyser av store mengder tekstlige, medisinske journaler. En konvensjonell bokhandel kan i ettertid se på resultatene av salgskampanjer for å vurdere hvordan den neste gang skal få bedre effekt. I en stordataverden ønsker vi å analysere den enkelte kundes oppførsel under selve kjøpsprosessen for umiddelbart å anbefale ekstra bøker eller spesielle tilbud mens han fortsatt fyller handlekurven.

Tabell 0.1 Stordata skiller seg fra konvensjonelle data (Løvoll, G. et al. (2015). Understanding and mapping big data. BYTE: Big data roadmap and cross-disciplibary community for addressing societal externalities. Hentet fra www.byte-project.eu).

Hvilke sentrale utviklingstrekk kan vi se?

Produksjonen og tilgangen til store mengder data har vært avgjørende for framveksten av de teknologiske løsningene for stordata. Genereringen av nye data fra sensorer, sosiale media og åpne data har vokst eksponentielt de siste årene, og alle estimater tyder på at dette vil fortsette. Sosiale og politiske prosesser har gitt et økt fokus på åpenhet i beslutningsprosesser og tilgjengelighet av informasjon. Både offentlig forvaltning og private virksomheter ser en egenverdi i å gjøre informasjon tilgjengelig for allmenheten.

Samtidig med at dataene og viljen til å tilgjengeliggjøre data vokser i samfunnet, har båndbredden økt kraftig, og kostnader knyttet til lagring og prosessering av informasjon har gått betydelig ned. Nye skytjenester gir kostnadseffektive og fleksible løsninger for prosessering og lagring av data på eksterne servere.

Stordatas overordnede analyseprosess skiller seg ikke mye fra det som har vært praktisert med mindre datasett de siste 20–30 åra. Data genereres, samles inn og lagres, distribueres og prosesseres, analyseres og ofte visualiseres. De store, omskiftelige og varierte datasettene krever likevel nye teknologiske komponenter som er ekstremt skalerbare, massivt parallelle og kostnadseffektive.

En viktig del av stordataarkitekturen er gode modeller for distribuert lagring og distribuert prosessering av store datasett på klynger av datamaskiner. MapReduce, som i sin tid ble introdusert av Google, er et konsept for hvordan en slik parallell, distribuert algoritme kan realiseres effektivt. Et av de mest brukte rammeverkene for implementasjon av MapReduce, Apache Hadoop, består av et distribuert filsystem for å holde data i flere noder i en klynge og en prosesseringsdel som kan ta intensive dataprosesser og spre beregningene over potensielt uendelig mange klynger.

Tradisjonelt har data vært lagret i store relasjonsdatabaser, som strukturerer all informasjon som tabeller og tilbyr et spørrespråk som kombinerer data fra flere tabeller og returnerer den ønskede informasjonen. Slike databaser inneholder strukturert og veldefinert informasjon over transaksjoner, kunder, produkter og så videre. Noen av disse dataene har periodisk blitt ekstrahert fra databasene, transformert og lastet opp i datavarehus for videre analyse og rapportering. For dataene som lagres i for eksempel store Hadoop-klynger, kommer imidlertid denne teknologien til kort. En av de største, offentlig kjente Hadoop-klyngene ligger hos Yahoo! og var i 2014 på 455 petabytes lagret på mer enn 40 000 servere med mer enn 100 000 CPU-er. Ingen relasjonelle databaser eller datavarehus kan håndtere slike størrelser. Den tradisjonelle teknologien har i tillegg problemer med å lagre variable, ustrukturerte data som tekst, audio, og video. I stedet bruker vi i stordata ofte databaser som ikke krever tabellbaserte, veldefinerte data, men er laget for raskt å aksessere massive mengder ustrukturerte data som kan være lagret over flerfoldige servere.

Maskinlæring kan benyttes til analyse av data. Det kommer fra kunstig intelligens og omfatter en rekke matematisk og statistisk baserte metoder som gjør datamaskiner i stand til å lære fra og utvikle adferd basert på empiriske data. Fokuset er på automatisk gjenkjenning av komplekse mønstre i data, der algoritmene må kunne generalisere og finne løsninger på problemer den ennå ikke har observert eksempler på tidligere.

Mot en datadrevet verden

Mens vi med tradisjonelle metoder fokuserte på det som allerede hadde skjedd, ønsker vi med stordata heller å sannsynliggjøre hva som vil skje eller hva som bør gjøres for å få noe til å skje. Vi skiller mellom deskriptive, diagnostiske, prediktive og preskriptive analyser. Deskriptive analyser svarer på spørsmål om hva som har skjedd i fortiden for å skape innsikt i hvordan vi skal nærme oss problemene i framtiden. Tradisjonelle datavarehus og datagruvedrift brukes ofte til å analysere historiske data og generere rapporter på:

salgsstatistikker for siste kvartal

hvilke produkter/kunder/regioner som er mest lønnsomme

gruppering av kunder på bakgrunn av produktpreferanser eller livssituasjon

Diagnostiske analyser tar disse analysene et skritt videre og prøver å finne forklaringsmodeller for de observerte, historiske tallene. Tilnærmingen likner mye på deskriptive analyser, men en bruker hypoteser til å teste sammenhenger som for eksempel

hvorfor et produkt selger bedre enn et annet, eller

hvorfor vi mister kunder i bestemte regioner eller tidsperioder

Med prediktive analyser prøver vi å bruke stordata til å forutsi noe om hva vil skje framover. Dette er vanskeligere og forutsetter ekstrapolering av trender og mønstre fra historiske tall. Statistiske modeller med maskinlæring og massive datasett analyseres for å beregne det sannsynlige framtidige utfallet eller sjansen for at en situasjon skal oppstå. Slike analyser kan gi svar på:

sannsynlig antall klager til sentralbordet neste kvartal

hvilke kunder som mest trolig vil kansellere abonnementet sitt

hvilke nye produkter som har det største salgspotensialet

Preskriptive analyser skal gi oss svar på hvordan vi skal håndtere en sak eller få noe til å skje. Her kombinerer en tung statistikk, maskinlæring og forretningsregler til å foreslå operasjonelle tiltak eller til og med automatisk utføre aksjonene som foreslås. Slike analyser kan være:

hva slags tilbud vi bør gi til en kunde som er i ferd med å forlate oss

hva slags nyhetsartikler vi bør anbefale for å holde på en leser i nyhetsportalen

automatisk bestilling av en motordel som ifølge en sensor er i ferd med å ryke

Figur 2 Stordata fokuserer på prediktiv og preskriptiv analyse.

Alle disse formene for analyser er viktige og har til dels vært brukt før også. Prediktive og preskriptive analyser krever store datamengder og tunge beregninger, noe som gjorde dem kostnadskrevende og tidkrevende å kjøre for virksomheter før. Stordata medfører at analysene nå kan kjøres hyppigere og på nye former for data, og med mye større presisjon. Et resultat av dette er at vi også i større grad kan vurdere en automatisering av beslutningsprosesser i virksomheten, for eksempel ved å personalisere tilbudene til en kunde i selve kjøpsprosessen.

Kitchin har argumentert for at dette paradigmeskiftet også betyr at vi kan nærme oss forskningsproblemer på en helt ny måte (Kitchin, R. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructure and Their Consequences. SAGE publications). Tradisjonelt samler vi inn data, bygger modeller og tester forskningshypoteser, og datamaskiner brukes til å implementere spesifiserte funksjoner og kjøre veldefinerte tester. Dette kaller han Computational science. Med stordata kan vi tenke oss en mer åpen og datadrevet tilnærming, en Exploratory science, der fragmenterte eller manglende modeller kompenseres med tunge dataanalyser som utforsker et mye større løsningsrom og kan komme opp med nye teorier og sammenhenger. Det er ikke slik at stordata tar bort behovet for å bygge forklaringsmodeller og teoretiske beskrivelser, men vi kan tenke oss at teoriene og dataanalysene utvikles mer i felleskap med gjensidige avhengigheter. Modellene er fortsatt viktige for å tolke mønstre og relasjoner som ekstraheres fra dataene, samtidig som modellene utvikles etter hvert som nye analyser avdekker ny innsikt som ikke var kjent under modelleringen.

Hva er de viktigste anvendelsene av stordata?

Anvendelsene av stordata finner vi i en rekke sektorer, både i industrielle virksomheter og i offentlig forvaltning. Det er tunge, data-drevne applikasjoner som har ført til gjennomgripende endringer i virksomhetene, men også i måten en tenker rundt data, tjenester og innovasjon. Vi ser at stordata gir rom for en mer dynamisk tilnærming, der strategiene bør ta høyde for etableringer av nye tjenester, nye applikasjoner, nye selskaper og nye markeder:

Data frigjøres fra applikasjonene, slik at de samme dataene kan brukes av mange applikasjoner til en rekke forskjellige formål.

Utforskning av store datasett gir opphav til både forbedring av eksisterende tjenester og etablering av nye, innovative tjenester og selskaper.

Stordata gjør at store, globale selskaper kan opptre med lokale tilpasninger, og lokale selskaper kan raskt skalere opp til globale markeder.

Alt dette betyr at stordataprosjekter må være godt forankret i virksomhetens strategier og planer, og organisasjonen må være moden for de teknologiske mulighetene teknologien bringer med seg. Viktige anvendelser i dag faller inn under segmentering og prediksjon, operasjonelle analyser, anbefalingssystemer og målrettet markedsføring og innholdsanalyse.

Segmentering og prediksjon

En stor del av stordataapplikasjonene faller inn under kategorien segmentering og prediksjon. Ta for eksempel en bank. Hver dag søker millioner av mennesker på lån, nye kredittkort og andre tilbud. Som del av beslutningsprosessene bruker bankene all den informasjonen de har om søkerne og deres finansielle bakgrunn til å beregne hvor sannsynlig det er at kundene oppfyller sine forpliktelser. Beslutninger tas på bakgrunn av prediksjoner om brukerne eller hvilke brukersegmenter de ender opp i. Stordata kan effektivisere og akselerere beslutningsprosessene og avdekke nye muligheter for innovasjon og næringsutvikling.

Et eksempel på utviklingen i banksektoren i Norge er Sparebank 1 SMN. I 2011 investerte de i et avansert analyseverktøy, SAS Visual Analytics, som har gjort det mulig for dem å samkjøre store datamengder fra ulike kilder, kjøre analyser av transaksjoner i sanntid og generere en rekke visuelle presentasjoner av analyseresultatene. I 2014 startet arbeidet med en ny løsning, Customer Decision Hub, som samler inn alle mulige slags data om kundene for å forstå og gruppere kundene bedre. Dette verktøyet skal brukes til å gjøre kommunikasjonen med bankens 459 000 kunder mer presis og gjøre det mulig å prioritere kunder og produkter ut fra sannsynlig avkastning.

Operasjonelle analyser
Med operasjonelle analyser mener vi applikasjoner som inkluderer stordata i forretningsprosesser og automatiserte beslutninger, slik at millioner av daglige beslutninger kan tas av analyseprosessen selv uten menneskelig innblanding. Disse systemene opererer normalt under tidspress, og det vil ta for lang tid om en saksbehandler manuelt skal samle inn og analysere dataene for hver enkelt beslutning. For eksempel endrer flyselskapene automatisk flyrutene når et fly er forsinket for å begrense ulempene for de reisende og øke kundetilfredsheten. Analysene tar hensyn til en rekke forhold ved hver enkelt reisende, informasjon om andre passasjerer og statusen til alternative flyruter.

I Norge jobber Statens vegvesen med innsamling av store mengder trafikkdata i sanntid. De har flere tusen målepunkter som skal utgjøre et landsdekkende nett av trafikkregistreringsstasjoner for sykkel og motorkjøretøy. Dataene brukes til å informere trafikantene bedre, effektivisere drift og vedlikehold og bedre trafikkavvikling og trafikksikkerhet.

Anbefalingssystemer og målrettet markedsføring
Anbefalingssystemer observerer brukeres adferd over tid og bygger profiler som indikerer hva de kan være interessert i eller ha behov for. Det er to hovedtyper av anbefalingsstrategier: kollaborativ filtrering og innholdsbaserte anbefalinger. Ved kollaborativ filtrering grupperer vi først brukeren sammen med andre brukere som har vist de samme interessene, og anbefaler ting som liknende brukere har verdsatt tidligere. Innholdsbaserte anbefalinger betyr at vi anbefaler nye ting som innholdsmessig likner på de tingene brukeren har lest, kjøpt, eller brukt tid på tidligere.

Et norsk selskap som har jobbet mye med anbefalingsteknologi mot ustrukturerte, tekstlige data er Cxense i Oslo. Deres plattform brukes av medieselskaper over hele verden til å målrette annonser og lage nyhetsopplevelser tilpasset den enkelte leser. De håndterer i dag 37 språk og analyserer rundt 40 nyhetsartikler per sekund som kan ha helt vilkårlige strukturer og presentasjonsformer. Som del av overvåkningen av de rundt 1,5 milliarder brukerne som deres kunder betjener, registrerer de opp mot 40 000 hendelser per sekund. Slike hendelser kan være alt fra at en bruker klikker på en nyhetsartikkel til at han legger en bok i handlekassen på en nettbutikk.

Mediebransjen i Norge har begynt å eksperimentere med anbefalingssystemer på nettet for å gi leserne en bedre og mer relevant leseropplevelse. En analyse i Adresseavisen har vist at anbefalt innhold på deres websider driver rundt 5–10 % av all artikkeltrafikk samt at leserne bruker rundt 20 % mer tid på å lese anbefalte artikler, fra 63 sekunder på ordinære artikler til 76 sekunder på anbefalte artikler. Arbeidet viser at leserne har stor aksept for loggingen av leseradferd så lenge det gir en bedre leseropplevelse, men at vi skal være bevisst på balansen mellom automatisk genererte anbefalinger og redaksjonelle valg og sikre en tilstrekkelig variasjon i artiklene for å unngå at leseren havner i en «filter bubble». Internasjonalt rapporterer Netflix at rundt 2/3 av filmvisningene er fra anbefalte filmer og Amazon at 35 % av salget kommer fra anbefalinger.

Innholdsanalyse
Store mengder tekstdata blir ofte brukt til statistisk baserte analyser av tekstinnhold. En populær teknikk er sentimentanalyse, der vi analyserer sentimenter over en rekke artikler for å estimere hvordan markedet eller allmennheten ser på et bestemt produkt, selskap eller individ. Et sentiment kan vi sammenlikne med en stemning eller holdning som gir uttrykk for i hvilken grad noen liker eller misliker det som omtales. For eksempel vil vi normalt anta at setningen «Oppgraderer Telenor til kjøp» den 6. desember fra Hegnar.no uttrykker en positiv stemning rundt selskapet, mens utsagnet «Får ny refs for behandlingen av konkurrentene» samme dag fra E24 gir mer negative assosiasjoner. Store selskaper kjører jevnlige, globale sentimentanalyser av egen merkevare for å vurdere selskapets renommé i markedet. I en sentimentanalyse drar vi nytte av maskinlæringsteknikker som over tid lærer hvilke trekk ved teksten som best avslører om den er positivt eller negativt ladet. En enkelt tekst betyr sjelden mye, men sentimentanalyser fra for eksempel alle de største norske avisene over flere måneder gir en god indikasjon på meningene som presenteres i det offentlige rom. Andre mye brukte innholdsanalyser på stordata er generering av artikkelsammendrag, nøkkelordsekstraksjon og oversettelse av tekster mellom språk. Eksperimenter fra Google Translate tyder på at oversettelsessystemer med maskinlæring og store datasett kan gi større presisjon enn tradisjonelle oversettere som er basert på manuelt sammensatte regler for hvordan morfologi, syntaks og semantikk skal håndteres.

Utfordringer og etiske problemstillinger

Vi må alltid anta at stordata ikke nødvendigvis er 100 % nøyaktig eller pålitelig. Prediktive og preskriptive analyser bruker statistiske korrelasjoner til å identifisere mønstre og trekke ut ny kunnskap. Når for eksempel en persons innkjøp av bøker på Amazon korrelerer med hans fridager, kan vi normalt anta at han liker å lese når han har fri. Vi skal likevel være forsiktig med å anta at alle korrelasjoner betyr at det er kausale sammenhenger. Som grafen i Figur 3 fra Tyler Vigen viser, er det tilsynelatende en sterk korrelasjon mellom importen av råolje fra Norge til USA og amerikanske kjørere som har mistet livet i togkollisjoner i perioden 1999–2009. Få vil likevel argumentere for at det er denne importen som har forårsaket kollisjonene, eller at importen i det hele tatt har hatt noen innflytelse på antall kollisjoner. Korrelasjoner må tolkes med forsiktighet, og eksperter på stordata må i sine analyser alltid vurdere hvorvidt foreslåtte korrelasjoner utgjør en kausalitet eller bare er tilfeldige samvariasjoner.

Figur 3 Korrelasjon, men ikke kausalitet.

Det er også en del bekymringer rundt sikkerhet og usikre data. På den ene siden er det stordataprosjekter som ikke investerer nok i rutiner og strukturer for å sikre dataene mot innbrudd eller feilaktig bruk. På den andre siden vet vi ofte ikke nok om opphavet eller sannferdigheten til dataene som brukes, noe som kan rokke ved troverdigheten til analysene.

Personvern dreier seg blant annet om enkeltindividers rett til å ha innflytelse på bruk og spredning av personopplysninger om seg selv. Mange stordataapplikasjoner informerer eksplisitt hva slags data de lagrer om brukerne og hva de overvåker, men det er usikkert om brukerne alltid reflekterer over konsekvensene av at alle disse dataene bygges opp. Erfaring viser at brukerne aksepterer overraskende mye overvåkning hvis han får den ønskede funksjonaliteten. For personvernet gir disse datainnsamlingene flere utfordringer:

Anonymisering kan bli vanskelig når flere datakilder samkjøres. Vi trenger gode kjøreregler for hvordan anonymiserte data bør kombineres for å unngå re-identifisering av personer.

Innsamlede data kan bli brukt til helt andre formål enn det brukerne i utgangspunktet aksepterte.

Sammenstilling av datakilder kan gi innblikk i intime, personlige detaljer som i neste omgang gjøres kjent eller brukes i nye analyser. Et eksempel er hvordan Target i 2012 brukte historiske data fra gravide kvinner til å beregne sannsynligheten for at en kvinne med en viss kjøpshistorikk er gravid og nærmer seg termin. De kunne da sende henne spesielle tilbud på babyklær og -mat, selv om hun selv ikke hadde informert noen om graviditeten.

Når stordata brukes til demografisk segmentering, for eksempel ved å dele befolkningen inn etter alder, kjønn, rase eller inntekt, kan uforsiktig bruk fort føre til diskriminering eller forsterking av uheldige samfunnsforhold. Et slikt eksempel på potensielt uheldig bruk av korrelasjoner i store datasett illustreres av et studium utført ved Carnegie Mellon University i 2015 (Datta, A. et al. (2015). Automated Experiments on Ad Privacy Settings. Proceedings on Privacy Enhancing Technologies. Volum 2015, nr. 1, s. 92–112.). I Googles annonseringssystem bygges det profiler over store mengder brukere som matches mot annonser i henhold til kriterier som ikke er helt transparente. Systemet overvåker brukernes adferd over tid og bruker maskinlæring til automatisk å vurdere hvilke annonser som vil virke mest effektivt på hvilke brukere. I studiet ble det laget 1000 simulerte brukere – halvparten menn og halvparten kvinner – som ble sendt til 100 populære websider for jobbsøkere. En gjennomgang av annonsene som ble anbefalt for dem viste at de mannlige profilene ble vist annonser for høyt betalte stillinger 1852 ganger, sammenliknet med de identiske, kvinnelige profilene som så disse annonsene bare 318 ganger. Den websiden som hadde den sterkeste assosiasjonen med de mannlige profilene var en karriereveiledningstjeneste for lederjobber over 200 000 dollar. Det er ikke gitt at denne kjønnsforskjellen er en direkte svakhet ved den algoritmiske tilnærmingen til annonsesystemet, da det også kan være preferanser hos annonsøren eller andre aspekter ved websiden som spiller inn, men det gir en pekepinn på hvordan teknologien kan sementere eller forsterke uheldige samfunnsforhold når observasjoner om dagens forhold ukritisk brukes til å påvirke eller styre framtidig adferd.

Hva med fremtiden

Det er liten tvil om at stordata har kommet for å bli. Selv om noe av støyen rundt begrepet har lagt seg, investeres det mer i stordata enn noen gang. Vi omgir oss med stadig større datamengder, og analysen av disse dataene blir nødvendig for å forstå en stadig mer kompleks verden. Prediktive og preskriptive analyser er nyttige verktøy for både offentlig forvaltning og private virksomheter.

Vi ser i dag anvendelser av stordata i mange sektorer, også i Norge, og teknologien har allerede ført til nye tjenester og nye virksomheter.

Stordata er en kompetansekrevende teknologi. Rammeverkene og teknikkene er komplekse og deler av teknologien er fortsatt umoden. Stordataprosjekter krever ikke bare tung IKT-bakgrunn, men til dels også ferdigheter i statistikk, lingvistikk og andre disipliner.

Viktigst er likevel en erkjennelse av hvordan stordata griper inn i virksomhetens strategier og at stordataprosjekter er å anse som strategiske snarere enn tekniske prosjekter. Analyseresultater må tolkes i virksomhetens kontekst, og det er bare den som har tilstrekkelig innsikt i hva virksomheten ønsker å oppnå med stordata som kan dra nytte av dens muligheter og forstå dens begrensninger fullt ut.

Mer som dette

Nyhetsbrev

NTVAs ærespris for 2024 tildeles Jarl Gjønnes og...

Får ærespris for utvikling av banebrytende teknologi for å rasjonalisere høsting og ta bedre vare...

Se mer

Artikler

Kapittel 17: Autonome kjøretøy

Automatiserte selvkjørende kjøretøy, såkalte autonome, førerløse kjøretøy, eller robotkjøretøy, er...

Kapittel 15: Industriroboter

Norge var tidlig ute som robotnasjon med Trallfa-roboten, som ble lansert i 1966, og som ble...

Kapittel 16: Additiv tilvirking

Det er vel knapt noen som ikke har møtt begrepet «3D-printing» i en eller annen sammenheng i løpet...

Se mer

Publikasjoner

Teknologien endrer samfunnet

Teknologi endrer samfunn, noe som knapt nok er en nyhet. Om vi betrakter alt som er oppfunnet...

Det nye digitale Norge

Boken Det nye digitale Norge er en artikkelsamling som gir en oversikt over hvordan digitalisering...

Se mer

Arrangementer

Utvinning av havbunnsmineraler – Norges reelle...

Dette møtet tar opp Norges ambisjoner om utvinning av havbunnsmineraler og stiller spørsmålet om...

Digital Twins towards Structural Health...

The Academy of Engineering in Poland (AIP) inviterer til webinar om offshore wind.

Geotermisk energi – Systemintegrering bygger...

NTVA, GEAN og GCE Node inviterer til et felles seminar om geotermisk energi med særlig fokus på...

Se mer

Kapittel 6: Stordata

Hva er stordata?

De tre V-ene beskriver stordata

Hvor finner vi stordata?

Hvilke sentrale utviklingstrekk kan vi se?

Mot en datadrevet verden

Hva er de viktigste anvendelsene av stordata?

Utfordringer og etiske problemstillinger

Hva med fremtiden

Mer som dette

Nyhetsbrev

Artikler

Publikasjoner

Arrangementer

Del på sosiale medier

Kapittel 6: Stordata

Hva er stordata?

De tre V-ene beskriver stordata

Hvor finner vi stordata?

Hvilke sentrale utviklingstrekk kan vi se?

Mot en datadrevet verden

Hva er de viktigste anvendelsene av stordata?

Utfordringer og etiske problemstillinger

Hva med fremtiden

Mer som dette

Nyhetsbrev

Artikler

Publikasjoner

Arrangementer

Del på sosiale medier

Kommentarfelt