Dataräjähdys muutti datan merkityksen yhteiskunnassa – miten siihen pitäisi reagoida?
Digitaalinen data ympäröi meitä nykyisin joka puolella, ja sen merkitys taloudessa, kulttuurissa ja viihteessä kasvaa koko ajan. Fyysinen maailma on ikään kuin vain alusta, jonka päälle virtuaalinen datamaailma rakentuu. Koska Tilastokeskus on keskeinen datan käsittelijä ja tiedon tuottaja Suomessa, heittää digitalisaatio meille ison haasteen arvioida rooliamme ja palvelujamme uudelleen.
Mutta mitä on data?
Se on tavallisesti joukko havaintoja tai merkintöjä, kuten mittaustuloksia. Data itsessään ei merkitse mitään, vaan vasta tulkinnan avulla se saa merkityksen ja kontekstin. Silloin aletaan puhua datan sisältämästä informaatiosta. Samasta datasta voidaan eri tulkinnoilla saada irti monenlaista informaatiota – myös sellaista, jota dataa kerättäessä ei osattu ajatella. Tähän perustuvat mm. moderni data science ja tiedon louhinta.
Entisaikaan datan tallennusvälineenä oli yleisimmin paperi. Datan siirto tarkoitti paperin kuljettamista ja kopioiminen oli työlästä käsin jäljentämistä. Siirtämisen ja kopioinnin hankaluus hillitsivät ihmisten datanhimoa tehokkaasti.
Nykyään datan kopiointi, säilytys ja siirtely on käytännössä ilmaista, kiitos tietokoneiden, digitaalisten tallennusvälineiden ja internetin. Kun oikeastaan mikään ei enää rajoita datan määrän kasvua, on käynyt ilmi, että ihmisten halu tuottaa, jakaa, käyttää ja omistaa dataa on täysin kyltymätön.
Vuosituhannen vaihteessa alkoi eksponentiaalisen dataräjähdyksen aikakausi, jota elämme edelleen. Tällä hetkellä internetissä oleva datamäärä kaksinkertaistuu joka vuosi.
Olen jakanut datan muutamiin yksinkertaisiin alalajeihin havainnollistaakseni niiden erilaista luonnetta ja käyttöä. Jako ei ole mitenkään tieteellinen tai kaiken kattava, mutta auttanee hahmottamaan käynnissä olevaa dataräjähdystä.
Transaktiodata on kaikkein vanhin kerätyn datan muoto, ja se pohjaa tarpeeseen kirjata talteen erilaisia taloudellisia ja hallinnollisia tapahtumia. Suomessa syntymät ja kuolemat on kirjattu kirkonkirjoihin 1600-luvulta alkaen, ja ensimmäiset tietojärjestelmät, kuten pankkitilit tai väestörekisteri, liittyivät nimenomaan transaktiodatan hallintaan. Tilastokeskuksen tilastot dokumentoivat lähinnä transaktiodatan muutoksia.
Lokitieto kuvaa erilaisten tapahtumien kulkua. Sen erottaa transaktiodatasta heikompi rakenteisuus ja se, että lokia voidaan kerätä hyvin pienistäkin muutoksista, tai jopa siitä, että mitään ei tapahdu.
Lokitiedon määrä maailmassa kasvaa paljon nopeammin kuin transaktiodatan, ja kirjausten suunnattoman määrän vuoksi perinteiset taulukkomuotoisen datan käsittelyvälineet eivät oikein sovellu lokitiedon analysointiin.
Teksti, kuva, audio ja video haukkaavat nykyisin valtaosan internetin tietoliikenteestä ja käytössä olevasta tallennustilasta. Niitä käytetään ennen kaikkea ihmisten väliseen viestintään työssä, taiteessa, viihteessä ja sosiaalisessa elämässä. Etenkin kuvaa ja videota syntyy käsittämättömiä määriä: esimerkiksi YouTubeen ladataan 500 tuntia videota joka minuutti. Tämän ryhmän datan analysointi edellyttää tavallisesti jonkinlaista tekoälyä.
Paikkatieto, kartat ja 3D-mallit. Paikkatietoa tallennetaan transaktioiden yhteydessä, esimerkiksi kiinteistökaupoissa, ja sitä kerätään lokeihin, kuten matkapuhelinten sijaintitietoja. Paikkatieto muuttuu hyödylliseksi vasta, kun se asetetaan kontekstiin kartalle, muiden paikkatietojen yhteyteen.
GPS-paikannuksen avulla matkapuhelinten ja monien muidenkin laitteiden tuottamaan dataan voidaan nykyään lisätä sijainti. Paikkatiedon määrä on räjähtämässä käsiin, jolloin perinteiset analyysi- ja hallintavälineet eivät enää riitä miljardien sijaintitapahtumien käsittelyyn.
Sensoridata on IoT-vallankumouksen (Internet of Things, esineiden internet) tuoma uusi datan muoto, joka mahdollistaa minkä tahansa sähkölaitteiden välisen kommunikoinnin netissä. Esimerkiksi autot voivat viestittää liikennevalojen kanssa ja verenpainemittari jakaa tietonsa terveysrannekkeen kanssa.
Joidenkin arvioiden mukaan IoT-kyvykkäitä laitteita on maailmassa tällä hetkellä noin 50 miljardia, ja ne tuottavat päivittäin 5 miljardia gigatavua dataa. Kukaan ei tiedä miten tätä kaikkea dataa hallitaan, tai mitä sillä kaikella edes tehdään.
Lisäksi voidaan ajatella, että myös ohjelmakoodi on eräs datan kategoria; koodi antaa koneelle ohjeet, kuinka suorittaa jokin tehtävä. Modernien tietojärjestelmien koodimäärät ovat suunnattomia. Arvioiden mukaan maailmassa syntyy viikossa yli 2 miljardia riviä koodia.
Erityinen alaluokka ohjelmakoodista ovat tekoälyjärjestelmien sisään syntyvät koneoppimismallit, jotka voivat pitää sisällään valtavista datamääristä kiteytettyä informaatiota. Niiden hallinnasta kenelläkään ei ole vielä mitään käsitystä.
Julkisen, läpinäkyvän tilastoinnin piirissä on vain hyvin pieni osa nykymaailmassa syntyvästä datasta. Transaktiodatan suhteellinen osuus vähenee koko ajan, koska muiden datamuotojen määrät kasvavat paljon nopeammin.
Tämä haastaa paitsi tietoa tuottavat viranomaiset, myös esimerkiksi median; tulisiko muustakin datasta raportoida jotain? Millainen data on merkityksellistä kansalaisille, yrityksille tai päätöksenteolle?
Esimerkit kertovat ongelman laajuudesta: Missä tilastoidaan kirjoitettujen koodirivien määriä? Ovatko käytetyimmät hashtagit tai hakusanojen 10 kärjessä -tulokset yhteiskunnallisesti merkittävää tietoa? Näkyvätkö somen sisällöntuottajat työvoimatilastoissa? Rakennukset pystyvät pian kertomaan henkilömääränsä – pitäisikö niitä tilastoida?
Yhä suurempi osa yhteiskunnan toiminnasta siirtyy digitaalisen maailmaan, jolloin myös sitä säätelevää lainsäädäntöä tulee jatkuvasti lisää. Miten lakien toteutumista voidaan seurata ilman tilastointia? Onko meillä realistinen kuva ihmisten elämästä ja yhteiskunnan tilasta, jos emme seuraa ja analysoi myös datamaailman ilmiöitä?
Tämä kaikki vaatii uudenlaista osaamista sekä uusia välineitä, menetelmiä ja normeja. Data science -menetelmien on muututtava yksittäisistä käsityösuorituksista monistettaviksi vakioratkaisuiksi, joita kaikki tietoammattilaiset osaavat käyttää. Tässä on suuri haaste tilastovirastoille ja muille tiedontuottajille.
Kirjoittaja työskentelee Kehittäminen ja digitalisaatio -palvelualueen ylijohtajana Tilastokeskuksessa. Hän käsittelee blogisarjassaan datan olemusta ja merkitystä nyky-yhteiskunnassa.
Avainsanat:
Miksi tätä sisältöä ei näytetä?
Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.