Suomen datatalous lähdössä lentoon
Datamenestyjät-kilpailun voittaja on tämän vuoden osalta valittu. Osallistuneet työt olivat hyvin mielenkiintoisia ja antavat ehkä suuntaa sille, miten datan jalostus tulevaisuudessa kehittyy. Tekniikan kehittyessä datan tallennus, siirto ja käsittely ovat halventuneet, osin muuttuneet jopa ilmaisiksi.
Nykypäivän data scientistilla on käytössään sellaiset analyysivälineet ja laskentakapasiteetti, josta parikymmentä vuotta sitten saatettiin vain haaveilla. Koodaustaitoiselle on tarjolla netissä huippuluokan analyysikirjastoja ja -rajapintoja ilmaiseksi.
Se mikä ei ole halventunut, on datan keruu. Ehkä tulevaisuudessa esimerkiksi IoT-laitteiden avulla sekin helpottuu, mutta toistaiseksi etenkin suurten, tilastolliseen käsittelyyn ja koneoppimiseen soveltuvien datajoukkojen kerääminen on kallista, hidasta ja työlästä. Siihen on varaa lähinnä suurilla vakiintuneilla toimijoilla, kuten suuryrityksillä, valtioilla ja isoilla kunnilla. Datatalous ja datan päälle rakentuvat ekosysteemit tarvitsisivat kuitenkin raaka-ainetta.
Yrityksille niiden keräämä data on kilpailuetu, ja useimmat yritykset eivät mielellään jaa sitä, etenkään ilmaiseksi. Näin ollen julkishallinnolle on jäänyt rooli tarjota jauhettavaa datatalouden myllyihin. Tämä lähtökohta on EU:n avoin data -ajattelun ytimessä.
Eurooppalainen datatalous on paljolti vielä lähtökuopissa, mutta Suomessa alamme lähestyä kriittistä pistettä, jossa siitä tulee oikeasti merkittävää liiketoimintaa.
Mikä tekee menestyvän datapalvelun? Datamenestyjät -kilpailutöissä nousee esiin ainakin kaksi ominaisuutta: visualisointi ja oikeanlainen kysymyksen asettelu.
Visualisoinnin merkitystä suurten datamäärien havainnollistajana ei voi liikaa korostaa. Perinteisesti tilastotieteilijät ovat rakastaneet numeroita, mutta eivät juurikaan ole kiinnittäneet huomiota niistä viestimiseen. Muutama pakollinen pylväs- tai viivadiagrammi on saattanut numeroiden ohesta löytyä, mutta jo karttojen käyttö on ollut kovin harvinaista. Useimmat tiedot voidaan kuitenkin kytkeä johonkin paikkaan, ja jo niiden visualisointi kartalle lisäisi tiedon arvoa huomattavasti. Tämä näkyi useassa kilpailutyössäkin.
Samoin erilaisten suhdelukujen ja suuruusluokkien hahmottaminen numeroista on vaikeaa, mutta kuvista hyvin helppoa. Visualisointi tuottaa helpolla tavalla lisäarvoa datalle.
Vaativampi, mutta vielä tärkeämpi datapalvelun ominaisuus on, että se vastaa oikeisiin kysymyksiin. Palvelun tulee tarjota käyttäjälle relevanttia tietoa ja jotain mitä ei muuten saa. Mitä paremmin palvelu vastaa johonkin tosielämän tietotarpeeseen, sitä menestyneempi se todennäköisesti on.
Toisaalta palvelun tarjoajan tulee ymmärtää, mihin kysymyksiin käytettävissä olevasta datasta voi saada vastauksen. Avoimien rajapintojen kautta saatava data on yleensä kerätty alun perin johonkin ihan muuhun käyttötarkoitukseen, jolloin sen soveltuvuus ja siitä saatava informaatio toiseen käyttöön voi olla merkittävästikin rajoittunut. Modernit edistyneet välineet kyllä laskevat tuloksia ja visualisoivatkin ne hienosti, mutta tulos voi olla täysin hyödytöntä kohinaa tai jopa valeinformaatiota.
Tällaisen datalukutaidon merkitys on kasvanut koko ajan. Jos tarvittavaa oikeaa dataa ei ole saatavilla, puutteellisestakin tiedosta saatetaan etsiä vastauksia. Erityisesti modernit koneoppimisvälineet pystyvät löytämään hämmästyttäviä yhteyksiä asioiden välillä. On kuitenkin asiantuntijan tehtävä arvioida, onko sillä merkitystä. Korrelaatio ei merkitse kausaliteettia.
Kirjoittaja työskentelee Kehittäminen ja digitalisaatio -palvelualueen ylijohtajana Tilastokeskuksessa. Hän käsittelee blogisarjassaan datan olemusta ja merkitystä nyky-yhteiskunnassa.
Avainsanat:
Miksi tätä sisältöä ei näytetä?
Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.