Iso data tilastotoimessa
Iso data haastaa monessakin mielessä perinteistä tilastotietoa. Ylivoimaisin se on nopeutensa vuoksi. Perinteisen tilastotiedon vahvuuksia ovat tiedon ajallinen vertailtavuus ja edustavuus. Yhteistyöllä voidaan saavuttaa molempia tiedontuotannon muotoja hyödyttäviä etuja.
Nykyisin keskustellaan paljon tiedon vallankumouksesta ja massadatasta, jotka teknologinen kehitys ja tiedon digitalisoituminen ovat mahdollistaneet. Myös big data -aiheisten kirjoitusten määrä on lisääntynyt eksponentiaalisesti siinä missä Google-hakujenkin. Kyseessä on big data -hypetys.
Myös julkinen tilastotoimi on merkittävästi reagoimassa ison datan haasteeseen sekä kansainvälisellä (YK), eurooppalaisella (Euroopan komissio) että kansallisella tasolla. Julkishallinnon tehtävänä on toimia ison datan mahdollistajana, hyödyntäjänä ja voimavarojen kohdentajana.
Käsittelen artikkelissani isoa dataa ja sen haasteita tilastotoimen kannalta. Keskityn ensin tilastoinnin laatunäkökohtiin ja esittelen sitten joitakin esimerkkejä massadatan tilastollisesta hyödyntämisestä.
Isoa dataa ei ole mielekästä käsitellä kokonaisuutena, sillä määritelmällisesti eheä se ei ole. Iso data on jatkuvaa datavirtaa jollakin elämän osa-alueella vaikkapa sosiaalisen median päivityksinä tai luottokorttitransaktioina. Voitaisiinko transaktiodatasta saada tietojen julkaisemista nopeuttavaa täydennystä taloustilastoihin? Voitaisiinko kauppojen kanta-asiakaskorttiaineistoilla saada lisäpotkua kotitalouksien kulutuksen tilastointiin?
Toisaalta luonnollinen suuntaus etsiä uusia tietolähteitä nykyisten tilastojen rikastamiseksi ja mahdollisesti uudentyyppisten tietojen tuottamiseksi on ollut olemassa jo kauan. Tilastotoimessa ollaan silti vielä esivaiheessa varsinaisen ison datan suhteen, mutta siellä tunnistetaan hyvin se, että yksityisellä puolella iso data voi olla jo arkipäivää tietojen tuottamisessa.
Muuttuuko tilaston käsite?
Tilastotoimi on julkista, ja sitä säätelevät tiukat laatukriteerit, jotka on useimmiten standardoitu kansainvälisesti ja erityisesti osana Euroopan tilastojärjestelmää. Tilastotiedot perustuvat vertailtavuuteen pitkine aikasarjoineen – ei väliaikaisuuteen.
Iso data haastaa monessakin suhteessa perinteisen virallisen tilastotiedon. Voiko meillä olla tulevaisuudessa kilpailevia yksityisen sektorin tuottamia tilastoihin rinnastettavia tietoja? Joka puolella generoidaan dataa ja myös osataan analysoida sitä. Lisäksi menestyvät tahot voivat rekrytoida parhaimmat osaajat; näistä tunnetuimpia esimerkkejä on luonnollisesti Google.
Lukijalle ovat jo nyt varmasti tuttuja erilaiset internetissä julkaistut taulukot, joilla ei ole mitään tekemistä virallisen tilaston kanssa. Jos etsii asuntoa tietyltä alueelta, saa helposti kyseisen alueen tuoreen hintakehityksen, ja ehkäpä jopa tietystä kiinteistöstä. Tällaisia tilastotoimi ei tarjoa.
Keskustelua herättää ajoittain massadatan eräs erityinen ominaisuus tilastotoimen näkökulmasta: sitä hallinnoi tyypillisesti yksityinen sektori. Entä jos datalle tuleekin hintalappu? Miten käy tiedon tuotannon jatkuvuuden?
Yritykset luovuttavat yleisesti tilastoviranomaisille tietoja toiminnastaan, mutta eivät hallinnoimistaan tietovarannoista. Muutoinkin avoimen datan yhteydessä kuulee erittäin harvoin open business datasta. Avoin tieto kuuluu julkisen sektorin tuotettavaksi.
Entä sitten big datan laatu? On hyvä huomata, että tilastotieteellisesti kaikkein tärkein laatudimensio, tarkkuus ja luotettavuus, on vain yksi virallisen tilaston laadun ulottuvuuksista. Muut ovat relevanssi, puolueettomuus ja läpinäkyvyys, laadun hallinta, tietosuoja, tehokkuus, yhtenäisyys ja vertailukelpoisuus, saatavuus ja selkeys sekä oikea-aikaisuus ja ajantasaisuus (Tilastokeskus 2010).
Laatukriteereistä tarkkuus ja ajantasaisuus ovat usein ristiriidassa keskenään. Tilastoinnissa ristiriitaa voidaan ratkaista tuottamalla ennakkotietoja, jotka tarkentuvat aineiston karttuessa. Vielä nopeampia tilastotietoja toivotaan niin kutsuttuina flash-estimaatteina, pikaennakkoina, ennen virallisia ennakkotietoja.
Nopeus on erityisesti yksi ison datan keskeisistä perusominaisuuksista ja siinä mielessä se haastaa perinteisen tilastotiedon. Iso data elää tässä hetkessä jatkuvana tapahtumien virtana. Ison datan ongelma on siinä, että se pitää pilkkoa pieneksi, jotta sitä voi käsitellä. Tällaiset pilkkomistyökalut on mahdollistanut viime vuosien teknologinen kehitys datan tehokkaamman varastoinnin ohella.
Tunnetuin avoimen lähdekoodin työkalu on Hadoop. Hadoop on suurten datamassojen tallentamiseen ja tehokkaaseen rinnakkaiskäsittelyyn optimoitu järjestelmä.
Tilastokeskuksen hallinnollisia aineistoja voi visualisoida ja esittää ilman pilkkomistakin – olkoonkin, että se voi olla vaativaa. Näin tilastoaineistot eivät ole määritelmällisesti isoa dataa. Entisestään kasvavien valtavien hallinnollisten aineistomassojen käsittelyssä ja yhdistelyssä modernit tietovarastoteknologiat tulevat kuitenkin ilman big dataakin ajankohtaisiksi (Piela 2013a; 2013b).
Nopeuden lisäksi toinen keskeinen syy ison datan ja uusien tietolähteiden etsimiselle ovat niiden mahdollistamat aiempaa tehokkaammat tiedonkeruumuodot. Voitaisiinko esimerkiksi hintatiedonkeruuta korvata internetistä löytyvillä hinnoilla? Tilastokeskus selvittelee tänä vuonna vastausta kysymykseen erillisrahoituksen turvin.
Internet-hinnat ja transaktiot ovat hyviä esimerkkejä keskeisestä ison datan haasteesta – edustavuudesta. Otoksen edustavuuden klassinen tilastotieteellinen määritelmä on: suhteellisten jakaumien otoksessa pitää olla samat kuin kohdeperusjoukon jakaumien (Bethlehem 2009).
Ison datan piirissä olevat eivät edusta välttämättä tilastoinnin tai tutkimuksen kohdeperusjoukkoa. Kaikilla ei ole esimerkiksi luottokortteja käytössään, eikä voida ajatella luottokorttien käyttäjien edustavan myös niitä, joilla sitä ei ole.
Sosiaalinen media on yksi kiinnostuksen kohde kansainvälisessä tilastotoimen maailmassa. Ajankohtainen kysymys tähän liittyen on, kertovatko Twitter- tai Facebook-päivitykset jotakin onnellisuuden ja hyvinvoinnin kokemuksesta? Jos kertovat, niin miten laajaan väestöryhmään tulokset voidaan yleistää?
Nopeasta isosta datasta etua ennustamiseen
Nopeus on massadatan keskeisiä etuja, ja siksi se voi parantaa ennusteiden laatua. Tästä hyvänä esimerkkinä on ETLAn julkaisema tutkija Joonas Tuhkurin selvitys (Tuhkuri 2014), jossa internet-hakuaineistolla hyödynnettiin nykyhetken ja lähitulevaisuuden työttömyyden ennustamista. Työttömyystiedot tulivat Tilastokeskuksesta ja hakutiedot Google Trends -palvelusta.
Työttömyyteen liittyvien Google-hakujen yleisyyttä kuvaavalla muuttujalla oli tutkijan mukaan onnistuttu parantamaan aikasarjamallin tarkkuutta siten, että se ennustaa nykyhetken ja lähitulevaisuuden työttömyyttä paremmin kuin sama malli ilman Google-muuttujaa. Tällaisen internet-hakuja hyödyntävän mallin etu korostuu erityisesti käännekohtien ennustamisessa, mikä on luonnollisesti ennustuslaitosten suurimpia haasteita.
Myös Eurostat on julkaissut tutkimuksia Google Trends -palvelun käytöstä virallisen tilaston tutkimus- ja menetelmäportaalissaan muiden juuri nyt relevanttien iso data -tutkimusten ohella (Eurostat).
Kansainvälistä kehittämistä
Euroopan komissio rahoittaa tutkimusta, jonka avulla on tarkoitus edistää ison datan hyödyntämistä tilastotietojen tuotannossa. Euroopan unionin tilastovirastolla Eurostatilla on oma työryhmänsä (ESS Task-force on Big Data and Official Statistics), jossa Suomen Tilastokeskuksella on edustajansa.
Työryhmässä pohditaan ja kehitetään tulevia iso data -pilotteja eurooppalaisen tilastotoimen tarpeisiin. Taulukkoon on koottu työryhmän johtopäätöksiä iso data -aineistotyypeistä ja mahdollisista tilastoista, joissa aineistoja voitaisiin hyödyntää.
Taulukko 1. Ison datan tietolähteitä ja mahdollisia tilastointikohteita
Mobiilipaikannusdataa väestö- ja matkailutilastoihin
Tilastojen rikastamiseksi mobiilipaikannusdata auttaisi matkustustilastojen laadinnassa. Esimerkiksi Hollannin tilastovirasto käyttää yö- ja päiväväestön paikantamiseen kolmannen osapuolen aggregoimia tietoja, jotka perustuvat teleoperaattori Vodafonen mobiilipäätteiden paikannusdataan. Televiestintälaki estää tilastoviranomaiselta mikrotason tietojen saamisen välillisenkin tunnistamisen riskin nojalla. Aineistolla on hintansa ja sopimus yhtiön ja tilastoviraston välille on tehty vuodeksi kerrallaan.
Hollannin tilastoviraston suunnitelmissa on saada huomattavasti nykyistä enemmänkin tietoa ihmisten liikkuvuudesta. Suomessa on työssäkäynnin tarkastelemiseen hyvät hallinnolliset aineistot asuin- ja työpaikkakoordinaattitietoineen ilman mobiilidataakin.
Visa Europen kulutusbarometri: yhteistyöllä flash-estimaatteihin?
Luottokorttiyhtiö Visa Europe tuottaa indeksitilastoa ”EU Consumer Spending Barometer”, missä hyödynnetään tosiaikaisia luottokorttitransaktioita (Visa Europe 2015). Vuosineljänneksittäin tuotetaan aikasarjat kaksi kuukautta referenssiperiodin jälkeen. Samoin tuotetaan Britannian ”UK Expenditure Index” ja Ruotsin ”Sweden Expenditure Index”.
Visa pystyy tuottamaan informaatiota jaoteltuna useiden taustamuuttujien mukaan (ikä, sukupuoli, tulot, aviosääty jne.), jotka talletetaan haettaessa korttia. Lisäksi kokonaiskulutus voidaan todennäköisesti jakaa varsin tarkasti eri kulutustavararyhmiin ostopaikan perusteella (vaatekauppa, lääkäri, apteekki, ravintola jne.).
Euroopassa on enemmän kuin 419 miljoonaa Visa-korttia, ja niiden käytöstä johdetulla barometrilla on Eurostatin tutkimuksen (ks. Eurostat 2014) mukaan merkittävä yhteys viralliseen tilastotietoon kotitalouksien kulutuksesta. Euroopassa virallisia kulutustutkimuksia varten kerätään tietoja suoraan kotitalouksilta noin joka viides vuosi ja aika tiedonkeruusta julkistukseen on yhdestä neljään vuotta.
Kulutustietojen harmonisointi Euroopan tasolla on vaativaa, koska tiedonkeruulle ei ole olemassa lainsäädännöllistä perustaa. Suomessa Tilastokeskuksen kulutustutkimus toteutetaan epäsäännöllisin väliajoin.
Eurostat pitää mahdollisena pääsyä aggregoituihin Visa-tietoihin, kun kaikki mahdollinen yksikkökohtainen tieto on poistettu. Visaa voisi siis käyttää flash-estimaattien tuottamiseen rakenteellisesta kuluttamisesta ja sen määrästä. Eurostat kuitenkin korostaa, ettei Visan barometri voi korvata virallista tilastoa ja sen sisältämiä useita indikaattoreita. Sitä voidaan käyttää ylimääräisenä rikastuttajana viralliselle tilastolle.
Sensoritiedolla matka-aikamallinnukseen
Sensoridata on tyyppiesimerkki isosta datasta. Esimerkki pienehköstä sensoridatavirrasta julkishallinnossa on Liikenneviraston yli 400 tieliikenteen automaattisen mittausaseman data.
Tilastokeskuksessa on laskettu erilaisia saavutettavuuteen liittyviä tietoja kuten työmatkat kaikille suomalaisille (Piela 2014). Saavutettavuuteen sisältyy yleensä myös matkustusaika tai pelkkä ajoaika. Tyypillisesti tähän käytetään tien toiminnallisuuteen liittyviä malleja.
Päästäkseen parempiin matka-aikamalleihin erityisesti ruuhka-aikoina Tilastokeskus on soveltanut Liikenneviraston automaattisten mittausasemien tietoja keskinopeuksista eri tieosuuksilla sopivilla aikaikkunoilla. Näiden tuottamaa tietoa pidetään suhteellisen edustavana Suomen pääteille ja kantateille.
Tiedon edustavuus on silti suuri haaste tässäkin hankkeessa, mutta mittausasemien data on tarpeen yleistettynäkin, koska parempaakaan tietoa ei ole helposti saatavilla nopeutusrajoitusten ja tien eri ominaisuusluokkien lisäksi. Tässä siis rikastetaan aiempia matka-aikamalleja uudella tiedolla liikennesensoreista osana saavutettavuustutkimusta.
Yksityisen sektorin hallinnoiman ison datan rikkaus ja moninaisuus nousee esiin matka-aikamallinnuksissakin: jokainen voi käydä laskemassa työmatkansa haluttuna kellonaikana esimerkiksi Googlen karttaa käyttäen ottaen huomioon tiehäiriöt ja ruuhkaisuudet yms. Näin tarkkaan estimointiin ei Tilastokeskuksen matkalaskelmissa päästä.
Lisäksi navigointi- ja karttajärjestelmien kehittäjät kuten Tomtom myyvät tie-elementtikohtaisia (Tomtomilla TeleAtlas) keskinopeustietoja haluttuna kellonaikana perustuen todellisiin tietoihin. Hinnoittelu voi olla kilometripohjainenkin. Tomtom tarjoaa myös evaluointimahdollisuuksia näppärään käyttöliittymäänsä.
Kaupalliset aineistot eivät ole maksuttomia käyttäjilleen, mutta Liikennevirasto on avannut sekä digitalisoidun liikenneverkon ”Digiroad” että liikenneasemiensa sensoridatan Digitraffic.fi-palvelun kautta laajalle käyttäjäryhmälle.(Esimerkkinä työmatkojen pituuden laskemisesta Digiroad-aineiston pohjalta ks. Huhta & Pyykkönen 2013; ks. myös Topias Pyykkösen artikkeli tässä numerossa.)
Yhteistyöllä entistä parempaan tiedontuotantoon
Virallisen tilastotoimen rooli ison datan maailmassa on moninainen. Yhtäältä isoa dataa on ehdottomasti tuettava entistä paremmin linkitettävillä, avoimilla tilastotiedoilla. Toisaalta tilastotoimi tarvitsee isoa dataa myös rikastaakseen ja tehostaakseen omaa tiedon tuotantoaan.
Keskeisiä kysymyksiä ja selvitettäviä asioita ison datan ja tilastotuotannon yhteistyölle ovat mm. tiedon nopeuteen ja edustavuuteen liittyvät haasteet, yksityisen sektorin hallinnoimat parhaimmat massadatavarannot, aineistojen hinta ja kuinka julkisen sektorin tarjoamat avoimet aineistot saataisiin tukemaan myös iso data -kehitysympäristöä.
Se, mitä tilastotoimi ylipäätään voi tarjota moninaisille massadatan kanssa toimiville kansainvälisille yrityksille ikään kuin vastineeksi tiedosta, on tiedon käsitteiden, määritelmien ja luokitusten kansainvälinen harmonisointi ja pitkä kokemus laatustandardeista puhumattakaan mm. tilasto-, yhteiskunta-, ympäristö- ja taloustieteellisestä osaamisesta.
Kirjoittaja on kehittämispäällikkö Tilastokeskuksen väestö- ja elinolot -yksikössä.
Lähteet:
Bethlehem, Jelke 2009. Applied Survey Methods: A Statistical Perspective. Hoboke, New Jersey: John Wiley & Sons.
Eurostat 2014. Big data. Papers on Big Data in the context of Official Statistics.
Huhta, Jaana & Pyykkönen, Topias 2013. Linnuntieltä oikeille teille. Hyvinvointikatsaus 4/2013.
Piela, Pasi 2013a. Avataan Big Data! Tieto&trendit-blogi 15.5.2013.
Piela, Pasi 2013b. Teollisuuden big data tulee olemaan sensoridataa. Tieto&trendit-blogi 31.3.2013.
Piela, Pasi 2014. Commuting time for every employed: combining traffic sensors and many other data sources for population statistics. European Forum for Geography and Statistics (EFGS) Krakow Conference 2014. Puolan tilastovirasto.
Tilastokeskus 2010. Suomen virallisen tilaston laatukriteerit.
Tuhkuri, Joonas 2014. Big Data: Google-haut ennustavat työttömyyttä Suomessa. ETLA.
Visa Europe 2014. Visa Europe Expenditure Index. Visa Europe.
Avainsanat:
Miksi tätä sisältöä ei näytetä?
Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.