Asiantuntija-artikkelit ja ajankohtaisblogit
Sivuston näkymät
  • Tämä juttu on arkistoitua sisältöä, joka tarjotaan luettavaksi sellaisenaan. Tämän vuoksi siinä voi olla saavutettavuusongelmia.

Iso data tilastotoimessa

29.4.2015
Twitterissä: @PasiPiela

Iso data haastaa monessakin mielessä perinteistä tilastotietoa. Ylivoimaisin se on nopeutensa vuoksi. Perinteisen tilastotiedon vahvuuksia ovat tiedon ajallinen vertailtavuus ja edustavuus. Yhteistyöllä voidaan saavuttaa molempia tiedontuotannon muotoja hyödyttäviä etuja.

Pasi Piela, Tilastokeskus

Nykyisin keskustellaan paljon tiedon vallankumouksesta ja massadatasta, jotka teknologinen kehitys ja tiedon digitalisoituminen ovat mahdollistaneet. Myös big data -aiheisten kirjoitusten määrä on lisääntynyt eksponenti­aali­sesti siinä missä Google-hakujenkin. Kyseessä on big data -hypetys.

Myös julkinen tilastotoimi on merkittävästi reagoimassa ison datan haasteeseen sekä kansain­välisellä (YK), eurooppa­laisella (Euroopan komissio) että kansallisella tasolla. Julkis­hallinnon tehtävänä on toimia ison datan mahdollistajana, hyödyntäjänä ja voimavarojen kohdentajana.

Käsittelen artikkelissani isoa dataa ja sen haasteita tilastotoimen kannalta. Keskityn ensin tilastoinnin laatu­näkö­kohtiin ja esittelen sitten joitakin esi­merkkejä massadatan tilastollisesta hyödyntämisestä.

Isoa dataa ei ole mielekästä käsitellä kokonaisuutena, sillä määritelmällisesti eheä se ei ole. Iso data on jatkuvaa data­virtaa jollakin elämän osa-alueella vaikkapa sosiaalisen median päivityksinä tai luottokorttitransaktioina. Voitaisiinko transaktiodatasta saada tietojen julkaisemista nopeuttavaa täydennystä taloustilastoihin? Voitaisiinko kauppojen kanta-asiakaskorttiaineistoilla saada lisäpotkua kotitalouksien kulutuksen tilastointiin?

Toisaalta luonnollinen suuntaus etsiä uusia tieto­lähteitä nykyisten tilastojen rikastamiseksi ja mahdollisesti uuden­tyyppisten tietojen tuottamiseksi on ollut olemassa jo kauan. Tilastotoimessa ollaan silti vielä esivaiheessa varsinaisen ison datan suhteen, mutta siellä tunnistetaan hyvin se, että yksityisellä puolella iso data voi olla jo arkipäivää tietojen tuottamisessa.

Muuttuuko tilaston käsite?

Tilastotoimi on julkista, ja sitä säätelevät tiukat laatu­kriteerit, jotka on useimmiten standardoitu kansain­välisesti ja erityisesti osana Euroopan tilasto­järjestelmää. Tilasto­tiedot perustuvat vertailtavuuteen pitkine aika­sarjoineen – ei väli­aikaisuuteen.

Iso data haastaa monessakin suhteessa perinteisen virallisen tilasto­tiedon. Voiko meillä olla tulevaisuudessa kilpailevia yksityisen sektorin tuottamia tilastoihin rinnastettavia tietoja? Joka puolella generoidaan dataa ja myös osataan analysoida sitä. Lisäksi menestyvät tahot voivat rekrytoida parhaimmat osaajat; näistä tunnetuimpia esimerkkejä on luonnollisesti Google.

Lukijalle ovat jo nyt varmasti tuttuja erilaiset internetissä julkaistut taulukot, joilla ei ole mitään tekemistä virallisen tilaston kanssa. Jos etsii asuntoa tietyltä alueelta, saa helposti kyseisen alueen tuoreen hintakehityksen, ja ehkäpä jopa tietystä kiinteistöstä. Tällaisia tilasto­toimi ei tarjoa.

Keskustelua herättää ajoittain massadatan eräs erityinen ominaisuus tilasto­toimen näkö­kulmasta: sitä hallinnoi tyypillisesti yksityinen sektori. Entä jos datalle tuleekin hintalappu? Miten käy tiedon tuotannon jatkuvuuden?

Yritykset luovuttavat yleisesti tilasto­viranomaisille tietoja toiminnastaan, mutta eivät hallinnoimistaan tieto­varannoista. Muutoinkin avoimen datan yhteydessä kuulee erittäin harvoin open business datasta. Avoin tieto kuuluu julkisen sektorin tuotettavaksi.

Entä sitten big datan laatu? On hyvä huomata, että tilasto­tieteellisesti kaikkein tärkein laatu­dimensio, tarkkuus ja luotettavuus, on vain yksi virallisen tilaston laadun ulottuvuuksista. Muut ovat relevanssi, puolueettomuus ja läpi­näkyvyys, laadun hallinta, tietosuoja, tehokkuus, yhtenäisyys ja vertailu­kelpoisuus, saatavuus ja selkeys sekä oikea-aikaisuus ja ajan­tasaisuus (Tilastokeskus 2010).

Laatu­kriteereistä tarkkuus ja ajan­tasaisuus ovat usein ristiriidassa keskenään. Tilastoinnissa ristiriitaa voidaan ratkaista tuottamalla ennakko­tietoja, jotka tarkentuvat aineiston karttuessa. Vielä nopeampia tilasto­tietoja toivotaan niin kutsuttuina flash-estimaatteina, pika­ennakkoina, ennen virallisia ennakko­tietoja.

Nopeus on erityisesti yksi ison datan keskeisistä perus­ominaisuuksista ja siinä mielessä se haastaa perinteisen tilastotiedon. Iso data elää tässä hetkessä jatkuvana tapahtumien virtana. Ison datan ongelma on siinä, että se pitää pilkkoa pieneksi, jotta sitä voi käsitellä. Tällaiset pilkkomistyökalut on mahdollistanut viime vuosien teknologinen kehitys datan tehokkaamman varastoinnin ohella.

Tunnetuin avoimen lähdekoodin työkalu on Hadoop. Hadoop on suurten datamassojen tallentamiseen ja tehokkaaseen rinnakkais­käsittelyyn optimoitu järjestelmä.

Tilastokeskuksen hallinnollisia aineistoja voi visualisoida ja esittää ilman pilkkomistakin – olkoonkin, että se voi olla vaativaa. Näin tilastoaineistot eivät ole määritelmällisesti isoa dataa. Entisestään kasvavien valtavien hallinnollisten aineistomassojen käsittelyssä ja yhdistelyssä modernit tietovarastoteknologiat tulevat kuitenkin ilman big dataakin ajankohtaisiksi (Piela 2013a; 2013b).

Nopeuden lisäksi toinen keskeinen syy ison datan ja uusien tieto­lähteiden etsimiselle ovat niiden mahdollistamat aiempaa tehokkaammat tiedonkeruumuodot. Voitaisiinko esimerkiksi hintatiedonkeruuta korvata internetistä löytyvillä hinnoilla? Tilastokeskus selvittelee tänä vuonna vastausta kysymykseen erillisrahoituksen turvin.

Internet-hinnat ja transaktiot ovat hyviä esimerkkejä keskeisestä ison datan haasteesta – edustavuudesta. Otoksen edustavuuden klassinen tilastotieteellinen määritelmä on: suhteellisten jakaumien otoksessa pitää olla samat kuin kohde­perus­joukon jakaumien (Bethlehem 2009).

Ison datan piirissä olevat eivät edusta välttämättä tilastoinnin tai tutkimuksen kohdeperus­joukkoa. Kaikilla ei ole esimerkiksi luottokortteja käytössään, eikä voida ajatella luotto­korttien käyttäjien edustavan myös niitä, joilla sitä ei ole.

Sosiaalinen media on yksi kiinnostuksen kohde kansain­välisessä tilastotoimen maailmassa. Ajankohtainen kysymys tähän liittyen on, kertovatko Twitter- tai Facebook-päivitykset jotakin onnellisuuden ja hyvin­voinnin kokemuksesta? Jos kertovat, niin miten laajaan väestö­ryhmään tulokset voidaan yleistää?

Nopeasta isosta datasta etua ennustamiseen

Nopeus on massadatan keskeisiä etuja, ja siksi se voi parantaa ennusteiden laatua. Tästä hyvänä esimerkkinä on ETLAn julkaisema tutkija Joonas Tuhkurin selvitys (Tuhkuri 2014), jossa internet-haku­aineistolla hyödynnettiin nykyhetken ja lähi­tulevaisuuden työttömyyden ennustamista. Työttömyystiedot tulivat Tilastokeskuksesta ja hakutiedot Google Trends -palvelusta.

Työttömyyteen liittyvien Google-hakujen yleisyyttä kuvaavalla muuttujalla oli tutkijan mukaan onnistuttu parantamaan aikasarja­mallin tarkkuutta siten, että se ennustaa nykyhetken ja lähi­tulevaisuuden työttömyyttä paremmin kuin sama malli ilman Google-muuttujaa. Tällaisen internet-hakuja hyödyntävän mallin etu korostuu erityisesti käänne­kohtien ennustamisessa, mikä on luonnollisesti ennustus­laitosten suurimpia haasteita.

Myös Eurostat on julkaissut tutkimuksia Google Trends -palvelun käytöstä virallisen tilaston tutkimus- ja menetelmä­portaalissaan muiden juuri nyt relevanttien iso data -tutkimusten ohella (Eurostat).

Kansainvälistä kehittämistä

Euroopan komissio rahoittaa tutkimusta, jonka avulla on tarkoitus edistää ison datan hyödyntämistä tilastotietojen tuotannossa. Euroopan unionin tilastovirastolla Eurostatilla on oma työryhmänsä (ESS Task-force on Big Data and Official Statistics), jossa Suomen Tilastokeskuksella on edustajansa.

Työryhmässä pohditaan ja kehitetään tulevia iso data -pilotteja eurooppalaisen tilastotoimen tarpeisiin. Taulukkoon on koottu työryhmän johtopäätöksiä iso data -aineistotyypeistä ja mahdollisista tilastoista, joissa aineistoja voitaisiin hyödyntää.

Taulukko 1. Ison datan tietolähteitä ja mahdollisia tilastointikohteita

Taulukko: Esimerkkejä iso data -aineistotyypeistä ja mahdollisista tilastoista, joissa aineistoja voitaisiin hyödyntää.

 

Mobiilipaikannusdataa väestö- ja matkailutilastoihin

Tilastojen rikastamiseksi mobiilipaikannus­data auttaisi matkustus­tilastojen laadinnassa. Esimerkiksi Hollannin tilastovirasto käyttää yö- ja päiväväestön paikantamiseen kolmannen osapuolen aggregoimia tietoja, jotka perustuvat tele­operaattori Vodafonen mobiili­päätteiden paikannus­dataan. Tele­viestint&aum­l;laki estää tilasto­viranomaiselta mikro­tason tietojen saamisen välillisenkin tunnistamisen riskin nojalla. Aineistolla on hintansa ja sopimus yhtiön ja tilasto­viraston välille on tehty vuodeksi kerrallaan.

Hollannin tilastoviraston suunnitelmissa on saada huomattavasti nykyistä enemmänkin tietoa ihmisten liikkuvuudesta. Suomessa on työssäkäynnin tarkastelemiseen hyvät hallinnolliset aineistot asuin- ja työpaikka­koordinaatti­tietoineen ilman mobiili­dataakin.

Visa Europen kulutusbarometri: yhteistyöllä flash-estimaatteihin?

Luottokorttiyhtiö Visa Europe tuottaa indeksitilastoa ”EU Consumer Spending Barometer”, missä hyödynnetään tosiaikaisia luotto­kortti­transaktioita (Visa Europe 2015). Vuosineljänneksittäin tuotetaan aikasarjat kaksi kuukautta referenssiperiodin jälkeen. Samoin tuotetaan Britannian ”UK Expenditure Index” ja Ruotsin ”Sweden Expenditure Index”.

Visa pystyy tuottamaan informaatiota jaoteltuna useiden tausta­muuttujien mukaan (ikä, sukupuoli, tulot, aviosääty jne.), jotka talletetaan haettaessa korttia. Lisäksi kokonais­kulutus voidaan todennäköisesti jakaa varsin tarkasti eri kulutus­tavara­ryhmiin ostopaikan perusteella (vaatekauppa, lääkäri, apteekki, ravintola jne.).

Euroopassa on enemmän kuin 419 miljoonaa Visa-korttia, ja niiden käytöstä johdetulla barometrilla on Eurostatin tutkimuksen (ks. Eurostat 2014) mukaan merkittävä yhteys viralliseen tilasto­tietoon koti­talouksien kulutuksesta. Euroopassa virallisia kulutus­tutkimuksia varten kerätään tietoja suoraan koti­talouksilta noin joka viides vuosi ja aika tiedon­keruusta julkistukseen on yhdestä neljään vuotta.

Kulutustietojen harmonisointi Euroopan tasolla on vaativaa, koska tiedon­keruulle ei ole olemassa lain­säädännöllistä perustaa. Suomessa Tilastokeskuksen kulutustutkimus toteutetaan epäsäännöllisin väliajoin.

Eurostat pitää mahdollisena pääsyä aggregoituihin Visa-tietoihin, kun kaikki mahdollinen yksikkö­kohtainen tieto on poistettu. Visaa voisi siis käyttää flash-estimaattien tuottamiseen rakenteellisesta kuluttamisesta ja sen määrästä. Eurostat kuitenkin korostaa, ettei Visan barometri voi korvata virallista tilastoa ja sen sisältämiä useita indikaattoreita. Sitä voidaan käyttää ylimääräisenä rikastuttajana viralliselle tilastolle.

Sensoritiedolla matka-aikamallinnukseen

Sensori­data on tyyppiesimerkki isosta datasta. Esimerkki pienehköstä sensori­data­virrasta julkis­hallinnossa on Liikenneviraston yli 400 tieliikenteen automaattisen mittausaseman data.

Tilastokeskuksessa on laskettu erilaisia saavutettavuuteen liittyviä tietoja kuten työmatkat kaikille suomalaisille (Piela 2014). Saavutettavuuteen sisältyy yleensä myös matkustus­aika tai pelkkä ajoaika. Tyypillisesti tähän käytetään tien toiminnallisuuteen liittyviä malleja.

Päästäkseen parempiin matka-aika­malleihin erityisesti ruuhka-aikoina Tilastokeskus on soveltanut Liikenne­viraston automaattisten mittaus­asemien tietoja keski­nopeuksista eri tieosuuksilla sopivilla aikaikkunoilla. Näiden tuottamaa tietoa pidetään suhteellisen edustavana Suomen pääteille ja kantateille.

Tiedon edustavuus on silti suuri haaste tässäkin hankkeessa, mutta mittaus­asemien data on tarpeen yleistettynäkin, koska parempaakaan tietoa ei ole helposti saatavilla nopeutus­rajoitusten ja tien eri ominaisuus­luokkien lisäksi. Tässä siis rikastetaan aiempia matka-aika­malleja uudella tiedolla liikenne­sensoreista osana saavutettavuustutkimusta.

Yksityisen sektorin hallinnoiman ison datan rikkaus ja moni­naisuus nousee esiin matka-aika­mallinnuksissakin: jokainen voi käydä laskemassa työmatkansa haluttuna kellonaikana esimerkiksi Googlen karttaa käyttäen ottaen huomioon tie­häiriöt ja ruuhkaisuudet yms. Näin tarkkaan estimointiin ei Tilastokeskuksen matkalaskelmissa päästä.

Lisäksi navigointi- ja kartta­järjestelmien kehittäjät kuten Tomtom myyvät tie-elementti­kohtaisia (Tomtomilla TeleAtlas) keski­nopeus­tietoja haluttuna kellonaikana perustuen todellisiin tietoihin. Hinnoittelu voi olla kilometri­pohjainenkin. Tomtom tarjoaa myös evaluointi­mahdollisuuksia näppärään käyttö­liittymäänsä.

Kaupalliset aineistot eivät ole maksuttomia käyttäjilleen, mutta Liikennevirasto on avannut sekä digi­talisoidun liikenne­verkon ”Digiroad” että liikenne­asemiensa sensori­datan Digitraffic.fi-palvelun kautta laajalle käyttäjä­ryhmälle.(Esimerkkinä työ­matkojen pituuden laskemisesta Digiroad-aineiston pohjalta ks. Huhta & Pyykkönen 2013; ks. myös Topias Pyykkösen artikkeli tässä numerossa.)

Yhteistyöllä entistä parempaan tiedontuotantoon

Virallisen tilastotoimen rooli ison datan maailmassa on moninainen. Yhtäältä isoa dataa on ehdottomasti tuettava entistä paremmin linkitettävillä, avoimilla tilasto­tiedoilla. Toisaalta tilastotoimi tarvitsee isoa dataa myös rikastaakseen ja tehostaakseen omaa tiedon tuotantoaan.

Keskeisiä kysymyksiä ja selvitettäviä asioita ison datan ja tilasto­tuotannon yhteis­työlle ovat mm. tiedon nopeuteen ja edustavuuteen liittyvät haasteet, yksityisen sektorin hallinnoimat parhaimmat massa­data­varannot, aineistojen hinta ja kuinka julkisen sektorin tarjoamat avoimet aineistot saataisiin tukemaan myös iso data -kehitys­ympäristöä.

Se, mitä tilastotoimi ylipäätään voi tarjota moninaisille massadatan kanssa toimiville kansain­välisille yrityksille ikään kuin vastineeksi tiedosta, on tiedon käsitteiden, määritelmien ja luokitusten kansain­välinen harmonisointi ja pitkä kokemus laatu­standardeista puhumattakaan mm. tilasto-, yhteiskunta-, ympäristö- ja taloustieteellisestä osaamisesta.

Kirjoittaja on kehittämis­päällikkö Tilastokeskuksen väestö- ja elinolot -yksikössä.

Lähteet:

Bethlehem, Jelke 2009. Applied Survey Methods: A Statistical Perspective. Hoboke, New Jersey: John Wiley & Sons.

Eurostat 2014. Big data. Papers on Big Data in the context of Official Statistics.

Huhta, Jaana & Pyykkönen, Topias 2013. Linnuntieltä oikeille teille. Hyvinvointikatsaus 4/2013.

Piela, Pasi 2013a. Avataan Big Data! Tieto&trendit-blogi 15.5.2013.

Piela, Pasi 2013b. Teollisuuden big data tulee olemaan sensoridataa. Tieto&trendit-blogi 31.3.2013.

Piela, Pasi 2014. Commuting time for every employed: combining traffic sensors and many other data sources for population statistics. European Forum for Geography and Statistics (EFGS) Krakow Conference 2014. Puolan tilastovirasto.

Tilastokeskus 2010. Suomen virallisen tilaston laatukriteerit.

Tuhkuri, Joonas 2014. Big Data: Google-haut ennustavat työttömyyttä Suomessa. ETLA.

Visa Europe 2014. Visa Europe Expenditure Index. Visa Europe.

Lue samasta aiheesta:

Blogi
7.3.2022
Leena Storgårds

This year the fundamental principles of statistical work prepared by the United Nations Statistical Commission will be 30 years old. Over the years, their importance has grown in society. The fundamental principles provide a sound basis for the management and dissemination of information, especially in the public sector.

Blogi
28.2.2022
Outi Ahti-Miettinen

The UN's Fundamental Principles of Official Statistics instruct statistical authorities to describe in detail how statistics have been compiled. The principle can also be used to assess the reliability of other data generated in society. 

Blogi
29.9.2021
Mikko Lindholm

Alamme Suomessa lähestyä kriittistä pistettä, jossa datataloudesta tulee oikeasti merkittävää liiketoimintaa. Mikä sitten tekee menestyvän datapalvelun? Datamenestyjät -kilpailutöissä nousee esiin ainakin kaksi ominaisuutta: visualisointi ja oikeanlainen kysymyksen asettelu. 

Blogi
17.8.2021
Mikko Lindholm

Avoimen datan potentiaalia uuden digitalouden käyttövoimana ja mahdollistajana on vielä paljolti hyödyntämättä. Myös julkisten virastojen ja laitosten datapalveluiden on tulevaisuudessa oltava entistä ammattimaisempia. 

Blogi
10.3.2021
Ville Vertanen

Kun halutaan lisätä laadukkaan tilastotiedon käyttöä yhteiskunnassa, tulee tiedon löytämisen olla helppoa. Tilastotoimijoiden kunnianhimoisena tavoitteena on yhden luukun periaate, jossa kaikki virallinen tilastotieto löytyy samasta paikasta.

tk-icons