Tilastovirastot vahvoilla tiedon yhdistämisessä

11.5.2015

Aineistojen yhdistäminen on yksi tapa uudistaa ja tehostaa tilastointia. Suomen ja muiden Pohjoismaiden kokemus rekisteriaineistoista tarjoaa iso data -aineistojen hyödyntämisessä etulyöntiaseman verrattuna maihin, joissa ollaan riippuvaisia kyselyaineistoista.

Jari Nieminen

Iso data on ollut viime vuosina esillä tilastontekijöiden keskusteluissa perinteisistä tiedonkeruumenetelmistä poikkeavana uudenlaisena tietolähteenä, jonka mahdollisuuksia ei ole osattu tai haluttu lähteä hyödyntämään virallisen tilaston laatimisessa. Rekisterejä laajasti hyödyntävälle tilastontekijälle nousee mieleen väistämättä kysymys, eivätkö laajat ja jatkuvasti päivittyvät rekisterit ole isoa dataa?

Suomessa ja muissa Pohjoismaissa on jo kauan käytetty rekisteriaineistoja tilastojen tietolähteenä. Sen sijaan muulla maailmassa, etenkin Yhdysvalloissa ja Isossa-Britanniassa myös rekisteriaineistot ovat uusia tilastoaineistoja, joiden mahdollisuuksia virallisen tilaston tuottamisessa on lähdetty tutkimaan vasta viime vuosina.

Yhtenä syynä suureen innostukseen ison datan hyödyntämiseksi on oletettavasti juuri rekisteriaineistojen puute etenkin anglosaksisessa maailmassa. Niin Iso-Britannia, USA, Kanada, Australia kuin Uusi-Seelantikin ovat kaikki maita, joissa ei ole ollut poliittisesti mahdollista virallisten koko väestöä kattavien rekisterien kuten väestörekisterin perustaminen.

Tilastoinnissa otostutkimuksia ja kyselyjä on perinteisesti totuttu pitämään ainoina oikeina tapoina tuottaa laadukasta tilastotietoa. Kaikki muut tavat on määritelty epäluotettaviksi ja menetelmiltään kyseenalaisiksi.

Tilastokeskuksellakin on monivuotinen kokemus kansainvälisestä yhteistyöstä, jossa rekisterien käyttöä tilastointiin on pitänyt yhä uudelleen perustella. On pitänyt todistaa, että rekistereihin perustuvat tilastotiedot täyttävät kansainväliset laatukriteerit.

Kansallisissa tilastoissa on jo pitkään ollut itsestään selvää, että joidenkin tietojen osalta rekisteritiedot ovat vähintään yhtä laadukkaita kun kyselyillä kerätyt vastaavat tiedot. Tällaisia ovat esimerkiksi verottajan verotettavia tuloja kuvaavat tiedot ja väestörekisterin demografiset tiedot.

Ison datan käyttöön tilastoinnissa liittyy samoja ennakkoluuloja kuin aikoinaan rekisteriaineistoonkin. Rekisterien käyttöönoton seurauksena tilastojen tietosisällöt laajenivat merkittävästi, ja tietoja voidaan julkaista aiempaa useammin. Samalla myös tietojen käyttö on lisääntynyt.

Nykyiset tiedon käyttäjät eivät varmasti hyväksyisi, että esimerkiksi kunnittaisia tietoja työssäkäynnistä ja asumisesta tuotettaisiin vain viiden tai kymmenen vuoden välein.

Iso data mahdollistaa usein lähes ajantasaisen tiedon seurannan, kunhan ratkaistaan edustavuuden ja jatkuvasti muuttuvien teknologioiden haasteet.

Esimerkiksi osa nopeista suhdannetilastoista voitaisiin tuottaa yhdistelemällä rekisteritietoa, isoa dataa, suoraa tiedonkeruuta ja kaikkea muuta tietoa, jota jo aikaisemmin kertyneen datan analysointi voi tarjota luotettavuuden parantamiseen. Näitä välineitä ei juurikaan ole hallussa muilla organisaatioilla kuin tilastovirastoilla. Tästä syystä myös tilastovirastojen pitää nähdä roolinsa ison datan käytön edistämisessä.

Rekisteritieto kerätään, iso data syntyy

Rekisteriaineistoissa ja isossa datassa on yhteisiä ominaisuuksia ja eroja. Rekisteriaineistot ovat yleensä suurivolyymisiä ja jatkuvasti päivittyviä aineistoja. Tässä suhteessa rekisterit ovat ainakin nykyisin hyvin lähellä transaktiodataa.

Myös rekistereissä päivitystapahtumat koostuvat useista pienistä tapahtumista, joista osa voi olla vain tietojärjestelmän sisäiseen ylläpitoon liittyvää lokitietoa.

Ison datan ja rekisterin erona puolestaan on se, että iso data koostuu juuri näistä tapahtumista, joiden lopputulos on esimerkiksi rekisteriin tehtävä ylläpito. Siinä mielessä myös rekisterin ylläpidosta syntyy koko ajan uutta isoa dataa, jota ei ole ehkä toistaiseksi osattu hyödyntää riittävästi.

Erottavana piirteenä ison datan ja rekisteridatan välillä on mm. se, että rekisterit ovat tyypillisesti julkisen sektorin perustamia ja ylläpitämiä tietojärjestelmiä, kun iso data on usein yksityistä tietoa.

Rekisterit ovat yleensä syntyneet hallinnon vaatimuksesta, ja nykyiset sähköiset rekisterit on useimmiten perustettu siirtämällä kortistoja tai muita alun perin kirjallisia aineistoja sähköiseen muotoon.

Yleensä tässä vaiheessa on tehty suuri järjestelmäuudistus, jonka päämääränä on ollut nimenomaan kerätä ja ylläpitää tärkeiksi katsottuja tietoja ja yleensä vielä kattavasti koko rekisterin kohdejoukosta.

Iso data on puolestaan kertynyt jonkin toiminnan sivutuotteena, ja tarkoituksena ei ole ollut tiedon keruu kyseisestä ilmiöstä, vaan ylipäätään järjestelmän toiminnan ylläpito. Esimerkiksi sosiaalisen median päivitykset tehdään aivan muista lähtökohdista käsin kuin tietojen saamiseksi virallisiin tietokantoihin.

Tämä on ison datan keskeinen heikkous, mutta samalla sen suurin vahvuus. Iso data kertyy henkilöiden omasta aloitteesta ilman varsinaista keruuoperaatiota. Datan kertyminen on usein vain sivutuotteena itse tiedon välitykselle.

Tilastontekijän kannalta datan kertyminen ilman varsinaista tiedonkeruuta vaikuttaa ihannetilanteelta. Tiedonkeruu on helppoa ja tapahtuu kaiken aikaa ja vielä siten, että kohde ei edes tiedä olevansa tilastoinnin kohteena eikä koe aikaansa tuhlattavan.

Tähän seikkaan liittyy kuitenkin tietosuojaongelmia ja eettisiä kysymyksiä. Tilastontekijät ovat pitäneet erittäin tärkeänä, että tutkimuksessa mukana oleva tietää, miksi kysymys tehdään ja mihin hänen antamaansa tietoa käytetään.

On tärkeää kiinnittää huomiota ison datan laatuun, tietosuojaan ja edustavuuteen. Esimerkiksi sosiaalisen median päivityksistä kerättävä tieto saadaan vain niiltä, jotka ovat kyseisen median käyttäjiä.

Ainakin toistaiseksi osa väestöstä jää kokonaan tällaisen tiedonkeruun ulkopuolelle.

Erilaisen tiedon yhteiskäyttö on Suomen vahvuus

Suomessa on muiden Pohjoismaiden tavoin rakennettu tehokas hallinnollisia rekistereitä laajasti hyödyntävä tilastojärjestelmä, jota muualta maailmasta tullaan tänne opiskelemaan ja mahdollisuuksien mukaan myös jäljittelemään.

Se, että rekisterien käyttö on ollut aikanaan tärkeä ja kansainvälisesti suuria epäilyksiä herättävä tiedonkeruutapa, antaa meille kuitenkin jonkinlaista pohjaa uusien tiedonkeruutapojen ennakkoluulottomalle käyttöönotolle.

Rekisterien ja ison datan käytössä on paljon yhtäläisiä piirteitä. Etenkin aineistojen tulkintaan, niiden yhdistelyyn sekä otosaineiston täydentämiseen liittyy paljon menetelmällistä kehittämistyötä, jota voimme hyödyntää varmasti nopeammin kuin perinteiset, vain suoraa tiedonkeruuta käyttävät tilastovirastot muualla maailmassa.

Onneksi meillä Suomessa on sekä isoa dataa että rekisteriaineistoja. Tulevaisuudessa meidän on syytä edelleen ennakkoluulottomasti jatkaa tilastotoimessa näiden hyödyntämistä yhdessä suoran tiedonkeruun kanssa.

Tilastoaineistot tulevat yhä enemmän koostumaan kaikkien eri tietolähteiden yhdistämisestä, ja jopa yksittäisten muuttujien tiedot voivat olla peräisin monista eri tietolähteistä.

Tietojen laatu voidaan varmistaa myös menetelmällisesti ja dokumentoida tietojen käyttäjälle ymmärrettävässä muodossa.

Voisiko iso data olla ratkaisu vastauskadon kanssa kamppaileville haastattelututkimuksille? Yhä suurempi ongelma haastatteluissa on, että kohteita ei enää tavoiteta puhelimella. Vaikka lähes kaikilla on mobiililaite, osa meistä ei vastaa tuntemattoman soittajan puheluihin.

Nykyisin haastattelutietoja täydennetään rekisteriaineistoista. Ison datan osalta suuri puute on se, että sitä ei voida suoraan yhdistää olemassa olevaan tietoaineistoon. Esimerkiksi henkilön tietoja ei ole yhdistettävissä henkilötunnuksella.

Survey-tiedonkeruussa on lähdetty siitä oletuksesta, että otoksen tulee olla mahdollisimman pieni, koska haastattelu on kallista; ison datan kohdalla on mahdollista analysoida suurempaa populaatiota kuin perinteinen otos.

Jos iso data sisältää tietoa, jota haastatteluaineistossa on tarkoitus kerätä, voidaan haastattelutieto korvata tai sitä täydentää ison datan käytöllä. Tämä vaatii paljon menetelmätyötä etenkin siksi, että tällaisissa muutoksissa menetetään usein vertailu aikaisempiin tutkimuksiin tai joudutaan jopa tinkimään kansainvälisten sopimusten velvoitteista.

Rekisteriaineiston avulla voidaan tutkia ison datan edustavuutta ja jakaumaa. Vinon jakauman korjaamiseen on olemassa tilastollisia menetelmiä kuten uudelleenpainotus, mutta ison datan kohdalla saattaa olla vaikeuksia havaita, miltä osin aineisto on vino, tai mikä osajoukko puuttuu kokonaan.

Aineiston vinouden tutkimiseen ja menetelmien kehittämiseen on Suomessa erinomaiset mahdollisuudet hyvien rekisteriaineistojemme vuoksi.

Kun esimerkiksi Isossa-Britanniassa tehtiin arvioita maassa asuvien ulkomaalaisten määristä eri kielisten internethakujen avulla, havaittiin mm. suuri lisäys puolankielisten hakujen määrässä. Hakujen määrää kuvaava käyrä seurasi melko tarkasti puolalaisten maahanmuuttajien kasvua.

Ongelmana oli kuitenkin, että tietoa ei voitu suhteuttaa väestötilastojen aineistoon, koska edelliset tiedot olivat vuoden 2000 väestölaskennasta ja siten vanhentuneet.

Hallinnolliset esteet ison datan käytölle

Iso data on nostettu esille keskeisenä kilpailutekijänä Euroopan unionin piirissä (Euroopan komissio 2014).

Tilastotoimen osalta voi todeta, että Euroopan unionin nykyinen säädöspohja tilastojen tietosisältöjen toimitusten ja joskus jopa yksittäisten kysymysten muotoilun osalta hidastaa tai jopa estää ison datan hyödyntämisen virallisessa tilastoissa.

Tilanne on samankaltainen kuin joskus aiemmin oli rekisteriaineistojen käytön kohdalla, vaikka Euroopan unionin sosiaalitilastostrategia pyrkii uudenlaiseen eri tilastojärjestelmiä yhdistävään lähestymistapaan.

Nähtäväksi jää onko kehitys tarpeeksi nopeaa, jotta virallinen EU-tilasto säilyttää kilpailukykynsä ja ennen kaikkea uskottavuutensa kansalaisten silmissä, kun muut toimijat julkaisevat samoja tietoja julkista tilastointia huomattavasti nopeammin.

Jos ison datan ilmiötä tarkastellaan kansalaisen kannalta, herää kysymys, onko isosta datasta puhuminen keino välttää tosiasiaa, että ison datan kertyminen on tietojen rekisteröintiä enemmän tai vähemmän epävirallisiin tietokantoihin.

Esimerkiksi liikenteen valvontakameroiden ja GPS-paikannuksen käyttö liikennevalvonnassa tai vaikkapa kehitteillä olevat tiemaksujärjestelmät luovat uuden täysin rekisteriin verrattavan ja virallisen tietoaineiston, jonka käyttö ei sinällään poikkea mitenkään esimerkiksi verotuksen rekistereistä.

Avointa dataa tulee lisätä

Isosta datasta puhutaan tällä hetkellä usein avoimen datan yhteydessä; ikään kuin kaikki iso data olisi avointa ja avoin data isoa dataa. Tällaista johtopäätöstä ei pidä kuitenkaan tehdä automaattisesti.

Luultavasti jatkossa suurin osa isosta datasta, jota maailmanlaajuiset tietojärjestelmät tallentavat ja käsittelevät kaiken aikaa, ei tule suuren yleisön tietoon saati käyttöön avoimena datana.

Tilastoviranomaisten olisi syytä varmistaa pääsy myös niihin yhteiskunnan kannalta merkittäviin ison datan tietolähteisiin, jotka eivät ole avointa dataa. Tilastotoimen tehtäväksi tulee mieltää näiden datojen jatkojalostus, jotta niistä voidaan saada käyttäjälle hyödyllistä avointa dataa.

Ison datan ja rekistereissä olevan tiedon välillä on tilastoinnin kannalta sekä eroja että yhtäläisyyksiä.

Olennaista on, että tilastotoimessa tulee seurata yhteiskunnan kehitystä niin tilastojen tietosisällön kuin niiden lähdeaineistojenkin osalta. Muuten päädytään tilanteeseen, jossa tehdään perinteistä tilastoa perinteisin menetelmin ilmiöistä, joita yhteiskunnassa ei enää esiinny, ja uudet tärkeätkin ilmiöt jäävät tilastoinnin ulkopuolelle, koska niistä ei enää saada laadukasta tietoa perinteisin tiedonkeruumenetelmin.

Kirjoittaja on kehittämispäällikkö Tilastokeskuksen väestö- ja elinolotilastot -yksikössä.

Lähde:

Euroopan komissio 2014. Komission tiedonanto Euroopan parlamentille, neuvostolle, Euroopan talous- ja sosiaalikomitealle ja alueiden komitealle. Kohti menestyvää datavetoista taloutta. COM(2014)442. final. Bryssel.

Avainsanat:

Miksi tätä sisältöä ei näytetä?

Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.