Rekisteritiedoilla tilastotuotannon tuottavuusloikka
Pohjoismaat olivat pioneereja rekisterien hyödyntämisessä tilastotuotannossa ja ovat edelleen maita, joissa tämä on viety pisimmälle. Monissa maailman maissa tilastotuotanto perustuu edelleen perinteisiin menetelmiin, jolloin tiedot kerätään suoraan väestöltä ja yrityksiltä–haastattelemalla tai postikyselyin.
Väestölaskenta on yksi suurimmista ja kalleimmista yksittäisistä tilasto-operaatioista eri maissa. Monissa maissa se on edelleen myös ainoa tietolähde, jossa saadaan tarkkaa alueellista tietoa maan väestöstä ja sen toiminnasta.
Ongelmana perinteisessä väestölaskennassa sen kalleuden lisäksi on se, että haastatteluihin tai kyselyyn perustuvana se voidaan toteuttaa vain määräajoin – yleensä kymmenen vuoden välein, mikä on myös YK:n suositus.
Näistä syistä tilastovirastot eri puolilla maailmaa etsivät uusia tapoja tuottaa yhteiskunnan tarvitsemia perustietoja väestöstä useammin ja kustannustehokkaammin. Yhä enemmän hallinnollisten aineistojen käyttöä pyritään edistämään edes osassa tilastotuotantoa. Muun muassa EU:ssa on meneillään monia hankkeita, joissa rekisterien käyttöä pyritään edistämään ja tukemaan etenkin väestölaskennoissa (ESS.VIP Admin -projekti).
Vuoden 2010 väestölaskennassa jo reilu kolmannes UNECEn maista hyödynsi ainakin osittain hallinnollisia aineistoja – yhdeksän maata perusti koko laskennan kokonaan rekistereistä saataviin tietoihin.
Kun Suomessa 1980-luvulla ruvettiin suunnittelemaan siirtymistä rekisteripohjaiseen väestölaskentaan ja tietojen vuosittaista tuottamista, esitettiin myös epäilyjä siitä, onko tiedoille tarkalla aluetasolla tarvetta vuosittain.
Nykyisin tällainen kysymys lähinnä huvittaa – kymmenen vuoden välein tuotettavat tiedot ovat auttamattomasti vanhentuneita jo pian valmistuttuaan. Tarve lähes reaaliaikaisille tiedoille kasvaa koko ajan.
Rekisterien käyttö mullisti aikanaan koko tilastotuotannon, voidaan hyvinkin puhua tilastotuotannon tuottavuusloikasta. Rekisteritietojen käyttö on edullista verrattuna haastattelemalla tai postikyselyin kerättyihin tietoihin. Tietoja voidaan tuottaa huomattavasti useammin ja eri rekisterien tietoja yhdistelemällä on mahdollista luoda myös uuden tyyppisiä tietoja ja tilastoja.
Rekisteritiedot kattavat koko kohdejoukon, jolloin tietoja on mahdollista tuottaa myös pieniltä maantieteellisiltä alueilta ja tarkoilla luokituksilla, mikä otostutkimusten perusteella ei ole mahdollista.
Rekisterien käytössä omat haasteensa
Suomen koko tilastotuotanto nojaa vahvasti eri hallinnonaloilla tuotettuihin tietoihin kyseisen hallinnon toiminnasta, tuottamista palveluista ja niiden kohteista: väestön rekisteröinnistä, verotuksesta, eläkkeistä, työsuhteista, työttömyydestä jne. Luotettavat ja kattavat rekisteriaineistot tarjoavat huikean mahdollisuuden tuottaa edullisesti laadukkaita ja melko ajantasaisiakin tilastoja yhteiskunnan eri tarpeisiin.
Tällä on myös omat haasteensa: lainsäädännön muutokset heijastuvat usein rekisteriaineistojen sisältöihin, jolloin myös tilastotuotannon on mukauduttava muuttuneisiin tai uudistuneisiin sisältöihin.
Sisällöt muuttuvat, aikataulut pettävät…
Suomen tilastolain mukaan tilastotoimen on hyödynnettävä mahdollisuuksien mukaan jo olemassa olevia tietoja ja rekisterinpitäjien on informoitava ja neuvoteltava muutoksista myös Tilastokeskuksen kanssa. Siitä huolimatta lainsäädäntömuutosten aiheuttamat muutokset aineistoihin voivat aiheuttaa vähintäänkin aikasarjakatkoksia tilastoihin.
Aineistotoimittajien tietojärjestelmäuudistukset voivat puolestaan pahimmassa tapauksessa viivästyttää oman toimintansa ohella myös tietojen sekundäärisiä käyttäjiä. Tästä on esimerkkinä muun muassa 1980-luvun luvun lopun tietojärjestelmäuudistus verohallinnossa, joka viivästytti verotuksen valmistumista ja sillä oli heijastusvaikutuksia myös Tilastokeskukselle toimitettavien aineistojen aikatauluihin.
Aineistojen tietosisällöissä tapahtuneista muutoksista on esimerkkinä muun muassa 1990-luvun alun verouudistus, jolloin eriytettiin toisistaan pääoma- ja ansiotulojen verotus. Samassa yhteydessä verottaja luopui ammattitietojen keräämisestä verovelvollisilta. Verottajan aineisto oli ollut yksi keskeinen lähdeaineisto ammattinimikkeille vuoden 1990 väestölaskennassa. Tähän piti löytää uusi tapa ja vuoden 2000 väestölaskentaa varten jouduttiinkin palaamaan osin tietojen keräämiseen lomakkeella suoraan työnantajilta.
Rekisterien sisältömuutokset voivat toki olla positiivisiakin. Yksi viimeaikainen merkittävä parannus on väestötietojärjestelmässä käyttöön otettu pysyvä rakennustunnus, joka otettiin käyttöön vuoden 2014 lopussa. Aiemmin käytössä olleeseen rakennustunnukseen verrattuna pysyvä rakennustunnus yksilöi rakennuksen ja se on pysyvä koko rakennuksen elinkaaren ajan. Tunnus ei siis enää sisällä muuttuvia tietoja. Aikaisempi rakennustunnus sisälsi tietoa rakennuksen sijaintipaikasta. Rakennuksen sijaintitietoa ylläpidetään jatkossa erillisenä rakennuksen ominaisuustietona.
Digitalisaation myötä uusia rekistereitä
Suomi on tällä hetkellä yksi johtavista maista julkisissa sähköisissä palveluissa. Myös digiosaamisen on tutkittu olevan EU-maiden huippua, joten digitaalisten palveluiden edelleen kehittämiselle Suomessa on hyvä tilaisuus. Digitalisaatio onkin hallitusohjelman läpileikkaava teema, joka huomioidaan lähes jokaisessa kärkihankkeessa.
Yhtenä periaatteena digitalisaatiossa on se, että tieto kerätään vain kerran ja se on sen jälkeen kaikkien tarvitsijoiden saatavilla. Tämä hyödyttää niin kansalaisia, yrityksiä, hallintoa – ja myös tilastotointa.
Tulorekisterissä kaikkien tulotiedot
Kansallinen tulorekisteri (KATRE) on yksi hallituksen kärkihankkeista. Sen on tarkoitus sisältää kattavat tiedot palkoista, eläkkeistä ja etuuksista. Palkanlaskentaan liittyvät ilmoitukset ovat tällä hetkellä merkittävä rasite yrityksille. Tulorekisterin tavoitteena on keventää yritysten hallinnollista taakkaa yksinkertaistamalla palkan maksamiseen liittyviä ilmoitusmenettelyjä.
Palkkatiedot ilmoitetaan vuoden 2019 alusta lähtien tulorekisteriin reaaliaikaisesti, heti maksutapahtuman yhteydessä. Sieltä ne ovat eri tiedon tarvitsijoiden käytettävissä yhtenäisesti ja samanaikaisesti. Tulorekisteri korvaa mm. Verohallinnolle, työeläkelaitoksille ja työttömyysvakuutusrahastolle toimitettavia vuosi-ilmoituksia. Eläke- ja etuustietojen on tarkoitus tulla rekisterin piiriin vuodesta 2020 lähtien.
Tilastokeskus on myös yksi tulorekisterin hyödyntäjistä vuodesta 2020 alkaen. Koska tietosisällön määrittely on vielä osin kesken, ei tällä hetkellä tarkkaan tiedetä, miten ja missä laajuudessa tulorekisterin tarjoamia tietoja voidaan hyödyntää tilastotuotannossa. Oletettavaa kuitenkin on, että tulorekisteriä hyödynnetään ainakin palkka- ja työssäkäyntitilastossa, kansantalouden tilinpidossa, suhdannetilastoissa ja mahdollisesti myös tulonjakotilastossa.
Osa rekisteriin tallennettavista tiedoista on työnantajille vapaaehtoista. Jos monet tilastoinnin kannalta tärkeät tiedot määritetään vapaaehtoisesti ilmoitettaviksi ja moni työnantaja jättää tiedot ilmoittamatta, niin aineiston hyödynnettävyys kärsii. Tällöin joudutaan edelleen turvautumaan yrityksille lähetettäviin tiedusteluihin ja idea yhden luukun periaatteesta tiedon jakamisessa osaltaan vesittyy. Reaaliaikainen ilmoitusmenettely mahdollistanee kuitenkin nopeamman ja ajantasaisemman tilastojen tuotannon.
Asunto-osakkeet rekisteröidään tulevaisuudessa sähköisesti
Osana julkisten palvelujen digitalisointia perustetaan sähköinen asunto-osakerekisteri. Siinä osakehuoneistoja koskevat tiedot ja omistajamerkinnät rekisteröidään sähköisesti. Hanke on laaja poikkihallinnollinen yhteistyöhanke, josta hyötyvät useat tahot niin julkishallinnossa kuin yksityisellä sektorillakin.
Asunto-osakkeita koskevilla tiedoilla ja merkinnöillä on laaja yhteiskunnallinen merkitys, sillä asunto-osakkeet koskettavat huomattavaa osaa kansalaisista, asunto-omaisuuteen on sitoutunut merkittävä määrä varallisuutta ja luotettavia asuntojen omistajatietoja tarvitaan useissa asiayhteyksissä.
Asunto-osakerekisterin tiedot ovat yhdistettävissä muissa rekistereissä oleviin tietoihin. Erityisen tärkeä on yhteys väestötietojärjestelmässä oleviin tietoihin rakennuksista ja huoneistoista. Väestötietojärjestelmässä on meneillään myös hanke pysyvän huoneistotunnuksen muodostamisesta samaan tapaan kuin pysyvä rakennustunnuskin.
Asunto-osakerekisterin tietojen käyttö yhdessä väestötietojärjestelmän rakennus- ja huoneistotietojen kanssa parantaa asumista kuvaavien tilastotietojen laatua. Se parantaa muun muassa tietoja omistus- ja vuokra-asunnoista sekä tyhjillään olevista osakeasunnoista. Lisäksi se mahdollistaa tietojen tuottamista sijoitusasunnoista, asumisen monipaikkaisuudesta (kakkosasunnot) ja asuntoihin kohdistuvista rajoituksista (mm. hitas-asuminen).
Väestön koulutustiedot yhteen rekisteriin
Hallituksen viime kesäkuussa eduskunnalle antaman esityksen mukaan Suomeen perustetaan Kansallisten opiskeluoikeuksien ja suoritusten keskitetty integraatiopalvelu KOSKI. Se on valtakunnallinen palvelu, jonne kootaan tietoja väestön koulutuksesta – aina yksittäisistä opintosuorituksista suoritettuihin tutkintoihin asti. Palvelun on suunniteltu olevan käytössä täydessä laajuudessaan vuonna 2019 ja sen ylläpitäjänä toimii Opetushallitus.
Tiedot kootaan yhteen jo olemassa olevista rekistereistä ja uusista, perustettavista rekistereistä. Tällä hetkellä olemassa olevia hallinnollisia rekistereitä on olemassa muun muassa opiskelijavalinnoista, korkeakoulujen opiskelijoista ja suoritetuista tutkinnoista sekä ylioppilastutkinnoista. Näitä kaikkia Tilastokeskus jo hyödyntää tilastoinnissaan.
Uusia rekistereitä on tulossa muun muassa esi- ja peruskouluopetuksesta, lukiokoulutuksen opiskelijoista ja ammatillisesta koulutuksesta, joiden tietoja Tilastokeskus kerää tällä hetkellä vielä koulutuksen järjestäjiltä suorilla tiedonkeruilla.
Esi- ja perusopetuksen oppilaista koskevat tiedot saadaan uudesta rekisteristä henkilöpohjaisina, mikä tuo mahdollisuuksia täysin uusien tietojen tuottamiseen. Tähän saakka tiedot on kerätty oppilaitoksilta vain summatasolla ja tilastointi on siten rajoittunut vain kerättyyn tietoon eikä niitä ole pystynyt yhdistämään henkilötasolla Tilastokeskuksessa muihin tietovarantoihin.
Tilastoinnin uudet haasteet – big datasta ratkaisu?
Samalla kun maailma digitalisoituu, ihmisten elinympäristö muuttuu yhä monimuotoisemmaksi. Työn ja vapaa-ajan raja saattaa monin paikoin hämärtyä. Työn tekemisen paikka vaihtelee etätyön yleistyessä: enää ei istuta joka päivä samassa konttorissa kahdeksasta neljään, vaan työtä tehdään eri työpisteissä, kotona, kesämökillä, jossain kahvilassa ehkäpä jopa ulkomaillakin. Myös työn tekemisen aika voi tulevaisuudessa olla vapaampaa ja vaihtelevampaa.
Miten tätä ja muuta muuttuvaa ympäristöä voidaan kuvata nykyisillä tilastomenetelmillä ja aineistoilla? Aikoinaan rekisteritiedot mullistivat perinteisen tilastoprosessin. Onko nyt aika uudelle vallankumoukselle?
Maailmassa syntyy koko ajan uutta tietoa ihmisten toiminnan perusteella: kulutuskäyttäytymisestä, erilaisista ympäristöä ja olosuhteista kuvaavista mittareista, satelliittikuvista, liikennevirroista jne. Eri puolilla maailmaa ja EU:ssa tutkitaankin tällaisen big datan käyttömahdollisuuksia mm. tilastoinnissa. Esimerkiksi Virossa on tutkittu matkapuhelintietojen avulla henkilöiden työmatkaliikennettä. Muita mahdollisia tietolähteitä voivat olla esim. etäluettavien sähkömittareiden keräämä tieto, kauppojen kanta-asiakasaineistot, sosiaalisen median tiedot, liikenteen sensoridata jne.
Ratkaiseeko big datan käyttö tilastoinnin uudet haasteet? Se jäänee nähtäväksi. Jotta big datan avulla voidaan tuottaa luotettavaa tilastotietoa, tarvitaan vielä paljon kehitystyötä tutkimus- ja analyysimenetelmien, aineiston laadun varmistuksen ja lainsäädännön osalta sekä yhteistyötä eri toimijoiden kanssa. Erityisesti on otettava huomioon henkilöiden yksityisyyden suoja.
Kirjoittaja työskentelee kehittämispäällikkönä Tilastokeskuksen väestö- ja elinolot -yksikössä.
Lähteet:
Manninen, Asta (2016). Kvartti. Big data tuo uusia mahdollisuuksia tilastoviranomaisille.
Ruotsalainen, Kaija (2011). Tieto&trendit. Maailman väestö lasketaan joka kymmenes vuosi.
Measuring population and Housing. Practices of UNECE countries in the 2010 round of censuses. United Nations. New York and Geneva 2014.
Avainsanat:
Miksi tätä sisältöä ei näytetä?
Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.