Hallinnolliset rekisterit ovat tilastotuotantomme kivijalka – nyt niiden käyttö on murroksessa

26.3.2021

Kaija Ruotsalainen, Hanna Jokimäki, Jukka Pitkäjärvi, Jari Nieminen, Aura Pasila

Kuva: Shutterstock

Rekisterit ovat 1980-luvulta lähtien tehostaneet tilastotuotantoa merkittävästi. Viime vuosina monet rekisterinpitäjät ovat rakentaneet uudenlaisia tietovarantoja kuten Verohallinnon tulorekisteri. Ne tuovat tilastointiin mahdollisuuksia mutta myös niin paljon työtä, että uusia kustannussäästöjä ja tuottavuusloikkia ei ole ainakaan lyhyellä tähtäimellä luvassa – pikemminkin päinvastoin.

Hallinnon omiin tarkoituksiinsa keräämiä rekisteritietoja käytetään myös toissijaisiin tarkoituksiin. Itsestään selvää? Tänä päivänä kyllä, mutta aina ei ole ollut näin.

Suomessakin tilastoinnin tarvitsemat tiedot kerättiin vielä pitkälti 1980-luvulle saakka enimmäkseen suoraan yrityksiltä ja väestöltä – postikyselyin tai haastattelemalla. Osin näin joudutaan tekemään edelleenkin, sillä kaikkea tilastotoimen tarvitsemaa tietoa ei ole rekisteröity vielä nykyisinkään olemassa oleviin rekistereihin.

Tietosisältö suorissa tiedonkeruissa oli ymmärrettävästi rajallinen. Keskityttiin vain olennaisimpaan ja tärkeimpään. Useimmiten tiedot kuvasivat tilannetta jonain tiettynä ajankohtana, esimerkiksi tiettynä viikkona tai vuoden vaihteessa. Kertymätietoina saatettiin kysyä esimerkiksi tulotietoja tai liikevaihtoa kuluneelta vuodelta, mutta ei ollut mahdollista kysyä henkilöiltä erilaisia toiminnan jaksoja tai tarkkaa tulolajien erittelyä.

Rekisterit tilastojen tietolähteeksi

Sotien jälkeen kävi ilmeiseksi, että tarve tietojen rekisteröintiin eri hallinnon aloilla oli suuri. Lähtökohta oli kuitenkin vaikea – yhteiskunnassa ei ollut kokemusta suurista ja kattavista rekistereistä eikä henkilöiden tunnistamisesta. Tietotekniikka ja sen hyväksikäyttö olivat vasta alullaan.

Vähitellen tietotekniikan kehittyessä 1960-luvulla viranomaiset alkoivat kuitenkin siirtää omia hallinnollisia aineistojaan rekistereihin.

Henkilörekisteröinnin puolella yksi tärkeimpiä virstanpylväitä oli 1960-luvun alussa Kansaneläkelaitoksen väestölle luomat sosiaaliturvatunnukset (nyk. henkilötunnus). Se pohjautui työeläkejärjestelmässä toteutettuihin henkilön tunnistamisratkaisuihin ja helpotti henkilöiden tunnistautumista eläke- ja sairausvakuutusasioissa.

Saman vuosikymmenen lopussa perustettiin Väestörekisterikeskus (nyk. Digi- ja väestötietovirasto), jonka tehtäväksi tuli väestökirjanpidon ohjaus ja valvonta sekä väestön keskusrekisterin (nyk. väestötietojärjestelmän) ylläpitäminen. Henkilön tunnustiedoksi valittiin Kansaneläkelaitoksen luoma sosiaaliturvatunnus, joka edelleen muodostaa pohjan aineistolähteiden yhdistelylle.

1970-luvun alussa Väestörekisterikeskuksesta tuli vastuullinen viranomainen henkilötunnusten myöntämiselle ja ylläpitämiselle.

Tällä hetkellä Suomen tilastotuotannon kivijalka ovat rekisterit – niin sosiaali- kuin taloustilastojenkin puolella. Tuskin mitään tilastoa tuotetaan hyödyntämättä rekistereitä. Vaikka osa keskeisistä tilastoista tuotetaankin kyselyihin tai haastatteluihin perustuen otostutkimuksina, kuten vaikkapa työvoimatutkimus, niin rekisteritietoja hyödynnetään myös niissä.

Digitalisaatio tuo datan näpin ja näppäimen päähän?

Suomalaisessa yhteiskunnassa on meneillään digitalisaation murros. Datan määrä kasvaa räjähdysmäisesti, mutta samalla myös tiedon tarve kasvaa.

Tarvitaan yhä ajantasaisempaa tietoa eri näkökulmista. Sen myötä olemassa olevat toimintatavat ja rakenteet joutuvat muutoksen kohteiksi. Tarvitaan yhä joustavampia ja toimivampia toimintoja ja järjestelmiä, jotka palvelevat väestöä eri elämäntilanteissa. Samalla tuotetaan tietoa yhteiskunnan käyttöön.

Digitalisaatio on nostettu hallitusohjelmassa tärkeäksi kaikkia koskettavaksi teemaksi ja se huomioidaan lähes jokaisessa kärkihankkeessa. Esimerkiksi julkisen tiedon hyödyntämisen ja avaamisen hankkeessa pyritään parantamaan julkisen tiedon saatavuutta, laatua ja yhteentoimivuutta (VM043:00/2020).

Yhtenä periaatteena digitalisaatiossa on se, että tieto kerätään vain kerran ja se on sen jälkeen kaikkien tarvitsijoiden saatavilla. Tämä hyödyttää niin yksittäistä ihmistä, palvelun tuottajaa, viranomaisia – ja tilastotointa.

Edesmennyt Tilastokeskuksen pääjohtaja Olavi Niitamo (1926–1999) hehkutti 1990-luvulla tiedon olevan “näpin ja näppäimen päässä”. Viime vuosisadan lopulla tilastoinnissa otettiinkin melkoinen tuottavuusloikka rekisteritietojen avulla. Tilastotuotanto nopeutui, mutta toisaalta oltiin hyvin riippuvaisia rekisteripitäjien aikatauluista, mikä heijastui joihinkin tilastoihin hyvinkin pitkänä viiveenä.

Digitalisaation luomat mahdollisuudet, yhä suuremmat tietomassat niin viranomaisten kuin yritystenkin tietovarannoissa haastavat myös tilastoprosessit. Joko nyt tieto olisi mahdollista saada ajantasaisesti, monipuolisesti näpin ja näppäimen päähän?

Uudenlaiset tietolähteet haastavat tilastoinnin

Siinä missä rekisteritiedon käyttö on merkinnyt tuottavuusloikkaa, uudistuvien tietovarantojen käyttöönotto ei yllättäen merkitsekään suoraviivaisia kustannussäästöjä. Datan saaminen näpin ja näppäimen ulottuville vaatii paljon työtä.

Tilastoijan näkökulmasta valmiiksi koostetun tiedon vastaanottamisesta ollaan siirtymässä tiedon omatoimiseen noutamiseen. Myös tiedon rajaaminen ja jalostaminen rakenteeltaan tilastointiin soveltuvaksi on siirtymässä vahvemmin aineiston hyödyntäjän tehtäväksi. Varsinkin uuden aineiston käyttöönottovaiheessa tarvitaan sekä sisällöllistä perehtymistä että teknistä suunnittelua ja varsin usein myös uusien tietoteknisten ratkaisujen rakentamista esimerkiksi aineistojen noutoon.

Uusien aineistojen käyttöönoton työläys on osittain myös tulosta tarpeesta yhdistellä uutta ja vanhaa sekä sisällöllisesti että teknisesti. Tilastokeskus käyttää yhtä aikaa niin haastatteluaineistoja, perinteisiä rekisteriaineistoja kuin kasvavissa määrin useammista uudenlaisista tietovarannoista tulevaa dataa.

Aineistot voivat olla rakenteeltaan varsin vaihtelevia tai ajallisesti esimerkiksi vuositason kokonaisaineistoja tai päivittäisiä ilmoitusaineistoja. Yhtenäisen tilastoaineston muodostamiseksi erityyppisille aineistoille täytyy löytää tekninen yhdistelytapa ja -logiikka.

Myös aineistojen varastointi voi tietomäärien kasvaessa vaatia uusia ratkaisuja. Tulevaisuuden avauksina on nostettu esille esimerkiksi pilvipohjaiset tietovarannot, joissa tietojen konvertoinnista yhtenäiseen muotoon voidaan luopua.

Uusien aineistojen haltuunoton ensiaskel on sekä teknisesti että sisällöllisesti pyrkiä turvaamaan samantyyppinen tilastotuotanto kuin aiemmin, jotta tiedoista voitaisiin yhä tuottaa aikasarjoja ja vakiintuneiden käsitteiden mukaisia lukuja. Uudentyyppisiä aineistoja pyritään siis aluksi viemään yhtenäiseen muotoon tietokantaan ja poimimaan tiedot siten, että samankaltaista tietoa pystytään tuottamaan.

Tiedon tuottaminen muuttuvassa ympäristössä on iso haaste ja selittää sitä, miksi uusien aineistojen käyttöönotto on niin työlästä. Uuden aineiston käyttöönoton yhteydessä on tärkeää aktiivisesti tunnistaa, mitkä tiedot ovat niitä, joiden sisällöistä ja aikasarjoista halutaan pitää kiinni, ja mistä on mahdollista luopua tai mitä voisi tehdä uudella tavalla. Uusia sisällöllisiä avauksia on tehty kokeellisten tilastojen kautta, joissa käytetään uusia aineistoja ja/tai menetelmiä.

Mihin vielä tarvitaan erillisiä tilastoja?

Uudenlaisten tietolähteiden jatkuvapäivitteiset tietojärjestelmät tuottavat käyttäjille raportteja nopeassa tahdissa, joten voidaan pohtia sitäkin, mihin enää tarvitaan erillistä tilastoa.

Uudet tietolähteet ovat usein hyvinkin erikoistuneita ja yleensä yhden organisaation tai toiminnon näkökulmasta toteutettuja. Tilastontekijälle tärkeää on havaita ne katvealueet, jotka jäävät huomiotta. Esimerkiksi tulorekisterissä ei ole juuri saatavissa tietoa työpanoksesta tai tiedot työpaikan sijainnista voi antaa vapaaehtoisesti. Näitä tietoja voidaan joutua edelleen keräämään erillisillä tiedonkeruilla.

Milloin sitten voidaan varmistua, että uudet tietoaineistot ovat riittävän laadukkaita tilastotuotantoon? Aikaisemmin tämä oli todettavissa vertaamalla perinteisen tiedonkeruutavan ja uusien lähteiden välistä eroa tiedon laadussa, mutta nykyään ei uusien tietolähteiden laadun arvioimiseksi ole yksinkertaisesti mahdollista tehdä vastaavaa suoraa tiedonkeruuta. Tähän vaikuttavat sekä suoran tiedonkeruun kustannukset että etenkin vaatimukset nopeasta tiedontuotannosta.

Kaikkiaan tiedon tulkinnan merkitys kasvaa entisestään, kun on tarve saada nopeasti ennakollista tietoa ja ennusteita tulevasta. Onko niin, ettei virallisen tilaston leimalla tehty tieto voi lähtökohtaisesti olla koskaan yhtä nopeasti reagoivaa kuin varsinainen alkuperäisen hallinnollisen aineiston tuottama data? Mikä sitten on jatkossa tilastoinnin rooli?

Uusia aineistoja muodostuu paljon ja tilastoinnissa pitää osata tunnistaa se, miten niitä voisi käyttää tilastoinnissa. Näiden käyttöönotossa ei kuitenkaan saavuteta tuottavuushyötyjä ainakaan lyhyellä aikavälillä, sillä tilastoinnin kokonaisuus joudutaan miettimään ja rakentamaan uudelleen. Tarvitaan yhä enemmän erilaisten tietojen kokoamista ja yhdistämistä, jotta voidaan saada kattava aineisto ilmiöiden kohdealueesta. Tässä työssä keskeiseksi muodostuu tietojen vertailu ja laadunkontrollointi niin, että tilastossa muodostettava lisäarvo saadaan kuvattua myös tiedon käyttäjälle.

Tulorekisterin käyttöönotto Tilastokeskuksessa on ollut vuosien työ

Tulorekisteri on hyvä esimerkki uudentyyppisestä aineistosta, jonka käyttöönotto haastaa perinteisten tilastojen tuottajaa.

Tulorekisterin käyttöönotto on tarkoittanut Tilastokeskuksessa monia asioita. Ensinnäkin tulorekisterillä voitaisiin parhaimmillaan korvata useita vanhoja rekisteriaineistoja ja tiedonantajille työläitä tiedonkeruita. Sitä voidaan myös hyödyntää tietojen tarkistamisessa tai puuttuvan tiedon korvaajana perinteisten tilastojen tuotannossa.

Toisaalta tulorekisteri sisältönsä ja lähes reaaliaikaisuutensa puolesta voi toimia myös täysin uuden tai nopeamman ennakkotiedon lähteenä.

Eri näkökulmat tuovat omat erityispiirteensä aineiston tutkimiseen ja käsittelyyn. Aineisto täytyy saada muotoon, jossa se on käytettävissä useiden vanhojen aineistojen rinnalla ja toisaalta niin, että sitä voidaan hyödyntää uusissa tilastointi- ja tutkimustarkoituksissa – sellaisissakin, joita ei ole vielä keksitty.

Uuden tietolähteen rakentaminen ja käyttöönotto on ollut vuosien prosessi. Tulorekisterin toteutuksen ja sisällön suunnittelu käynnistyi valtiovarainministeriön hankkeena marraskuussa 2014 (VM055:00/2014). Tilastokeskus oli alusta alkaen mukana suunnittelutyössä.

Konkreettinen tulorekisterin käyttöönottotyö Tilastokeskuksessa alkoi vastaanottoprosessin suunnittelusta 2018 ja sisällön käytön suunnittelusta 2019. Testiaineistoa saatiin vuonna 2019. Vuoden 2020 alusta Tilastokeskus alkoi saada palkkatietoaineistoa tiedon käyttäjänä.

Tähän mennessä valmistelu- ja käyttöönottotyötä on Tilastokeskuksessa tehnyt kuusi puhtaasti tulorekisteriin keskittyvää projektia, minkä lisäksi pienempiä osakokonaisuuksia on toteutettu osana muita projekteja sekä muun työn ohella. Suunnitteilla on tälläkin hetkellä useita jatkoprojekteja.

Vuonna 2020 tulorekisteriin lähetetiin päivittäin keskimäärin 140 000 palkkailmoitusta, ja saman verran niitä siirtyy joka vuorokausi Tilastokeskukseen, joka tilasto- ja tutkimustiedon tuottajana ja jakelijana saa lähes koko tulorekisterin sisällön näitä tarkoituksia varten. Palkkatiedot viedään Tilastokeskuksen omaan tietovarantoon, josta sitä jatkojalostetaan eri käyttötarkoituksia varten.

Aineiston koko tuo omat haasteensa prosessiin, ja datan latausaika sekä aineiston käsittely ja analysointi kestävät kauemmin kuin mihin perinteisten aineistojen kanssa on totuttu. Lukemattomien rivien lisäksi aineisto on monimutkaisempi kuin vanhat rekisteriaineistot ja tämä vaatii aineiston käyttäjältä sisällön tuntemuksen ohella osaamista datan rakenteesta.

Palkkailmoitusten lisäksi uutena kokonaisuutena eläke- ja etuustietoja alettiin toimittaa ja vastaanottaa tulorekisteristä vuoden 2021 alusta.

Perinteisiin tilastoihin tulorekisteri on jo vaikuttanut korvaamalla keväästä 2020 alkaen esimerkiksi palkkasummakuvaajissa aiemmin käytetyt Verohallinnolta saadut yrityskohtaiset lähdeaineistot. Koska monet aiemmin rekisteriaineistoina saadut erilliset tietotoimitukset siirtyvät tulorekisteristä suoraan käytettäviksi, tuotantokäyttöönottoja tehdään tilastoissa sitä mukaa kuin niiden julkaisuaikataulut vaativat.

Loikan sijaan tuottavuusromahdus alkuun

Vaikka aineiston korvautuminen toisella kuulostaa yksinkertaiselta asialta, niin käytännössä käyttöönotto ei ihan sitä ole, sillä aineistot tulevat eri muodossa ja eri sisältöisenä kuin aiemmin, ja vanhat käsitteet täytyy muodostaa tästä uudesta tietosisällöstä. Näin ollen ainakin väliaikaisesti uusi aineisto aiheuttaa tuottavuusromahduksen tuottavuusloikan sijaan, kun aineiston käsittelyyn kuluu huima määrä työtunteja.

Suuri tulorekisteriin liittyvä tavoite työnantajien tiedonantorasitteen pienentymisestä on osoittautunut haasteelliseksi toteuttaa Tilastokeskuksen tiedonkeruissa, kun käytännössä tiedonkeruiden korvaaminen vaatii sitä, että tulorekisteriin olisi ilmoitettu laajasti pakollisen tietosisällön lisäksi täydentävä eli vapaaehtoisesti ilmoitettava sisältö.

Tiedonkeruiden lakkauttamisen sijaan tulorekisteriä pystytään hyödyntämään esimerkiksi työvoimakustannusten neljännesvuositiedonkeruun palkkatietojen esitäyttötietona joillekin vastaajille ja palkkatiedonkeruussa pystytään joidenkin palkansaajaryhmien tiedot poimimaan Tulorekisteristä. Tämä ei välttämättä tarkoita kuitenkaan toivottua tuottavuuden kohentumista, vaan esimerkiksi tulorekisteristä esitäytetyt tiedot voivat aiheuttaa ennemmin hämmennystä ja lisäselvitysten tekoa sekä tiedonantajille että tiedon tuottajille. Tilastojen tuotantoprosessit helposti monimutkaistuvat, kun tilaston lähdetiedot ovat hajallaan eri rekistereissä ja tiedonkeruissa.

Tilastokeskuksella on tärkeä rooli tiedon yhdistäjänä, jatkojalostajana ja jakelijana. Tulorekisteriaineisto on tuotu tutkijoiden käyttöön niin, että siihen pystyy yhdistämään yritysten ja henkilöiden taustatietoja. Aineiston muodostuksen taustalla on lukuisia tunteja sekä teknistä että sisällöllistä työtä, jonka avulla oikeat tiedot on saatu oikeaan paikkaan oikeassa muodossa. Aineistoa ei voida vain jakaa, vaan Tilastokeskukselta vaaditaan laaja-alaista aineiston tuntemusta ja asiakkaiden tarpeiden ymmärrystä, jotta tietoa voidaan toimittaa järkevällä tavalla.

Tulorekisteritietojen pohjalta julkistettiin 2020 useita artikkeleita liittyen palkansaajiin ja palkkatuloihin. Vuoden 2021 helmikuussa julkaistiin ensimmäiset kokeelliset palkkatilastot tulorekisteristä.

Tilastokeskus on koronatilanteeseen liittyen tuottanut Tilastokeskuksen tutkijapalveluiden kautta tulorekisteriin pohjautuvia tilastotietoja Helsingin GSE:lle (Helsinki Graduate School of Economics). Uudet aineistot saatiin poikkeustilanteessa poikkeuksellisen nopeasti käyttöön. Tilastokeskukselle on myös tullut tutkijoilta ensimmäisiä käyttölupahakemuksia tulorekisteriaineistoon.

Tulevaisuuden tavoitteena on tuottaa lisää tietoa ja tilastoja tulorekisteristä, jotka kuvaavat nyky-yhteiskuntaa ja sen kehitystä. Tulorekisteritiedoilla on mahdollisuus tuottaa selkeästi nykyistä nopeampaa tilastotietoa alueista, joista tällä hetkellä emme pysty laatimaan nopeaa tilastoa kuten kausityöskentelystä, eläkeläisten työssäkäynnistä sekä laajemmin pätkätöistä ja osa-aikatyöstä.

Tulorekisteristä saisi tietoja yhdistelemällä kattavampaa ja ajankohtaisempaa tilannekuvaa suomalaisten työssäkäynnistä, palkkatasoista ja saaduista eduista ja tulonsiirroista. Ja aivan uusia mahdollisuuksia tuo tulorekisteritietojen yhdistäminen muihin rekisteritietoihin kuten uuteen Opetushallituksen KOSKI-aineistoon, joka sisältää opiskelu- ja tutkintotietoja.

Aura Pasila työskentelee kehittämispäällikkönä Tilastokeskuksen Kehittäminen ja digitalisaatio -palvelualueella, Kaija Ruotsalainen Yhteiskuntatilastot-osastolla. Jari Nieminen ja Jukka Pitkäjärvi työskentelevät kehittämispäällikköinä Tietovarannot -osastolla, Hanna Jokimäki palkkatilastojen parissa Työelämä ja palkat -ryhmässä.

Lähteitä:

Lindholm, Mikko, 10.2.2021: Dataräjähdys muutti datan merkityksen yhteiskunnassa – miten siihen pitäisi reagoida?
https://www.stat.fi/tietotrendit/blogit/2021/datarajahdys-muutti-datan-merkityksen-yhteiskunnassa-miten-siihen-pitaisi-reagoida/

Ruotsalainen, Kaija 21.12.2017: Rekisteritiedoilla tilastotuotannon tuottavuusloikka
https://www.stat.fi/tietotrendit/artikkelit/2017/rekisteritiedoilla-tilastotuotannon-tuottavuusloikka/

Tilastokeskus 29.9.2020: Tutkijoiden käyttöön julkaistu uusi tulorekisteriaineisto
http://tilastokeskus.fi/uutinen/tutkijoiden-kayttoon-julkaistu-uusi-tulorekisteriaineisto

Tilastokeskus 8.2.2021: Tulorekisterin palkat ja palkkiot, Palkka- ja palkkiotulojen mediaani 2 958 euroa joulukuussa 2020
https://tilastokeskus.fi/tup/kokeelliset-tilastot/tulorekisterin_palkat_ja_palkkiot/2020-joulukuu/index.html

Tulorekisteri 16.6.2020: Tulorekisterin tietomassojen käsittely vaatii järjestelmältä paljon

https://www.vero.fi/tulorekisteri/tietoa-meist%C3%A4/uutishuone/ajankohtaista/uutiset/tulorekisterin-tietomassojen-kasittely-vaatii-jarjestelmalta-paljon/

VM043:00/2020, Tiedon hyödyntämisen ja avaamisen hanke
https://vm.fi/hanke?tunnus=VM043:00/2020

VM055:00/2014, Kansallisen tulorekisterin perustamishanke
https://vm.fi/hanke?tunnus=VM055:00/2014

Avainsanat:

Miksi tätä sisältöä ei näytetä?

Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.

Hallinnolliset rekisterit ovat tilasto­tuotantomme kivijalka – nyt niiden käyttö on murroksessa