Koulutustilastot kehittyvät, hankalasti tulkittavat tilastoluvut säilyvät
Tilastokeskuksen ja erityisesti koulutustilastojen työnkuvaan on vuosikymmenten ajan kuulunut koulutustietojen keruu, tarkistaminen, korjaaminen, käsittely ja raportointi. Käytännössä Tilastokeskus on siis vastannut koko koulutustilastojen tuotanto ja jakeluprosesseista. Tietoja on toimitettu opetushallinnon ylläpitämään Vipunen-tilastopalveluun, kansainvälisiin vertailuihin sekä lukuisille muille toimijoille.
Ajat kuitenkin muuttuvat ja niin myös Tilastokeskuksen rooli koulutustilastojen tuottamisessa. Korkeakoulutilastojen osalta suorista on tiedonkeruista luovuttu jo vuosina 2014-2015 ja tiedot tulevat Tilastokeskukselle korkeakoulujen valtakunnallisen tietovarannon (VIRTA) kautta.
Vuonna 2019 Opetushallitus otti käyttöön Kansallisten opiskeluoikeuksien ja suoritusten keskitetyn integraatiopalvelun (KOSKI), johon tallennetaan henkilöpohjaisina kaikki koulutustiedot esi- ja perusopetuksesta toisen asteen koulutukseen. Tilastokeskus on lakkauttanut sen myötä suoria tiedonkeruita opetuksen ja koulutuksen järjestäjille niiden tietojen osalta, jotka sisältyvät KOSKI-tietovarantoon.
Tiedonkeruiden osalta Tilastokeskuksella ei siis ole tehtävänä enää muuta kuin täydentäviä keruita niiltä osin, joilta KOSKI tai VIRTA eivät kata koko koulutuskenttää.
KOSKI-tietovarannon käyttöönotto tuo mukanaan parempia analyysimahdollisuuksia, minkä lisäksi tilastotuotantoa pystytään automatisoimaan enemmän. Ensimmäistä kertaa on mahdollista tuottaa rekistereiden avulla henkilöpohjaisia tilastoja esi- ja perusopetuksesta, mikä avaa uusia mahdollisuuksia ymmärtää esimerkiksi koulutuksen periytymistä ja siihen liittyviä merkittäviä nivelvaiheita.
Valitettavasti yksi asia ei kuitenkaan muutu: samasta ilmiöstä pystytään edelleen tuottamaan kahdet eri tilastoluvut. Tilastontekijänä on syytä siis varautua edelleen vastaamaan asiakkaiden tiedusteluihin, miksi Vipusen luvut poikkeavat Tilastokeskuksen luvuista, vaikka tilastoitava ilmiö ja tilastointipäiväkin on sama. Lienee syytä avata hieman problematiikkaa kaksien eri tilastolukujen taustalla.
Opetushallinto julkaisee Vipunen-tilastopalvelussa kahdenlaista KOSKI-tietovarantoon perustavaa raportointia: jatkuvasti päivittyviä liveraportteja sekä jäädytettyjä raportteja, jotka perustuvat Tilastokeskuksen kanssa tehtyyn tietopalvelusopimukseen ja pyrkivät jatkamaan aikasarjoja. Liveraportit kuvaavat nimensä mukaisesti ajantasaista tilannetta KOSKI-tietovarannossa, myös taaksepäin menneisyyteen. Miksi liveraporttien luvut voivat poiketa paljonkin jäädytetyistä luvuista:
- Tietovarantojen toteutuksissa on eroja. Tilastokeskukseen haetaan KOSKESTA kaikki suoritus- ja opiskelutiedot sekä näihin liitetyt muutokset. Toisin sanoen Tilastokeskuksessa on mahdollista päätellä henkilö ylimmälle vuosiluokalle sellaisissa tapauksissa, joissa opiskelijalla on päättämättömiä suorituksia alemmilla vuosiluokilla. Vipusen raporteilla tieto uuden vuosiluokan aloittamisesta jyrää edellisen vuosiluokan tiedon, mikäli sitä ei ole merkitty KOSKI-tietovarantoon päättyneeksi. Näin ollen henkilö ei enää sisälly edellisen vuoden oppilasmääriin.
- Tilastokeskuksella ja Vipusella on erilaiset perusjoukot tietokannoissaan. KOSKI kattaa vain opetushallinnon alaiset koulutuksen järjestäjät, kun Tilastokeskuksen tiedot kattavat kaikki koulutuksen järjestäjät. Opetushallinnon alaisuuteen kuulumattomien koulutuksen järjestäjien osalta Tilastokeskus kerää tiedot edelleen erilliskeruilla.
- Tilastokeskus tekee KOSKI-dataan useita tarkistuksia ja tarvittaessa korjaa tietoja. Henkilötunnuksista tarkistetaan tunnuksen muodon oikeellisuuden lisäksi välimerkit, jotka korjataan oikeiksi. Täten saadaan myös parannettua väestötason taustamuuttujien (esim. kotikunta, kansalaisuus, äidinkieli) kattavuutta, sillä yhdistäminen väestörekisterin tietoihin tehdään henkilötunnuksen avulla. Taustamuuttujien osalta Tilastokeskus käyttää vuoden viimeisen päivän tietoja, kun Vipunen-tilastopalvelun luvuissa käytössä on reaaliaikainen tieto.
- Tilastokeskus vertaa koulutustietoja omiin rekistereihinsä ja korjaa havaitsemansa virheelliset tiedot oikeiksi. Ylimääräiset tuplaopiskeluoikeudet poistetaan, lukiokoulutuksen opiskelijoista poistetaan ylioppilastutkinnon jo suorittaneet, minkä lisäksi koulutuksen aloittamisaikoihin tehdään korjauksia aiempien rekisteriaineistojen perusteella.
Kuinka suurista eroista sitten on kyse vaikkapa perusopetuksessa? Alla on taulukoituna perusopetuksen oppilaat vuosiluokittain.
2020 | Tilastokeskus | Vipunen |
---|---|---|
Yhteensä | 555 284 | 534 945 |
1. vuosiluokka | 60 297 | 57 348 |
2. vuosiluokka | 61 509 | 58 971 |
3. vuosiluokka | 61 724 | 60 075 |
4. vuosiluokka | 63 164 | 61 299 |
5. vuosiluokka | 62 621 | 60 366 |
6. vuosiluokka | 62 049 | 58 818 |
7. vuosiluokka | 61 310 | 58 977 |
8. vuosiluokka | 62 115 | 58 695 |
9. vuosiluokka | 60 495 | 60 396 |
Lähteet: Vipunen
Tilastokeskus, Opiskelijat ja tutkinnot, Esi- ja perusopetus
Käytännössä erot ovat siis muutaman tuhannen luokkaa vuosiluokkaa kohden. Lukijaa saattaa mietityttää, onko esimerkiksi 3. vuosiluokan oppilaiden 1 600 oppilaan erolla minkälaista vaikutusta. Asiaa voidaan esimerkinomaisesti tarkastella osallistumisasteiden kautta. Osallistumisasteella tarkoitetaan sitä osuutta ikäluokasta, joka on perusopetuksen piirissä. Koulutuksessa olevien määrää verrataan samanikäiseen väestöön.
Suurin osa 3.vuosiluokan oppilasta on 9-vuotiaita. 9-vuotiaita oli Suomen väestössä 31.12.2020 yhteensä 62 400. Vertaamalla 3. vuosiluokan oppilaiden määriä tähän kantalukuun saadaan osallistumisasteiksi Tilastokeskuksen luvuilla 99 ja Vipusen luvuilla 96 prosenttia. Kolmen prosenttiyksikön ero oppivelvollisuusikäisiä tarkasteltaessa on huomattava.
Kahdet eri tilastoluvut tuovat omat haasteensa lukujen tulkitsemiseen. Tilastokeskus julkaisee virallisia tilastoja, mutta luvut tulevat viiveellä, sillä tietojen tarkistaminen ottaa oman aikansa. Vipusessa julkaistavat live-raportit puolestaan mahdollistavat lähes reaaliaikaisen koulutustilastoinnin.
Molemmille tarkasteluille on käyttötarpeensa. Erilaiset näkökulmat laajentavat ja rikastavat mahdollisuuksia tarkastella koulutusilmiötä, mutta voivat myös hämmentää tietojen käyttäjiä.
Tilastokeskus tekee tiivistä yhteistyötä opetushallinnon kanssa, jotta tietojen erot olisi esitetty mahdollisimman selvästi ja tilastotiedot olisivat mahdollisimman yhteneviä. Täysin samoihin tilastolukuihin pääseminen on kuitenkin haasteellista tilastoinnin eroavuuksien takia.
Kirjoittaja työskentelee yliaktuaarina Tilastokeskuksen koulutustilastoissa.
Avainsanat:
Miksi tätä sisältöä ei näytetä?
Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.