Siirry etusivulle - Tilastokeskus
Tieto&trendit - etusivulle

Tekoälyn käyttö tilastotuotannossa on jatkumoa perinteisestä optimoinnista generatiiviseen AI:hin

AI-aika! Toiset sitä pelkäävät, toiset intoilevat mahdollisuuksista. On hyvä hetki tarkastella, miten tekoäly kehittää tilastotuotantoa tulevina vuosina.

Tilastoviraston rooli tekoälyn vastuullisena käyttäjänä on elintärkeä haaste. AI-ajan huono yhteiskunnallinen lopputulema olisi riippumattoman tiedon häviäminen vääristyneen tiedon tulvassa.  

Tekoälyteknologioiden uusin tulokas, generatiivinen AI, on varsinaisessa tilastotuotannossa erityisen haasteellinen, sillä se kärjistäen luo uutta dataa minimaalisella datasyötteellä. Aiemmin virallisen tilaston menetelmät pyrkivät juuri päinvastaiseen: maksimoimaan informaatiota oikeaan dataan perustuen. 

Tilastotuotannon ja tilastoviraston perinteisen roolin näkökulmasta tekoälyn käyttöönotolle tulisikin tärkeänä kriteerinä olla tehostaa oikean uuden datan tuotantoa – ei siis hallusinoitua tekoälydataa, vaan ihmisen toiminnasta syntyvää reaalimaailman dataa. Tätä dataa tarvitsee myös AI aineistokseen.

Tilastotuotannossa työkalujen pitää olla hallinnassa ja hyvin ymmärrettyjä. Toisaalta palvelemme tekoäly-yhteiskuntaa ja tekoälyasiakasta metatiedon ja rajapintojen kautta. Kannaltamme parasta olisi, jos tekoäly tehostaisi oikean tiedon jakelemista ja käyttöä yhteiskunnassa. Hyvässä skenaariossa tekoälyaika voi nostaa tilastoviraston roolia entistä keskeisemmäksi.

Vastuullinen tekoäly tilastoprosessissa

Miten sitten tilastotuotannon tekoälyä kannattaa rakentaa tuohon kriteeriin peilaten?

Yksi hyödyllinen näkökulma: Kuten erilaisten tekoälyjärjestelmien taustalla on erilaisia ennustavia ja oppivia malleja, tilastotuotannon tekoälyn laajimmillaan voidaan ajatella muodostuvan kaikista sellaisista järjestelmistä missä automatisoidaan päätöksiä tai tarkistuksia tai tehdään optimointia datan perusteella. Mitään kovin mullistavaa se ei siis vanhaan aikakauteen verrattuna ole, mutta uusia työkaluja otetaan käyttöön silloin kun ne tarpeeseen sopivat. Tässä mielessä innovaatio ja jatkuva parantaminen on normaali osa datatalon arkea.

Numeerisen datan käsittelyn innovaatiot ovat usein perinteisiä Machine Learning (ML) -menetelmiä, joita on tullut tilastotuotannon käyttöön viime vuosina uusien aineistojen ja uusien kuvattavien ilmiöiden myötä. Uudet kielimallit rikastavat tuota menetelmäjoukkoa, ja tilastotuotannon menetelmäpaletti rakentuukin kerroksittain vanhan päälle, sillä mikään yksittäinen menetelmä ei edelleenkään hoida kaikkia tarpeita. Uudet menetelmät ovat osa jatkumoa.

Rekisteripohjaisen tilastotalon tietoprosessin menetelmät muodostuvat laajahkosta joukosta erilaisia osaamisalueita. Näistä muodostuu kohtuullisen älykkäitä tilastotuotantojärjestelmiä. Samoin AI itsessään muodostuu yksinkertaisista logiikkaan tai monimutkaisemmista mallintamiseen pohjautuvista menetelmistä.

Seuraava taulukko esittää tämän kokonaisuuden menetelmien kompetenssialueiden perusteella. Tekoälyn vaikutuksen on ajateltu jakautuvan perinteiseen automaatioon, Machine Learning / Natural Language Processing (NLP) -alueeseen, jossa mallipohjaisen prosessin myötä kontrolli ja selitettävyys vähenevät, sekä generatiivisen tekoälyn (Gen AI) käyttökohteisiin.

Taulukon avulla voidaan arvioida AI:n rooleja eri työvaiheissa, AI:n voidaan nähdä muodostuvan näistä kokonaisuuksista. AI-menetelmät leikkaavat perinteisten alueiden läpi, sillä tilastotuotannossa ne tavoittelevat samaa kuin “vanhat” – lisäten tehokkuutta ja mahdollistaen uudenlaisten aineistojen käyttöä. Käytännön menetelmätyössä ”tekoälymalli” on vain malli muiden joukossa.

Taulukko: Tekoäly ja tilastotuotannon menetelmät

Menetelmä  Perinteinen automaatio  ML/NLP (kontrolli vähenee)  Gen AI (musta laatikko)  Tavoite 
Uudet GenAI käyttökohteet  NA  NA  Tekstiluonnokset, dokumenttien tulkinta, pdf-tilinpäätösten jäsentäminen, Q&A-rajapinnat, metatiedon jäsentäminen, tilastojen käytettävyys ja uudet tuotteet  Tuottavuus sisällöntuotannossa, monipuolisempi tietotarjonta 
Adaptiivinen tiedonkeruu  Regressioihin ja ihmisen analyysiin perustuva optimointi testimielessä  Systemaattinen vastaustodennäköisyyksien ennakointi, moodien optimointi, resurssien allokointi  Haastatteluskriptien luonnostelu, ohjeiden tuottaminen haastattelijoille ja admin-tehtävät  Tehokkuus ja kustannussäästöt, parempi peitto 
Luokittelu ja koodaus  Deterministinen automaato  Ammattiluokittelu, toimialaluokittelu, tuotteiden luokittelu  Reaaliaikainen luokitusassistentti  Skaalautuvuus, nopeampi luokittelu, kustannustehokkuus, uudet aineistot 
Mallinnus ja estimointi & kausitasoitus  Perinteinen GREG/kalibrointi, pienalue-estimointi, imputointi. Hyvä in-sample, huono out-of-sample  Ennustavat aikasarjamallit, nowcasting, pienaluestimoinnit  Raporttien selittävät tekstit, tulosten tiivistelmät  Parempi tarkkuus, nopeampi laskenta, parempi yleistettävyys 
Rekisterien käyttö & yhdistäminen  Deterministinen automaatio asiantuntijoiden heuristisilla säännöillä  Linkityksen laadun arviointi, driftin ja kattavuuden monitorointi, outlier-analyysi  Rooli tekstipohjaisen tiedon analyysissä  Parempi laatu, nopeampi virheiden tunnistus, uusien aineistojen integrointi, kustannustehokkuus 
Survey-tiede & indeksit  Otanta-asetelmat hieman heuristisesti, analyysiin ja dataan pohjautuen. Indekseissä jakaumiin pohjautuvia virheentunnistusmekanismeja ja hedonisia regressioita  Otanta-asetelmien optimointi, painojen hienosäätö ML:n avulla, klusterointi, hedonisten regressioiden uudet versiot. Mahdollinen ML-mallien validointi surveyllä, ja otantapohjainen monitorointi.  Selittävien tekstien luonnostelu raportteihin  Parempi tarkkuus, pienempi otoskoko 

Missä mennään tekoälyn käyttöönotossa?

Generatiivinen AI (GenAI) on hyvä tekstin tuottamisessa, analyysissä ja ennustamisessa. Survey-tutkijat arvioivat tällä teknologialla olevan eniten vaikutusta juuri tiedonkeruuseen, joka on toimintona ehkä se kriittisin kaikille tilastovirastoille. Tilastokeskuksessa GenAI (tai LLM-malleja) teknologiaa on testattu vapaiden tekstikenttien luokittelussa tiedonkeruun aikana sekä asiantuntija-assistenttina toimivana luokittelija-agenttina. Yksi lupaava kokeilu testasi rikosten luokittelua viranomaisraporteista.

Tällä hetkellä myös yritystietojen käsittelyyn odotetaan syntyvän säästöjä pdf-tilinpäätösten lukemisesta ja analyysistä, mikä ratkaisuna tullee osin hyödyntämään suuria kielimalleja (LLM) ja perinteisempää koneoppimiseen pohjautuvaa tekniikkaa. Näiden käyttöönotto tehostaisi tiedonkeruuprosessia ainakin jonkin verran. Tulevaisuuden visioissa mahdollista voi olla myös haastattelija-bottien käyttö (avatar tukee haastattelussa), tämä on tällä hetkellä kokeilujen asteella survey-tutkimuksissa.

Mitä ilmeisin suurten kielimallien käyttötarkoitus on monipuolisemmassa analyysissä ja tilastotiedon tulkitsijana. Teknologia on uusi, ja tietoprosessissa on käytettävä erityistä huolellisuutta, sillä se on edelleen musta laatikko ongelmineen, joita ei ole vielä kunnolla ratkaistu. Tämä teknologia kuitenkin muovaa varmastikin eniten työelämää ja Tilastokeskuksen palvelutarjontaa. LLMOPs (large language model operations) pyrkii standardoimaan käytäntöjä ja varmistamaan, että prosessia toteutetaan mahdollisimman luotettavasti.

Adaptiivista tiedonkeruuta on hehkutettu jo muutamia vuosia, mutta se on jäänyt toistaiseksi ilman kunnollisia panostuksia. Mikä sen tilanne on nyt?

Olemme tehneet onnistuneita kokeiluja, joissa mallipohjaisella priorisoinnilla saavutetaan jopa 10 prosentin tehokkuushyöty haastattelijan työajankäytössä. Nykyjärjestelmät eivät ole vielä tukeneet laajempaa käyttöönottoa, mutta pienilläkin muutoksilla voidaan saada menetelmiä käyttöön.

Oikeita askeleita otetaan ainakin suunnitteilla olevassa projektissa työvoimatutkimuksen tiedonkeruun tehostamiseksi, jossa tiedonkeruuvälineeseen tuodaan kohdejono-ominaisuus. Adaptiivinen strategia voi tehokkaasti optimoida vastaajien tavoittamista kaikissa tiedonkeruissa. Survey-asiantuntijat eivät aina ole varauksetta tukeneet menetelmien laajamittaista käyttöä, mutta fokus on siirtynyt entistä enemmän kustannustehokkuuteen myös survey-tutkimuksessa.

AI:n rooli tällä alueella on ennustaa vastaustodennäköisyyksiä ja optimaalisia kontaktiajankohtia, ehdottaa hinta–laatu-suhteen kannalta optimaalisia tiedonkeruumoodeja sekä kohdentaa tavoittelua niihin, joilla vaikutus on suurin. Tekoäly tai analytiikka monitoroi haastattelutyön etenemistä optimoimalla resurssien käyttöä vastauskato huomioiden.

Luokittelun ja koodauksen kategoriaan kuuluu luokittelutyön automatisointi. Luokittelussa ML-teknologia on hyödyllinen, kun luokittelusääntöjen (vanha AI) määrä räjähtäisi käsiin ja niistä tulisi hankalasti ylläpidettäviä. Monet uudenlaiset aineistot yleensä edellyttävät ML-mallin käyttöönottoa (kuittiaineistot, kassapääteaineistot, satelliittikuvat...), ja jatkossa luokittelu on vielä enenevässä määrin skaalautuvien ja oppivien algoritmien työtä, koska monet luokittelussa hyödynnettävät rekisteriaineistommekin ovat rajallisilla resursseilla liian työläitä käsitellä perinteisellä automaatiolla.

AI:n rooli onkin ilmeinen tässä kategoriassa. Jatkossa luokittelua tehtäneen kombinaationa koneoppimista ja logiikkaan pohjautuvaa automatisointia. Myös laajat kielimallit osallistuvat tekstipohjaisen tiedon analyysiin. Asiantuntija monitoroi laatua.

Mallinnus ja estimointi & kausitasoitus: Anomalioiden eli poikkeavien arvojen etsintä datasta, imputointi ja nowcasting kuuluvat tähän kategoriaan. Kausitasoitusprosessi itsessään on klassisten tilastollisten mallien (ARIMA) käyttöä, mutta tekoälymenetelmät ulottuvat usein samassa prosessissa tehtävään nowcasting-mallintamiseen.

Ehkä selkein ja kiinnostavin uudenlaista tuotantoa mahdollistava teknologia on nowcasting, joka mahdollistaa nopeiden indikaattoreiden laskennan datalähtöisesti jo hyvin aikaisessa vaiheessa. Tilastokeskuksessa on kokeellisesti tehty mm. rekkaliikenteeseen perustuvaa BKT:n ennakointia, sekä hyödynnämme tekniikkaa ensimmäisten nopeiden suhdannetietojen julkaisuissa.

AI:n rooli on tälläkin alueella ilmeinen, ja osin raja klassisten (ARIMA) menetelmien ja uudempien koneoppimismenetelmien välillä on häilyvä. Tilastokeskus on julkaissut nowcasting-menetelmiin pohjautuvia liikevaihto -ja palkkasummatietoja vuodesta 2019 ja bruttokansantuotteen ennakkoa vuodesta 2020.

Rekisterien käyttö ja yhdistäminen muodostavat tietovarantojen perustan, ja ovat jokaisen tilastotuotantojärjestelmän ytimessä. Tietovarannot muodostavat niin sanotun Y-jalan eli sen palvelukonseptin, jossa yksi tieto käsitellään kerran useita tilastoja ja käyttötarkoituksia varten.

AI:n rooli: Tietovarannoissa hyödynnetään soveltuvasti edistyksellistä mallintamista imputoinnissa tai johdetuissa muuttujissa. Lisämahdollisuuksia tehostamiseen lienee mm. monitoroinnin automatisoinnissa eli laadun tarkkailussa ja analyysissä. Itsessään yksittäinen imputointimalli ei vielä ole AI:ta, mutta yhtenä järjestelmänä toimivat useat mallinnusratkaisut sitä jo ehkä ovat.

Survey-tutkimus & indeksit -kategoriaan kuuluvat otantasuunnittelu, mallipohjaiset GREG/kalibroinnit, estimointi ja painotus sekä indeksien menetelmäkehitys.

AI:n rooli: Koneoppimismalleja hyödynnetään tutkimuksissa tehokkaammassa estimoinnissa ja ennustamisessa, mutta varsinaista AI:ta se ei yksittäisinä malleina ole. Maailmalla niukan datan olosuhteissa yleistä on ns. pienalue-estimointi. Erityisen luotettavia ne eivät välttämättä ole verrattuna rekistereihimme, mutta käyttökelpoisia päätöksentekoon.

Jos datan saanti tulevaisuudessa joiltain osin vaikeutuu tai laatu rapautuu, joudumme turvautumaan erilaisiin pienalue-estimoinnin menetelmiin tiedon tuotannossa. Toistaiseksi se ei ole ollut tarpeen. Survey-tiede tarjoaa työkaluja AI-ratkaisujen monitoroinnin järjestämiseen ja validointiin.

Tiedon muokkaus ja korjaaminen muodostavat kategorian, jossa perinteisesti logiikkatarkistukset, editointisäännöt, deterministiset korjaukset ja aineiston muutosten seuranta ovat keskiössä ja sinällään vanhaa tuttua tilastoautomaatiota. Se, kuinka paljon annamme deterministisen tekoälyn hoitaa aineiston muokkausta, riippuu meille tulevien aineistojen laadusta ja monimutkaisuudesta.

Tätä logiikkapohjaista ja perinteistä tilastoälyä edustaa viime aikoina kehitetty tuottajahintaindeksien editointiprosessi, jossa sääntöpohjaisesti automatisoidaan suurin osa käsittelytyöstä (samaan tapaan valmistuvat innovaatiot-tilastot, T&K-tilastot sekä varasto- ja majoitustilastot).

Seuraavina kohteina ovat ainakin työvoimakustannusindeksi, mahdollinen kuluttajahintaindeksin laajennus ja tieliikenneonnettomuustilastot. Määritelmällisesti nämäkin siis voivat järjestelmänä toimien olla tekoälyä, vaikka muodostuvat yksinkertaisista loogisista palikoista.

Onko tämä itse asiassa AI:ta? Perinteistä determinististä AI:ta kyllä, mutta ei kuitenkaan stokastista viime aikojen edistyksellistä mallintamista.

Tilastotuotannon tekoälyjärjestelmät lienevät jatkossa sääntöpohjaisen logiikan ja koneoppimismallien muodostama hybridi, jossa molemmat hoitavat omaa osaansa. Tämä on kriittinen ja huolellista monitorointia vaativa vaihe. EU:n tekoälyasetuksen myötä AI:n ja perinteisen aineistojen sääntöpohjaisen editoinnin raja on häilyvä. Tulkinta saattaa mennä siten, että jos asiantuntijan avulla tuotettuja sääntöjä on paljon, onkin kyse tekoälyjärjestelmästä.

Tilastollisen tietosuojan alueella alan asiantuntijat ylläpitävät tilastollisen tietosuojan standardeja ja siihen liittyvää välineistöä ja voivat mm. vastata synteettisen datan generoinnista. Nykyiset menetelmät perustuvat heuristisiin ja deterministisiin sääntöihin, tilastolliseen mallintamiseen, optimointiin ja tapauskohtaiseen harkintaan.

AI on alueen kehityksessä mukana ja sen ymmärtäminen on tärkeää. Tekoälyn potentiaalinen hyöty korostuu tilanteissa, joissa analysoitavaa aineistoa on paljon ja se on erityyppistä, kuten rekisteriaineistojen hyödyntäminen tutkimuskäytössä.

Tekoälyllä on esimerkiksi potentiaalia havaita riskejä ja piilotettua tietoa, jota sääntöpohjaiset lähestymistavat eivät tunnista. Toisaalta AI/ML tuo mukanaan haasteita, kuten mallien ylisovittamisen riskin synteettistä dataa tuotettaessa, mikä voi johtaa salassa pidettävien henkilötietojen paljastumiseen. Tämän vuoksi empiiristä ja tapauskohtaista paljastumisriskin arviointia ei voi ainakaan toistaiseksi täysin unohtaa, vaikka käytössä olisi tekoälyyn pohjautuvia menetelmiä. Tässä riittää lainsäädännöllistä ja eettistä pohdintaa tulevina vuosina.

Tietosuojamielessä kirjoittamaton lukunsa on vielä laajojen kielimallien käyttö mikrodatamme päällä, missä tarvitsemme sekä sisään menevien komentojen ja ulostulevan aineiston kontrollia.

Yksinkertainen ohjenuora tekoälyn hyödyntämiselle?

Tilastotuotannon menetelmissä arvona pidetään mahdollisimman suurta selitettävyyttä, jolloin tiedon käsittelyn menetelmäksi valitaan mahdollisimman tehokas, mutta samalla mahdollisimman yksinkertainen menettely. Emme haluaisi monimutkaistaa jo ennestään monimutkaisia prosesseja, mutta haluaisimme skaalautuvuutta. Tällöin esimerkiksi koneoppiminen tulee parhaiten kyseeseen uusien ja vaikeiden aineistojen käsittelyssä ja kun opetusdataa on riittävästi.

Jos voimme automatisoida prosesseja vakaiden ja eksplisiittisten loogisten sääntöjen avulla, sen teemme ensin. Tietojärjestelmissämme asuukin monenlaisia menetelmiä rinnakkain ja päällekkäin. Ehkä kutsumme sitä hybridiksi erilaisia menetelmiä, jossa ihmisen pitää olla kontrollissa.

Hybridi (säännöt + ML) voi olla optimaalinen ratkaisu, kun säännöt lukitsevat kriittisiä havaintoja siltä osin kuin ne pystytään määrittelemään ja ML hoitaa vaikeampia tapauksia tai ei niin kriittistä massaa. Tämä yhdistelmä tukee laatua ja riskienhallintaa.

Monitorointi – uusi kriittinen vaihe tilastotuotannossa

Tekoälymallien käyttöönotto edellyttää aina hyvää harjoitusaineistoa, out-of-sample -testaamista, hyvien toistettavien ja läpinäkyvien prosessien luomista ja monitoroinnin järjestämistä. Monitoroinnissa on ainakin kaksi tärkeää ulottuvuutta: 1) toimivatko itse mallit odotetusti ja 2) miten ML-mallien käyttö vaikuttaa tilastotuotantoprosessiin ja lopputulokseen eli tilastoon; onko strategia toimiva ja tuottaako se vinoumia? Näitä tarkastelemme numeerisin ja visuaalisin mittarein.

Tekoälymallien käyttöönotto tuottaa nopeutta mutta virheetkin voivat skaalautua. Siksi jatkossa on entistä paremmin seurattava datan driftiä (muutoksia aineistossa verrattuna ilmiöön), mallien suorituskykyä, laatumittareita ja poikkeamia. On havaittava, koska mallin toimintakyky rapautuu niin paljon, että uudelleenkoulutus on tarpeen. Eri menetelmien ja aineistolähteiden monipuolistuessa on kyettävä edelleen jäljittämään virhelähteet.

Tekoälyjärjestelmissä korostuu jatkuva riskien tunnistaminen ja mittaaminen. Ihmisen työ keskittyy enemmän erilaisten mittaristojen seuraamiseen kuin esimerkiksi manuaaliseen editointiin. Jokaisella tilastolla onkin olemassa datan laadun (kertymän, varianssin…) mittaristoja, mutta AI-maailmassa tätä mittaristoa on syytä viedä pidemmälle ja keskittää.

Asiantuntijuutta eittämättä haastaa vaatimus ymmärtää samalla AI:n toimintaa ja tilastologiikkaa.

Onko hyödyllistä niputtaa “vanhatkin” menetelmät AI:ksi?

Tekoälyä syntyy, kun uudet ja vanhat menetelmät toimivat tietojärjestelmässä yhteen. Uudet ja vanhat menetelmät tavoittelevat samaa: ne sujuvoittavat ja tehostavat, tarkentavat ilmiön kuvausta tai monipuolistavat tilastotuotantoa.

On hyödyllistä havainnollistaa, että tilastotalon äly rakentuu sekä perinteisistä optimoinneista että uudemmista menetelmistä – samalla se auttaa täsmentämään terminologiaa: perinteinen tilastoautomaatio, ML ja GenAI, joista jokaisella on työkalupakissa roolinsa.

Luotettavuus ja aidon, reaalimaailmaa kuvaavan datan tuotanto on säilytettävä menetelmästä riippumatta. 

Kirjoittaja työskentelee Tilastokeskuksessa menetelmistä vastaavana tilastopäällikkönä. 15 vuoden työura tilastojen kehittämisen parissa sisältää myös virallisten tilastojen menetelmäkehittämiseen keskittyvän Journal of Official Statisticsin päätoimittamista. 

Avainsanat:

Miksi tätä sisältöä ei näytetä?

Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.