Miten tuottaa tekoälyllä oikeaa dataa hallusinoidun sijaan?
Generatiivinen tekoäly luo uutta dataa minimaalisella syötteellä, perinteiset tilastomenetelmät pyrkivät päinvastaiseen: maksimoimaan informaatiota oikeaan dataan perustuen.
Tilastotuotannossa ei hypätäkään suin päin uuteen ja tuntemattomaan; oikein toteutettuna tekoälyn käyttö on jatkumoa perinteisestä optimoinnista generatiiviseen AI:hin.
Miten se tapahtuu? On hyvä hetki tarkastella, miten tekoäly kehittää tilastotuotantoa tulevina vuosina. (Tässä blogissa teen sen suppeammin, laajemmassa artikkelissa käyn läpi tilastotuotannon menetelmiä ja AI:n käyttöä tiedon keruusta sen luokitteluun, koodaukseen, muokkaukseen ja korjaukseen.)
Tilastoviraston rooli tekoälyn vastuullisena käyttäjänä on elintärkeä haaste. AI-ajan huono yhteiskunnallinen lopputulema on näet riippumattoman tiedon häviäminen vääristyneen tiedon tulvassa.
Tekoälyteknologioiden uusin tulokas, generatiivinen AI, on varsinaisessa tilastotuotannossa erityisen haasteellinen, sillä se luo uutta dataa minimaalisella datasyötteellä. Aiemmin virallisen tilaston menetelmät pyrkivät juuri päinvastaiseen: maksimoimaan informaatiota oikeaan dataan perustuen.
Tilastotuotannon ja tilastoviraston perinteisen roolin näkökulmasta tekoälyn käyttöönotolle tulisikin tärkeänä kriteerinä olla tehostaa oikean uuden datan tuotantoa – ei siis hallusinoitua tekoälydataa, vaan ihmisen toiminnasta syntyvää reaalimaailman dataa.
Tilastotuotannossa työkalujen pitää olla hallinnassa ja hyvin ymmärrettyjä. Toisaalta jatkossa palvelemme tekoäly-yhteiskuntaa ja uutta tekoälyasiakasta metatiedon ja rajapintojen kautta. Kannaltamme parasta olisi, jos tekoäly tehostaisi oikean tiedon jakelemista ja käyttöä yhteiskunnassa. Hyvässä skenaariossa tekoälyaika voi nostaa tilastoviraston roolia entistä keskeisemmäksi.
Miten sitten tilastotuotannon tekoälyä kannattaa rakentaa tuohon kriteeriin peilaten?
Yksi hyödyllinen näkökulma: Kuten erilaisten tekoälyjärjestelmien taustalla on erilaisia ennustavia ja oppivia malleja, tilastotuotannon AI:n laajimmillaan voi ajatella muodostuvan kaikista sellaisista järjestelmistä missä automatisoidaan päätöksiä, tarkistuksia tai tehdään optimointia datan perusteella. Mitään kovin mullistavaa se ei siis vanhaan aikakauteen verrattuna ole, mutta uusia työkaluja otetaan käyttöön silloin kun ne tarpeeseen sopivat. Innovaatio ja jatkuva parantaminen on normaali osa datatalon arkea.
Numeerisen datan käsittelyn uudemmat innovaatiot ovat usein perinteisiä Machine Learning (ML) -menetelmiä, joita on tullut tilastotuotannon käyttöön viime vuosina uusien aineistojen ja uusien kuvattavien ilmiöiden myötä. Uudemmat kielimallit rikastavat tuota menetelmäjoukkoa, ja tilastotuotannon menetelmäpaletti rakentuukin kerroksittain vanhan päälle, sillä mikään yksittäinen menetelmä ei edelleenkään hoida kaikkia tarpeita. Uudet menetelmät ovat osa jatkumoa.
Missä tällä haavaa käytännössä mennään tämän kaiken kanssa? Siitä perusteellisemmin artikkelissa, tässä muutamia esimerkkejä siitä, miten Tilastokeskuksessa tekoälyä käytetään, sekä yksinkertaistavia ohjenuoria, milloin tietoprosessissa valitaan ML ja milloin sääntöpohjainen automatisointi.
Ensisijaisesti sääntöpohjainen automatisointi valitaan silloin, kun…
• säännöt ja aineistot ovat vakaita ja eksplisiittisiä, virheen hinta on korkea ja asiantuntemusta on saatavilla sääntöjen määrittelyyn
• opetusdataa ei ole riittävästi: ML:n tuotantohyödyt edellyttävät laadukasta opetusdataa ja laadunhallintaa
• laatu- ja selitettävyysvaatimukset asettavat kovat vaatimukset: kriittiset tarkistukset on parempi lukita sääntöihin, ML voidaan lisätä rinnalle tukirooliin.
Ensisijaisesti valitaan ML, kun…
• virheitä on hankala mallintaa yksinkertaisilla säännöillä, data on monimutkaista ja sääntöjen määrä räjähtäisi käsiin (esim. tekstien luokittelu ja kassapääteaineistot); ML voidaan valita myös, jos ei ole saatavilla riittävää asiantuntijapanostusta aineiston mallintamiseen
• mallin ja aineiston monitorointi voidaan hoitaa, eli ylläpitoon on riittävästi datatieteen osaamista
• tarvitaan skaalautuvaa joustavuutta, esim. uusissa aineistolähteissä (satelliittikuvat…), mallin ajo halutaan tehdä reaaliaikaisesti ja uutta dataa virtaa jatkuvasti.
Joskus myös hybridi (säännöt + ML) voi olla optimaalinen ratkaisu: Säännöt lukitsevat kriittiset havainnot siltä osin kuin ne pystytään määrittelemään, tällöin ML hoitaa vaikeampia tapauksia tai ei niin kriittistä massaa. Tämä yhdistelmä tukee laatua ja riskienhallintaa.
Viimeaikainen case-esimerkki hybridiratkaisusta Tilastokeskuksessa on ammattiluokittelu, jonka yhtenä haasteena on se, että lähdeaineistona on tekstiä (nimikkeitä) ja lisäksi numeromuotoista dataa eri rekistereistä tai kyselyistä. Pelkkä sääntöpohjainen päättely ei riitä, niiden ylläpito on mahdotonta ja erilaisia loogisia päättelyketjuja on aikojen saatossa syntynyt yli 40 000.
Kuluttajahintaindeksin kassapääteaineistojen luokittelussa käytämme ML-luokitinta. Aineistot sisältävät kauppojen omia tekstimuotoisia kuvailuja myydyn tuotteen ominaisuuksista. Kielimallit ovat käytössä luokittelutyössä ja mahdollistavat isojen ja hankalien aineistojen käyttöönoton hintaindekseissä.
Uusi kriittinen vaihe tilastotuotannossa on monitorointi, johon siirrymme manuaalisesta editoinnista. Automaatio tuottaa nopeutta, mutta virheet skaalautuvat ja voivat jäädä piiloon. Siksi jatkossa on entistä paremmin seurattava datan driftiä (muutoksia aineistossa verrattuna ilmiöön), mallien suorituskykyä, laatumittareita ja poikkeamia.
Tekoälyjärjestelmissä korostuu jatkuva riskien tunnistaminen ja mittaaminen. Ihmisen työ keskittyy enemmän erilaisten mittaristojen seuraamiseen kuin manuaaliseen editointiin. Lähes jokaisella tilastolla onkin jo olemassa datan laadun mittaristoja, mutta AI-maailmassa mittaristoa on syytä viedä pidemmälle.
Vanhat ja uudet menetelmät tavoittelevat samaa: sujuvoittaa ja tehostaa, tarkentaa ilmiön kuvausta tai monipuolistaa tilastotuotantoa.
Tilastotalon äly rakentuu sekä perinteisistä optimoinneista että uudemmista menetelmistä: perinteinen tilastoautomaatio, ML ja generatiivinen AI – jokaisella on työkalupakissa roolinsa ja ominaispiirteensä riskeineen.
Kovista tehostamistavoitteista huolimatta reaalimaailmaa kuvaavan datan tuotanto on säilytettävä menetelmästä riippumatta. Luotettavasti ja harhattomasti.
Kirjoittaja työskentelee Tilastokeskuksessa menetelmistä vastaavana tilastopäällikkönä. 15 vuoden työura tilastojen kehittämisen parissa sisältää myös virallisten tilastojen menetelmäkehittämiseen keskittyvän Journal of Official Statisticsin päätoimittamista.
Avainsanat:
Miksi tätä sisältöä ei näytetä?
Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.
