Markus Sovala: Hyvät kuulijat, tervetuloa Tilastokeskuksen mukaan. Tässä on vähän jo nimessä mukana tällaista vähän koukkua. Meidän laskelmien mukaan sanapari Tilastokeskuksen mukaan esiintyy noin sata kertaa vuorokaudessa mediassa ja käytännössä kerran päivässä joku pääkirjoitus mainitsee nämä kuuluisat sanat ”Tilastokeskuksen mukaan.” Mutta nyt tänään ollaan liikkeellä datan ympärillä. Tänään puhutaan datajournalismista, tekoälystä, monista asioista, jotka ovat tässä Tilastokeskuksenkin näkökulmasta kiinnostavia ja asioita, joissa me koetamme kaikin tavoin olla hyödyksi. Ylipäätänsähän me ajatellaan, että tällainen toiminta kuin Tilastokeskus, mitenkä sitä ilman ylipäätänsä koko demokratiaa Suomessa voisi toimia? Tätä hommaa Suomessa tulee tänä vuonna täyteen 160 vuotta. Miten tätä on tehty? Kovin eri tavalla aikanaan lähdettiin liikkeelle vähän samoihin aikoihin, kun perustettiin Suomen Pankki, markka rahana ja rautatiet. Eli tavallaan yhteiskunnan perustoiminnoista on kysymys. Mutta, pitkälle on päästy ja tänään meillä tästä meidän datateemasta on meidän kanssa puhumassa toimittaja Esa Mäkinen Helsingin Sanomista. Hän myös vastaa – Esa, niin, mistä sinä oikeastaan vastaat?
Esa Mäkinen: Se on vähän semmoinen talonmiehen homma, että hoidan, että meillä tekoälytyökalut on kunnossa, meidän digitaaliset palvelut toimii, tilausmyynti skulaa ja joitain strategisia hankkeitakin. Kehitysjohtaja on titteli varsinaisesti, mutta kyllähän minä toimittaja sydämeltäni kuitenkin aina olen.
Markus: Niin, kyllä olet kirjoittanut ihan viime aikoina aika ihmeellistäkin asioista.
Esa: Maailma on ihmeellinen. Mä kirjotan ihan niistä asioista mitä näen maailmassa. Viime aikoina maailma näyttää muuttuneen hyvin paljon ihmeellisemmäksi kuin mitä aikaisemmin.
Markus: En ole itse tutustunut, mutta minulle kerrottiin, että olet vielä kirjoittanut romaaninkin.
Esa: Kirjoitin romaaniin. Kymmenen vuotta sitten ilmestyi totuuskuutio, joka siihen aikaan tuntui omasta mielestäni futuristiselta kuvaukselta maailmasta, jossa kaikki tieto on digitaalista ja iso toimija pystyy muokkaamaan tietoa mieleisekseen. Samoja teemoja kuin Orwellin ja Ray Bradburyn kirjoissa. Että se, joka hallitsee tietoa, hallitsee maailmaa. Ja nyt ehkä tämä tuntuu varsinkin viimeaikaisten tekoälykehitysten myötä tulevan pikemminkin nopeammin lähemmäksi kuin hitaammin.
Markus: Nykyään taitaa olla tällainen futurististen kirjojen kirjoittelu olla aika hankalaa puuhaa vähän mistä tahansa näkökulmasta lähtien.
Esa: Tavallaan kuin satiirin tekeminen tuntuu kovin hankalalta tänä päivänä.
Markus: Niin ja en tiedä miten nuo sotaromaanitkaan nyt. Miten mitä niitä enää osaisi kirjoitella.
Esa: Teemat ainakin muuttuu niissä.
Markus: Joo no, kun me ollaan tässä tilastojen mukaan maailmassa, niin tiesitkö Esa, että 23 prosenttia suomalaisista on meidän Tilastokeskuksen mukaan käyttänyt generatiivista tekoälyä vuonna 2024?
Esa: Opin sen juuri tässä vähän aikaa sitten. Amerikkalaiset tilastot näyttää samankaltaisia lukuja, mutta minusta näissä tilastoissa on ehkä mielenkiintoisempaa se, että mihin ihmiset käyttävät sitä.
Markus: Okei.
Esa: Teidän tilasto sanoi, että se olisi tekstintuotanto, mutta amerikkalaiset tilastot sanovat, että ihmiset käyttävät sitä esimerkiksi omaan terapointiin. Eli siis siihen, että kysyy tekoälyltä, että sanoinpas ikävästi aamulla sille Tilastokeskuksen pääjohtajalle haastattelussa tai podcastissa, että mitä? Pitäisikö pyytää anteeksi vai olla pyytämättä? Ja sitten sieltä tulee kaikenlaista. Kaikenlaista ikään kuin vinkkiä siihen, miten pitäisi toimia. Ja nimenomaan tämä, niin kuin näissä teidänkin tilastoissa näkyy. Se, että nuoret etenkin ja siis nyt puhutaan aidosti nuorista alle 24 vuotiaista ovat aktiivisimpia tekoälyn käyttäjiä. Sitä käytetään ihan eri tavalla kuin mitä sanotaan, vaikka 65-vuotiaat sitä asiaa käyttää. Ja se on ehkä sellainen uusi merkittävä kehityskulku tässä tekoälyn käytössä. Niistä on tullut terapeutteja, lääkäreitä, ystäviä, ravintoterapeutteja.
Markus: Joo, tässä vähän nämä. Huomaa, että on sukupolvien välillä vähän eroa. Kun itse kuuluu sinne vähän vanhempiin ikäluokkiin, niin kyllä mä kännykältä kysyn ja varmaan kysyn monta kertaa tunnissa erilaisia asioita, jotka on minun mielestäni totta tai haluan tietää faktoja. Mutta kyllä tunteet ja mielipiteet, ne on vähän niin kuin mun omia asioita. En mä niitä kännykältä kysele, mutta näin se maailma muuttuu.
Esa: Tässäpä sitten. Musta se on niin kuin se on mielenkiinto. Koska siis tämä.
Markus: Suomalainen mieskö.
Esa: Niin se.
Markus: On yksin, niistä tunteista ihan pakko puhua.
Esa: Jos jollekin puhuu, niin sille tekoälylle, joka ei välitä eikä moralisoi. Jaahas, sinulla on tällänen ongelma. No lähdetäänpä ratkaisemaan tätä hommaa. Jos sä puhut jollekin kaverille, niin ensin ne vähän naureskelee ja sitten ne seuraavat kaksi vuotta muistuttaa siitä samasta asiasta.
Markus: Mitenkähän keinoäly suhtautuu tähän vanhaan vitsiin, että on mulla tunteita, ne vaan kaikki ovat negatiivisia. No niin, mennäänpäs vähän asiaan vaihteeksi. Sinunkin työuraan on mahtunut monen näköistä ja olet tehnyt niin kuin ihan perustoimittajan hommia, mutta myös sellaista mitä sanotaan datajournalismiksi. Mistä siinä, oikeastaan tässä datajournalismissa on kysymys ja mitä se on?
Esa: No silloin 2010 kun perustin Hesarin datadeskin, niin silloin oli pari samanaikaista liikehdintää. Oli tämä avoimen datan liike, että yritettiin avata erilaisia viranomaisten ja muiden datoja ja sitten oli ikään kuin tietokoneet siinä kypsyysvaiheessa, että pystyttiin aika paljon käsittelemään myös koneellisesti niitä aineistoja. Ja datajournalismi hyvin yksinkertaisesti oli se journalismin laji, jossa yritettiin tehdä vähän samaa kuin mitä Tilastokeskuksessakin tehdään, että otetaan jokin data-aineisto ja analysoidaan sitä itse ja yritetään päätellä siitä asioista. Siinähän sitten tietenkin, kun meillä nuo esitystavatkin on monipuolisempia kuin ehkä perinteisillä toimijoilla, niin siihen liittyy olennaisena osana se, että tehtiin erilaisia interaktiivisia käppyröitä. Nyt kun siitä on jo viisitoista vuotta aikaa, niin sehän myös kehkeytyi sitten tällaiseksi hyvinkin näyttäväksi verkkokerronnaksi. Ja näitä kaikkia asioita se mun tiimi siinä vuosien varrella teki.
Markus: Onko datajournalismi aina hidasta?
Esa: Ei, se on pikemminkin hyvin nopeata siis. Se on se olennainen pointti.
Markus: Tulee uutinen datan kautta. Tai kun käytännössä sitten tietenkin maailma on muuttumassa. Mutta kyllä perinteisesti tietoon on aina liittynyt jotakin viivettä tai tämmöisen numeron muutoksen tietoa, että kuinka nopeasti sen saa käyttöön.
Esa: Meillähän ei ole sitä ylellisyyttä, että voisimme käyttää hirveän paljon aikaa. Kun datajournalismin keinot eivät kuitenkaan ole ehkä niin monimutkaisia, ettei siellä koskaan mitään kovin järeitä tilastollisia analyyseja tehty. Pikemminkin ehkä se datan yhdisteleminen oli se yksi keskeinen uusi asia, että keksittiin, että jos meillä on postinumeroalueet, niin sieltä kun yhdistetään kaksi eri tietokantaa postinumeron perusteella, niin voidaan saada jotain mielenkiintoista uutta tietoa tai tehdään kyselyitä lukijoille, niin siitä voidaan saada mielenkiintoista tietoa. Siinä se taas eroaa Tilastokeskuksen tekemisestä, että se oli hyvin, no en sanoisi pinnallista, mutta kai sitä niinkin voisi kuvailla, että tehtiin nopeasti asioita. Yritettiin saada nopea ensimmäinen ymmärrys niin kuin journalismi aina yrittää tehdä. Ensimmäinen ymmärrys asiasta ja sitten tutkijat myöhemmin kertoo, että miten tämä nyt todellisuudessa meni.
Markus: Niin jos pystyy. Sitten maailmassa on paljon asioita, joita ei sitten oikein lopulta kunnolla saada ikinä ymmärrettyä. Kun sun tausta on kuitenkin, olet opiskellut sosiologiaa, tehnyt tällaista aika yleistä toimittajan hommaa, kirjoittanut myös kaunokirjallisuutta. Nyt olet sitten pyörittämässä tällaista puoliautomaattista numeromurskainkonetta Hesarissa, niin koetko olevasi numero- vai teksti-ihminen? Ja toimiiko sellainen erottelu lainkaan?
Esa: Mä en ajattele, että olisin erityisesti kumpaakaan, mutta ehkä molempia. Ja on sekä vahva tausta tekstissä, mutta jossain määrin vahva tausta numeroissa. Ja ehkä se on se mielenkiintoinen asia tässä tekoälyvallankumouksessa, jota elämme tällä hetkellä, että se lopettaa tämän erottelun tekstin ja numeroiden välillä. Että me pystytään hyvin tehokkaasti ottamaan järjestäytymättömästä tekstistä. Otetaan iso tekstiaineisto ja luodaan siihen tekoälyn avulla rakennetta. Ja siinä mielessä mä ajattelen, että olen hyvässä asetelmassa koska ymmärrän sekä tekstiä että numeroita, niin pystyn liikkumaan helpommin näitten kahden akselin välillä. Sitä varmaan vaaditaan kaikilta muiltakin jatkossa entistä enemmän.
Markus: Joo, tässä meidän edellisessä podcastissa meillä oli vieraana vuoden luokanopettaja Johanna Asplund ja hänen kanssa koitin puhuttaa häntä samasta näkökulmasta, että onko se erilaista opettaa lapsia lukemaan tai laskemaan. Hän kovasti korosti, että siinä on kysymys aika samasta asiasta, että numeroiden ja sen tekstin lukemisen taidon on ala-asteikäisen opettamisen näkökulmasta aika samanlaisia. Ja saattaa olla, että tässä on tapahtumassa myönteistä kehitystä, koska mulla on se usko. Mä itse koen olevani yhtä hyvä tai yhtä huono molemmissa, mutta olen tässä vuosien varrella kuitenkin huomannut, että on paljon ihmisiä, jotka selvästi pelkää numeroita.
Esa: Koulussa on peloteltu.
Markus: Kyllä ennen vanhaan ollut tosi taitava pelottelemaan. Mutta kyllä Johanna, joka on tietenkin tällaisen normaalikoulun opettaja ja varmaan siinä mielessä yksi opetuksen superosaaja, niin kyllä ne on hoksanneet, että pelko pois ja lapsille pitää opettaa vaan sen ympärillä olevan informaation tulkintaa.
Esa: Mä jotenkin ajattelisin, että koulu tulee olemaan niin kuin kaikki muut asiat yhteiskunnassa, mutta tekoälyn suhteen koulussa on varmasti paljon asioita, jotka liittyy juuri tähän että tekoäly ei tuomitse. Tekoäly ei ole erityisen nihkeä. Tekoäly voi olla hyvinkin kannustava. Tavallaan hyvinkin pienet lapset, joille voidaan ehkä jatkossa luoda sellaisia tapoja oppia niitä numeroita, oppia myös sitä kirjoittamista jossa se kone reagoi siihen. Tekoälymallit ovat ehkä niin kuin aikuisten tekstintuotantoon. Helsingin Sanomien tekstiä ei vielä saada aikaiseksi ihan täsmällisesti koneella, koska siinä on niin paljon nyansseja. Mutta jos puhutaan vaikka kolmasluokkalaisesta tai kuudesluokkalaisesta tai jopa yläastelaisesta, niin uskoisin, että siellä on mahdollista saada sellainen täysin väsymätön opettaja, joka jaksaa toistaa ja toistaa ja toistaa niin kauan sille yksittäiselle yksilölle asioita ennen kuin hän oppii.
Markus: Mä oon ollut varmaan 23-vuotias, kun yliopistossa kävelin ensimmäisen kerran ohjelmointikurssille ja tietokone tuli niin, että olisi ensimmäinen oma tietokone. Ne oli niin kalliita ja silloin mä olen vuokrannut vuonna - herranjumala, se on ollut varmaan vuonna 87. Mä olen vuokrannut tietokoneen ja sen jälkeen mä huomasin, että on niin hieno laite että semmoinen pitää omistaa ja se sellaisen ostaminen oli siihen aikaan opiskelijarahoissa iso kysymys. Sillä rahalla olisi voinut syödä vuoden tonnikalaa ja riisiä. Se oli ihan iso investointi.
En ollut silloin vielä Tilastokeskuksessa, mutta olit meillä jossakin seminaarissa. Näin on kerrottu joskus tuossa 5–6 vuotta sitten puhumassa, niin silloin suosittelit, että Tilastokeskuksen pitää mennä Tiktokkiin.
Esa: Näin tein. Se oli joku pohjoismainen tilastotapaaminen. Mä ajattelin, että pitää vähän…
Markus: Mutta me ollaan tehty se.
Esa: Niin. Sen tässä juuri havaitsin ja mä silloin kyllä ehdotin vielä täsmällisesti, että voisitte - siihen aikaan Tiktok oli vielä se mukava somekanava, missä ihmiset tanssivat - niin mä ajattelin, että Tilastokeskus voisi tanssin keinoin esittää näitä tilastoja.
Markus: Tää - kyllä verovirastolle nämä tanssivideohommat.
Esa: Enemmän ne on oikein makeita. Siinähän tulee sellainen fiilis, että okei, no Tilastokeskus, siinä on vähän samanlaista vitseliäisyyttä kuin verottajan toiminnassa. Tavallaan tällainen oikein äärimmäisen kuiva virasto, jolta ei odota paljoakaan sitten kun sieltä tulee.
Markus: Me ollaan Kalasataman Helmi. Niin hei, mutta mikä sun suositus nytten? Mitä nyt meidän pitäisi tehdä, kun Tiktokissa jo ollaan.
Esa: Niin että no mitäs jos korvaisitte sen sinänsä ihan hienon uuden internetsivun sellaisella, jossa ihmiset voisivat kirjoittaa, että kerroppa minulle mikä on Suomen ja Ruotsin BKT ero. Ja sitten sieltä joku tekoälymalli tekee kivan käppyrän ja vastaa sulle tähän että Ruotsin BKT on kasvanut paljon. Suomen BKT ei ole. Että vähän voisitte siellä Suomessa tsempata.
Markus: Joo, tuommoinen me varmaan tässä ihan lähivuosina tehdään. Valitettavasti nyt on vähän viiveitä näissä tekemisissä. Meidän budjettia ollaan suuruusluokassa 10 prosenttia nyt parin vuoden sisään vähentämässä ja meillä on kuitenkin sellainen iso homma hoidettavana. Meidän pitää ne numerot tehdä, mutta kyllä me toikin hoidetaan. Mutta ei me hirveän nopeasti pystytä.
Esa: Mutta se on minusta mielenkiintoinen kyllä tämä, koska koneet ovat erityisen hyviä luvuissa, että miten tämä muuttaa sekä sitä miten me käyttäjät nähdään ne tilastot että miten te teette niitä? Kun katsoo maailmalle ja ehkä tämmösiä isoja kansainvälisiä korporaatioita, niin siellä nyt kilvan kaikki julistavat, että The Use of AI is now a baseline expectation for all employees. Tämä oli Spotify -nimisen firman toimarin viesti koko kaikille henkilökunnalleen, että ei riitä, että käytte yhdessä tekoälykoulutuksessa, vaan jokaisen pitää ruveta miettimään miten sitä tekoälyä käytetään. Ja minusta se niin kuin vaikka tällainen tietokantakyselyiden tekeminen, niin nuo vehkeet ovat tosi hyviä siinä, koska kone osaa kirjoittaa konekieltä hirveän hyvin. Ja mä luulisin, että sen lisäksi että toivoisin saavani sen kyselyvehkeen, niin se kysymys, että kuinka paljon tää tekoälyvallankumous oikeastaan mahdollistaa toiminnan tehostamista ja sitä kautta uuden asioiden tekemistä. Tehdään vähän nopeammin vanhat, niin sitten pystytään keskittymään vähän uusiin asioihin.
Markus: Toi on oikeastaan, otit juuri puheeksi Tilastokeskuksen strategian. Tota me tässä yritetään. Me yritetään sellaista nopeata tuottavuusloikkaa näitten meidän perustekemistemme osalta, että meiltä vapautuisi resursseja tekemään näitä uusia asioita. Tuossa oli myös toinen, minkä jännästi sanoit, että nämä kansainväliset isot korporaatiot. Minusta on tosi järkevää ajatella tätä tilastoalaa isona kansainvälisenä korporaationa, joka toimii noin 170 maassa. Jolla on tällainen keskitetty pääohjaus YKn kautta ja kullakin mantereella on omat rakenteensa. Olisi järkevää, jos tämä tällaiset automaattiset haut voisi, että olisi riittävästi samaa rakennetta näiden eri maiden tilastoviranomaisten tietokannoissa, koska silloin se mahdollistaisi. Olisi helpompi tehdä sellaisia globaaleja hakuja, että vertaa Suomen ja Latvian BKT:tä. Niin nythän se ainoa järkevä tapa on mennä Eurostatin sivulle. Tai jos haluat verrata sitten muilta mantereelta olevia maita, niin sitten jonkun YKn tai IMFn Maailmanpankin tällaista kautta.
Esa: Mutta tuo kuulostaa hirveän houkuttelevalta myös näin tiedon käyttäjänä, että saisi samat tiedot kaikista maista samassa muodossa. Sitten siinä on se toinen pointti, tämä uusi tyhmyyden aika, jota vaikka Yhdysvaltain tuore presidentti edustaa monessa mielessä. Että sellainen ihana ajatus mitä tässä sanot, että kaikista maista saataisiin faktapohjaista tietoa samassa muodossa. Ja sitten se kysymys, että uskotaanko siihen tietoon enää. Ikään kuin tämän tieteellisen tiedon ja faktapohjaisen päätöksenteon rinnalle näyttäisi olevan muodostumassa myös sellainen toisenlainen tapa nähdä maailmaa, jossa tungetaan voimalla läpi omia ajatuksia välittämättä siitä. Onko teidän toiminta myös vähän uhattuna tällaisessa maailmassa. Jotenkin Eurooppa suojelee meitä hyvin pitkälle tässä, mutta onko tämä tällaisen - sä sanoit 170 maata - niin kuinka luotettavia tilastoja Kiinasta saadaan? Kuinka luotettavia tilastoja Venäjältä ylipäätänsä? Tilastot ja demokratia liittyy toisiinsa hyvin olennaisesti.
Markus: Liittyy toisiinsa, mutta mä olin sattumalta USAssa juuri niihin aikoihin kun tämä uusi hallinto aloitti ja olin tapaamassa siellä USAn tilastovirastoja. Siellä on monta tilastovirastoa, taitaa olla lämmössä kymmenkunta, niin niiden kolmen suurimman johdon kävin tapaamassa juuri ihan niinä aikoina, kun siellä niin sanotusti sattui ja tapahtui. Niin, kyllä minulle siltä pohjalta jäi kuitenkin sellainen tuntuma, että tilastotoiminta ei ole tämän myrskyn keskipisteessä.
Esa: Vielä.
Markus: Niin ei vielä. Ja sitten mä oon sillä tavalla vähän optimisti, että tämän tämmöisen populistisen uusoikeistonkin puheissa kun siellä on sisällä tämä common sense tai arkijärki, että kyllä siellä on jotakin uskoa kuitenkin niin kuin totuuteen ja faktoihin. Heillä on vain käsitys, että tämä systeemi on tuonut näitten faktojen lisäksi tällaista wokea ja kaikkea muuta, joka ei ole faktaa. Kyllä siellä, kyllä mä luen heidän puheita niin että kyllä siellä on sisällä tällainen käsitys, että on olemassa totuus ja että heillä on, että he vaan että he ovat itse asiassa vaan enemmän totuuden asialla kuin tämmöinen vihervasemmisto.
Esa: Mutta mun pointti oli se, että media on hyökkäyksen kohteena, Oikeuslaitos on hyökkäyksen kohteena.
Markus: Ei olla.
Esa: Niin. Miksi te ette? Onko se vaan? Te ette vielä ole hyökkäyksen kohteena, koska teidän tuottama totuudenmukainen tieto ei ole vielä asettunut ristikkäin sen kanssa, mikä on kulloisenkin vallanpitäjän kannalta tarpeellista? Mutta mun on hyvin helppo kuvitella, että jossain vaiheessa näin scifikirjailijana myös on helppo kuvitella, että jos Suomessakin tulisi vaikka hyvinkin autoritäärinen populistinen oikeistolainen liikehdintä valtaan, niin sellaisessa tilanteessa Tilastokeskus tuottaa niin sanotusti väärää woke tietoa, niin se on helpompi ratkaisu syyttää Tilastokeskusta kuin muuttaa omaa virheellistä politiikkaa. Ja en näe, että te olisitte mitenkään erityisesti suojassa täällä.
Markus: Huomaa, että olet kirjoittanut kaunokirjallisuuttakin. Okei, en kiistä. Ilman muuta tuollainenkin kehityskulku voi joskus vielä olla edessä, mutta en minä tällä hetkellä sellaista osaa kauheasti tässä pelätä. Tässä on konkreettisempikin murheita vielä edessä. Yksi näkökulma on minun mielestäni se, että kyllä se isompi riski tai isompi liikkumatila on koko ajan niitten numeroiden tulkinnassa kuin itse niissä numeroissa. Tilastoalalla on kansainvälisesti puhuttu paljon, että meidän pitäisi korjata virheellistä tietoa. Esimerkiksi ajatellaan, että tuo sosiaalinen media on täynnä puppua, että sitä pitää korjata? Mutta minä olen aika pessimistinen sen suhteen, koska minä olen ollut Tilastokeskuksen pääjohtajana nyt vähän yli neljä vuotta. En oikeastaan muista yhtä ainutta keissiä, missä joku olisi meidän tietoa, joitakin numeroita jotenkin julkisuudessa vääristellyt. Ei oikeastaan sellaista havainnut, että joku väittäisi, että BKT on kasvanut ihan eri tavalla kuin me sanomme.
Esa: Samaahan meiltäkin vaaditaan, että meidän pitäisi ikään kuin käyttää oikeita sanoja joidenkin asioiden kuvaamiseen. Ja sitten kun on vaikka pari eri poliittista ryhmää, joilla on vahvasti eri käsitys siitä, että mikä on se oikea sana, niin nämä ovat tavallaan samankaltaisia vaatimuksia. Musta on osa sitä samaa ilmiötä.
Markus: Joo, mutta mä sanoin vaan että meillä olisi helpompi korjata jos joku esittäisi väärän numerotiedon. Mutta se, että miten niitä numeroita tulkitsee, niin meillä ei ole hirveän hyvät edellytykset eikä oikeastaan kuulukaan olla siihen tulkintaan puuttumiseen. Koska me ajatellaan näin, että tällaisessa työnjaon yhteiskunnassa me puhutaan tiedon arvoketjusta. Ajatellaan, että se tieto, joku kerää sen ja joskus se kerätään itse. Mutta meidän tapauksessa useammin sen tiedon on kerännyt joku toinen viranomainen jotakin ihan muuta tarkoitusta varten. Suurin piirtein sitä varten, että saa myönnettyä autolle rekisterikilvet tai kerättyä veroja tai järjestettyä jonkun terveyspalelut, niin siitä tulee dataa, joita me sitten muokataan ja saatetaan käyttökuntoon. Mutta se mitä sillä tehdään? Mikä on se analyysi? Se ei ole enää meidän bisnestä. Tää oli tää mun pointtini vaan tässä.
Esa: Samaa mieltä, mä uskon, että se on juuri näin.
Markus: Mutta kyllä on jännä ollut havaita, että tai oikeastaan mä olen hämmästellyt sitä, että ihan globaalisti kuinka käsityötä tilastojen tekeminen kaikkialla maailmassa yhä on. Suomessa varmaan vähemmän kuin muualla, mutta vastoin mielikuvia niin kyllä on. Kyllä on ollut vaikeata saada tätä hommaa jotenkin täysin koneiden hoitamaksi.
Esa: Johtuuko se siitä, että tilastojen tekijät ovat konservatiivisia?
Markus: Voi olla, mutta on myös se, että yksi hankaluus tulee siitä, että esimerkiksi kun kuvaamme työttömyyttä, niin se käsite. Se on vain kansainvälisesti standardisoitu niin että työllisen määritelmä on ihminen, joka kyselytutkimuksessa kertoo olleensa yhden tunnin töissä niin hän on työllinen. Jos minä itse keksisin työllisyyden määritelmän, niin minä määrittelisin työlliseksi ihmisen, jolla on palkkatuloa . Sehän tieto me saadaan tosi helposti ja halvalla tällä hetkellä päivätasolla. Tulorekisteriin kertyy tiedot siitä, kuka on saanut palkkatuloa ja me voitaisiin tehdä koko työ. Tämä työelämään liittyvä tilastointi perustuu tulorekisteriin. Mutta kun meillä on tämä kansainvälinen normi, miten näitä mitataan ja siinä se ei ole ihan sattumaa, että miksi näin on. Jos jokainen maa saisi keksiä oman työttömyyden tai työllisyyden määritelmän, niin kyllä siitä aikamoinen soppa syntyisi.
Esa: Nämä teidän kokeelliset tilastot mitä te julkaisette jonkin verran, missä tyyliin katsellaan Oikotien asuntojen asuntoilmoitusten lukumäärää, niin mä jotenkin itse ajattelisin, että tuo voisi olla hyvä tulevaisuus myös tilastotoimijoille. Mä luulen, että niitä tulee tulemaan hyvin paljon enemmän. Kun tekoäly mahdollistaa kaiken, kaiken tämmöisen tekstimuotoisen tiedon nopeamman analyysin ja kaikkien kuvien nopeamman analyysin. Että sen sijasta että lasket tai odotetaan autojen maahantuojilta tietoa, että kuinka paljon he ovat tuoneet niitä autoja niin lasketaan niitten määriä tuolla Hangon sataman kentillä jostain satelliittikuvista ja kaikkea tämäntyyppisiä mitä tietysti tällaiset high speed trading -firmat tällä hetkellä tekevät saadakseen etumatkaa. Että tavallaan se sellainen tilastotuotannon demokratisoituminen ja lähteiden laajeneminen voi olla kenttä, mikä tulee myös Tilastokeskukselle.
Markus: Vastaan tulee ilman muuta. Mutta taas mä palaan siihen kansainväliseen standardisointiin. Se, että siinä on vähän niin kuin trade off tai miten se pitäisi suomeksi sanoa, niin kuin se on vähän niin kuin jompsin kumpsin, että haluatko tehdä tilastot tai ne numerot samalla tavalla kuin naapurimaassa, että ne on suoraan verrattavissa? Vai haluatko tarkkuutta siihen.
Esa: Että on good enough? Musta se, kun esimerkiksi meillä journalismikeskustelussa kun puhutaan siitä, että internet täyttyy synteettisellä sisällöllä, synteettisillä uutisilla. Joku amerikkalainen startup voi ruveta tekemään robotin avulla uutisia. Jos se on good enough meidän lukijoille, niin silloin he saattavat siirtyä siihen. Mutta se sama kysymys voi olla myös Tilastokeskukselle, että ymmärrän, että te teette hyvin ja huolellisesti ja tarkasti ja sovittujen sääntöjen mukaisesti. Mutta entäs jos sen työttömyystilaston saisikin jostain muualta jollain automaattisella järjestelmällä nykyistä helpommin? Miten te säilytätte merkittävyytenne tässä tällaisessa ajassa, kun teidän tilastot ovatkin yhtäkkiä hitaampia ja vaikka ne ovat tarkempia. Jos joku muu saa nopeammin riittävän hyvää, niin sellainenkin voi olla uhka tällaiselle tilastontuotannolle.
Markus: Mä sanon tuohon kysymykseen yleensä, että se ei ole joko tai, vaan se on sekä että. Että itse asiassa suosittaisin jokaiselle tiedonkäyttäjälle sitä, että olisi kaksi tapaa. Toisaalta voidaan katsoa niitä kansainvälisesti vertailtavissa olevia tietoja, jotka sitten joskus ovat. Nykyään eivät enää niin kauhean hitaastikaan tule, mutta kun niissä on tietty tarkkuus, tai tietty rakenne ja ne ei aina välttämättä Suomenkaan osalta napsahda täsmällisesti siihen oikeaan kulmaan kiinni. Sen rinnalla olisi sitten tällaista suoraan sun siihen omaan tarpeeseen räätälöityä tietoa, että kyse on enemmän sekä että. Näin mä toimisin, koska jos sun kaikki tieto on tuollaista, niin kun siihen arkeen, tähän päivään liittyviä havaintoja sieltä mistä sen halvimmalla saa, niin niin siitä maailmasta katoaa nämä aikasarjaominaisuudet, joista rupeaa oikeasti näkemään miten asiat on muuttuneet. Ja sitten ennen kaikkea se kansainvälinen vertailtavuus. Lopuksi vähän kokeillaan vielä tällaista meidän vakiokysymys -sarjaamme. Sano mitä sulle tulee seuraavista sanoista mieleen.
Markus: Tilasto
Esa: (miettii pitkään) Oma työ
Markus: No okei, se tuli kuitenkin. Fakta
Esa: Helsingin Sanomat
Markus: Suomi
Esa: Isänmaa. Demokratia uhattuna.
Markus: Deadline
Esa: Ainoa asia, jolla saan asioita aikaiseksi
Markus: Toimitussihteeri
Esa: Mukavia heppuja
Markus: Julkisen sanan neuvosto
Esa: Mukavia heppuja!
Markus: Onko muuten koskaan datajournalismin alueella päästy Julkisen sanan neuvoston niin sanotusti asiakkaaksi?
Esa: Ollaan me varmaan oltu. Siis ainakin valituksia on tehty, mutta väittäisin, ettei ole langettavia saatu aikaiseksi sieltä. Monia muita virheitä ollaan kyllä onnistuttu tekemään, mutta langettavaa en muistaakseni ole saanut ihan suoraan ainakaan datajournalismia aiheesta.
Markus: Kun tuo Julkisen sanan neuvosto on, näin ainakin maallikkona ajattelee, että siinä on siis kysymys yhden toimialan itsesäätelystä.
Esa: Se on juuri näin. Ja mehän suhtaudumme Julkisen sanan neuvostoon äärimmäisen vakavasti. Me noudatetaan journalistin ohjeita jokapäiväisessä työssä ja silloin kun sieltä tulee kantelu, niin siihen vastataan ja siihen se on ikään kuin se meidän keino pitää huoli siitä, että pysytään ruodussa ja noudatetaan totuutta.
Markus: Kun tämä tekoäly ja data ja journalismi kietoutuu toisiinsa, niin niin onko sinulla vielä sellaista tulevaisuuteen näkymää tässä, että pärjääkö tämä itsesäätely tällaisessa datamaailmassa?
Esa: Se on varmaan välttämätön lähtökohta, sillä mä luulen, että kun internet tulee lähitulevaisuudessa täyttymään kaikesta synteettisesti tuotetusta saastasta. Sekä journalismista että tilastoista, niin se, että on tällaisia luotettavia kohtuullisen vakaita toimijoita, niin optimistisesti ajateltuna niiden arvo saattaa jopa nousta sellaisessa maailmassa, että kun sisältöä suolletaan joka paikasta lähes määrättömästi, niin ihmisten pitää ruveta miettimään, että ehkä se on se Helsingin Sanomat, joka tuottaa sitä luotettavaa tietoa. Tai ehkä se on Tilastokeskuskin, tuottaa sitä myös. Ja tavallaan tämä on se sellainen. Joka toinen päivä olen hyvin synkkänä tekoälyn kehityksestä ja joka toinen päivä olen hyvin optimistinen. Ja tänään sattui olemaan juuri se optimistinen päivä, että ehkä totuuden totuudenmukaisen tiedon tuottajilla on jokin rooli myös jatkossa.
Markus: Yksi sellainen yhteiskuntapolitiikan kiinnostavia juttuja on ollut se, että EU kuitenkin uskaltaa ainakin tavoitteellisesti asettautua näitä globaaleja digijättejä vastaan. Nehän eivät ole tyypillisesti sijaitsee EU alueella, vaan isoimmat toimijat toimivat Yhdysvaltain lainsäädännön alla. Tai sitten tämä Tiktok taitaa olla... onko se vielä Kiinalla?
Esa: No Tiktok on Kiinalla. Minusta siis.
Markus: Mutta eikö ole kiinnostavaa, että EUssa on kuitenkin isoa pyrkimystä tämän datamaailman säätelyyn? Ja kun sä sanoit, että eri päivinä on eri mieltä asiasta itsensä kanssa, niin kyllä mullekin se vaihtelee. Välillä mä ajattelen, että se on ihan mahdoton ala säädellä järkevästi, että ei kukaan pysty kirjoittamaan lainsäädäntöä sitä vauhtia mitä nämä mitä vauhtia nämä digijätit tuottaa uusia tuotteita ja toimintatapoja. Mutta sitten taas välillä tulee mieleen, että silloin 1800-luvulla, kun Tilastokeskus perustettiin. Jos joku olisi silloin osannut ajatella, että voitaisiin ympäristövaikutuksia lainsäädännöllä säädellä, ei kellekään tullut mieleenkään. Ja taas tällä hetkellä teollinen toiminta on kuitenkin sivistysmaissa aika hyvin kontrollissa. Silloin kun puhutaan fyysisistä asioista, niin ihan teidänkin lehteen saakka ehtii uutiseksi se, että Mätäojaan on valunut jotakin kemikaalia ja taimenet on pulassa.
Esa: Sääntely Euroopassa saattaa vähän monille tulla yllätyksenä. Se, että se saattaa olla se asia, mikä helpottaa tekoälyn käyttöä. Kun katsoo amerikkalaisia kollegoja media-alalla, heillä on hyvin suuri epäluottamus kaikkiin sekä firmoihin että tekoälymalleihin. Ja taas kun katsoo pohjoismaisia verrokkeja ja pohjoiseurooppalaisia verrokkeja, niin täällä se perusajatus siitä, että pystymme luottamaan tiettyihin palveluntarjoajiin on vahvempi. Minusta se johtuu siitä, että meillä on sekä GDPR, siis eurooppalainen tietosuojalainsäädäntö että eurooppalainen tekoälysääntely. Tämä sääntely-ympäristö on ennustettavampi.
Kun me tiedämme, että amerikkalaiset mediat ovat selkeästi jäljessä tekoälyn käytöstä, niin minusta se keskeinen syy siihen nimenomaan on se, että sääntely Euroopassa auttaa meitä tekemään. Se on ikään kuin tämmöisen valtio-opin approkurssin ensimmäinen asia, että ennustettava sääntely-ympäristö luo lisää mahdollisuuksia liiketoiminnalle ja sitä ei minun mielestä tässä tekoälykeskustelussa, jossa jotkut, etenkin tämmöiset teknologiaorientoituneet kommentaattorit ovat sanoneet, että EU sääntelee itsensä hengiltä. Ehkä se onkin juuri päinvastoin, että ehkä tämä Euroopan tasoinen sääntely on se, joka mahdollistaa meille asioiden tekemisen eikä estä sitä.
Markus: Ehkä ensi kerran kun tulet käymään täällä Tilastokeskuksessa, niin sitten me voimme jo kertoa sinulle, että me oltaisiin avaamassa tuommoista median datahuonetta.
Esa: Sitä odotellessa, aina on mukava käydä Tilastokeskuksessa. Kiitos kutsusta!
Markus: Niin joo, mutta nyt sitten tilastojen mukaan alkaa tämäkin päivä päättyä. Myös tämä nauhoitus ja tervetuloa taas linjoille! Seuraava jakso on ajoitettu tulemaan ulos vielä toukokuun loppupuolella, katsotaan pitääkö aikataulu. Mutta siihen joka tapauksessa seuraavaan.
Esa: Jos Tilastokeskus sanoo näin, niin kyllä sen pitää pitää paikkansa.
Markus: Tilastokeskuksen mukaan. Näihin sanoihin, näihin tunnelmiin, kiitos.