Tekoäly vie – miten tilastotieto pysyy kyydissä?
Tapa, jolla haemme tietoa, on keskellä suurta murrosta. ”Googlettaminen” on ollut jo muutaman vuosikymmenen tiedonhaun synonyymi, mutta nyt yhä useampi hakee tietoa tekoälyä hyödyntävien palveluiden kautta, luonnollisella kielellä. Tiedonkäyttäjät, jotka ovat ottaneet tekoälybotit työkalupakkiinsa, tekevät verkkohakunsa yhä useammin tekoälypalveluiden hakutoimintojen avulla.
Googlen vastaisku tähän on ollut AI-yhteenveto, hakutulosten yläpuolelle nouseva generatiivisen tekoälyn tuottama vastaus. Se on osa Googlen uutta tekoälypohjaista hakutilaa, jossa luonnollisella kielellä tehty haku tuottaa heti tekoälyn kokoaman vastauksen.
Näin Google on tuonut generatiivisen tekoälyn ominaisuudet korvaamaan muutaman vuosikymmenen lähes muuttumattomana pysyneen hakukokemuksen. Googlen tekoälyn myötä muutos koskee myös niitä tiedonkäyttäjiä, jotka eivät ole ottaneet käyttöön ChatGPT:tä tai muita tekoälybotteja.
Tekoälypalvelut käyttävät keskenään erilaisia hakuarkkitehtuureja: esimerkiksi Perplexity yhdistää reaaliaikaisen verkkohaun ja laajojen kielimallien yhteenvedot lähdeviitteineen, Google nojaa omaan indeksiinsä AI-yhteenvetojen kanssa ja ChatGPT tekee verkkohakuja valikoidusti ja käyttää vain muutamia huolellisesti valittuja lähteitä.
Suurin murros on, että ihmiset tyytyvät yhä useammin tekoälyn tarjoamaan vastaukseen ilman, että tarkistaisivat tiedon todenperäisyyden alkuperäisestä lähteestä. Asiantuntijat pitävät kehityskulkua huolestuttavana. Useat tuoreet analyysit raportoivat, että Googlen AI-yhteenveto on vähentänyt monien sivustojen kävijämääriä. Sisällön kuluttaja vaihtuu ihmisestä tekoälyyn, ja verkkosisällön merkitys muuttuu: käyttäjä ei enää hae tietoa suoraan alkuperäisestä lähteestä, vaan tekoäly lukee sen, tiivistää ja tarjoaa vastauksen omassa palvelussaan.
Ilmiö on voimakkain sivustoilla, jotka tarjoavat tiedollista sisältöä kuten uutiset, blogit, erilaiset artikkelit ja tilastot. Toistaiseksi esimerkiksi verkkokaupat eivät ole kärsineet yhtä paljon, sillä ostoaikeissa olevat kuluttajat klikkaavat yhä suoraan myyntisivuille. Suurin isku kohdistuu sellaisiin sisällönjulkaisijoihin, joiden tarjoama informaatio voidaan tiivistää ja esittää suoraan hakutuloksessa.
Tekoäly ei löydä tilastotietokantoihin
Viralliselle tilastotiedolle meneillään oleva murros on erityisen haastava, koska tarkka aikasarjoihin perustuva tilastotieto sijaitsee yleensä tilastotietokannoissa, joihin tekoälypohjaisilla palveluilla ei ole suoraa pääsyä. Tällä hetkellä tekoäly näkeekin ajantasaisesta tilastotiedosta vain jäävuoren huipun pääosan tiedoista jäädessä pinnan alle piiloon.
Näin ollen tekoälypalvelut turvautuvat muihin lähteisiin: koulutusdataan, avoimiin verkkosivuihin ja helpommin saavutettavaan tietoon, kuten tilastojulkaisujen tiedotteisiin tai Wikipediaan.
Koulutusdata ja hakukoneiden kautta löydettävä tieto limittyvät, sillä osa avoimista lähteistä on saattanut olla mukana myös mallien koulutuksessa. Molempiin liittyy kuitenkin sama riski: tieto voi olla vanhentunutta, puutteellista tai epävirallista. Näin tekoälypalveluiden antamat vastaukset pohjautuvat tilastotiedon osalta useimmiten toissijaisiin lähteisiin, eivätkä ajantasaiseen ja luotettavaan viralliseen tilastotietoon.
Ratkaisuksi MCP?
Tilastovirastoille yksi tärkeä askel lähemmäs tiedonkäyttäjiä on saada tilastotietokannat näkyviin tekoälypalveluiden tiedonhankintaprosesseihin. Yksi lupaava ratkaisu tähän on Model Context Protocol (MCP), jonka Anthropic julkaisi vuoden 2024 lopussa.
Koska hakuarkkitehtuurit vaihtelevat, MCP tarjoaa yhteisen, standardoidun liittimen – kuin USB-C – jonka kautta tekoälybotit voivat hakea tietoa tilastotietokannoista yhtenäisesti ilman räätälöintiä. Kesän aikana Tilastokeskuksessa toteutetussa kokeilussa testattiin agenttipohjaista tapaa hakea tilastotietoa luonnollisella kielellä MCP:n kautta.
Kokeilu kuitenkin osoitti, että MCP ei tee taikoja – keskeistä on metadatan laatu. Ilman kuvaavia muuttujien nimiä, määritelmiä, mittayksiköitä ja luokituksia tekoäly ei kykene tulkitsemaan tilastodataa oikein.
MCP on teknologiana vielä nuori, ja sen ekosysteemi kehittyy nopeasti. On epävarmaa, vakiintuuko MCP laajasti käytetyksi standardiksi vai syrjäyttääkö sen pian jokin uusi ratkaisu.
Yksi mahdollinen etenemispolku olisi, että virallisten tilastojen tuottajat tekisivät kehitystyötä yhdessä ja muodostaisivat keskusteluyhteyden sekä chatbot-palveluihin (esim. OpenAI, Anthropic) että tekoälyhakupalveluihin (Google, Perplexity).
Chatbot-palvelujen kohdalla tavoitteena olisi, että ne integroivat MCP-palvelun luotettavana tilastotiedon lähteenä. Tekoälyhakupalvelut voisivat mahdollisesti hyötyä MCP:stä jonkinlaisena taustakerroksena, joka tuottaa luvut ja metatiedot, mutta näkyvä viittaus syntyy indeksoitavista varmistussivuista ja rakenteistetusta metadatasta. Näin virallinen ja ajantasainen tilastotieto olisi saavutettavissa sekä chatbot-palveluissa että hakukoneiden tekoälytiloissa.
Miten varmistetaan tiedon luotettavuus ja tarkistettavuus?
Pelkkä datan näkyvyys ei kuitenkaan vielä riitä. Käyttäjälle pitäisi tarjota myös mahdollisuus tarkistaa tekoälyn antama vastaus suoraan virallisesta alkuperäislähteestä, riittävillä metatiedoilla varustettuna.
Käytännössä tämä voisi toimia niin, että tekoäly liittää vastaukseensa ”Varmenna alkuperäisestä lähteestä” -syvälinkin, joka vie käyttäjän suoraan Tilastokeskuksen palveluun katsomaan samaa tietoa virallisessa, kattavilla metatiedoilla varustetussa ympäristössä.
Tämä lisäisi luottamusta ja vahvistaisi virallisen tilastotiedon asemaa tekoäly-ympäristössä.
Organisaatioiden on sopeuduttava murrokseen
Yksi suurimmista kysymyksistä kietoutuu sen ympärille, mistä kanavista kansalaiset tulevaisuudessa hakevat tietonsa. Kehitykseen liittyy vaara, että muutamat isot tekoälypalvelut monopolisoivat tiedonhaun. Tällöin käytännössä Google, OpenAI, Microsoft ja muut vastaavat suuret kaupalliset toimijat hallitsevat sitä, mitä tietoa käyttäjille lopulta tarjotaan.
Julkisen sektorin toimijat, kuten vaikkapa Tilastokeskus, huomaavat jo nyt, että perinteinen tapa tuoda tietoa käyttäjille ei enää riitä, kun tekoälyn hakutoiminto poimii tiedot jostain, toistaiseksi vielä mahdollisesti toissijaisesta lähteestä, ja välittää ne käyttäjille suoraan. Vaikka Tilastokeskuksenkin tavoitteena on tietojen vieminen sinne, missä tietoa haetaan, meneillään oleva suuntaus pakottaa pohtimaan, miten viranomainen voi varmistaa tietojensa luotettavan välittymisen kansalaisille.
Eri tekoälypalvelut kilpailevat keskenään. On myös mahdollista, että joku kehittää uudenlaisen tekoälyhakuarkkitehtuurin, joka mahdollistaa laajojen kielimallien pääsyn suoraan API-rajapintojen kautta esimerkiksi tilastodataan. Kilpailu erilaisten AI-tiedontuottajien ja myös AI-hakuarkkitehtuurien välillä on kova.
Tilastotiedon on oltava siellä, missä käyttäjät sitä etsivät
Tiedonhaun siirtymä tekoälyn hallintaan haastaa erityisesti virallisen tilastotiedon asemaa. MCP tarjoaa yhden ratkaisupolun, mutta sen onnistuminen edellyttää metadatan kehittämistä, kansainvälistä ja kansallista yhteistyötä sekä sitä, että suuret tekoälytoimijat ottavat käyttöön tarjolla olevan MCP-palvelun.
Samalla on ratkaistava julkisen sektorin toimijoiden rooli suhteessa kaupallisiin tekoälypalveluihin: pitäisikö rakentaa oma organisaatiokohtainen ratkaisu, yhteinen julkisen sektorin botti, tukeutua kaupallisiin alustoihin vai jotain muuta? Olennaista on varmistaa, että kansalaisilla on pääsy luotettavaan ja ajantasaiseen tietoon myös silloin, kun kaupalliset tekoälyratkaisut toimivat portinvartijoina.
Tilastotiedon on oltava siellä, missä käyttäjät sitä etsivät – muuten faktat hukkuvat. Samalla tiedon oikeellisuuden on oltava helposti tarkistettavissa. Nyt on aika päättää, investoidaanko yksin, yhdessä vai jäädäänkö seuraajiksi.
Suurena kysymyksenä on, kuinka paljon kannattaa panostaa omiin verkkopalveluihin, jos käyttäjät joka tapauksessa hakevat tietoa tuttujen kaupallisten bottien kautta. Yksi vaihtoehto on kehittää palveluita, jotka toimivat bottien rinnalla ja tarjoavat suoran linkin viralliseen lähteeseen tiedon varmistamiseksi.
Riitta Piela työskentelee Tilastokeskuksessa tekoälystä vastaavana kehittämispäällikkönä.
Lähteitä:
What is the Model Context Protocol (MCP)? - Model Context Protocol
Do people click on links in Google AI summaries? | Pew Research Center
AI Search Architecture Deep Dive: Teardowns of Leading Platforms
Goodbye Clicks, Hello AI: Zero-Click Search Redefines Marketing | Bain & Company
Avainsanat:
Miksi tätä sisältöä ei näytetä?
Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.