Vallankumous tiedossa
Big data muuttaa yhteiskuntaa syvällisesti. Jokseenkin varma muutos on se, että tiedon näköinen informaatio lisääntyy valtavasti. Mutta mitä big data merkitsee tiedon tuottamiselle?
Usein oletetaan, että uusi data lisää tietoa yhteiskunnasta. Joissakin asioissa uusi data avaakin maailmankuvaan uusia näkymiä ja kirkastaa vanhoja. Samalla syntyy kuitenkin uusia sokeita pisteitä ja vanhoja hämärän alueita säilyy.
Uutta tietoa syntyy esimerkiksi, kun sosiaalisen median sisältöjä ja tunnelmia analysoidaan. Kuluttajabarometrin korvaaminen tviittitiedoilla lienee mahdollista nopeastikin.
Sosiaalisen median aineistojen avulla voitaisiin myös saada käyttöön aivan uutta, virallisen tilaston ulkopuolella ollutta tietoa yhteiskunnan ja kansalaisten elämäntavoista ja tuntemuksista. Niiden avulla voidaan kuvata subjektiivisten tekijöiden muutosta, minkä merkitystä on korostettu talouden ja elinolojen seurannassa.
Virallisen tilaston tulisi kuvata yhteiskuntaa kattavasti. Rekisterien peitto-ongelmat ja kato saavat kuitenkin aikaan sen, että esimerkiksi maahanmuuttajista, syrjäytyneistä, vanhuksista, rikollisista ja köyhistä ei saada samalla tavalla kattavaa tietoa kuin keskiluokasta. Tilanne on viime aikoina kehittynyt huonoon suuntaan. Kuitenkin juuri näistä syrjään jäävistä ryhmistä tarvittaisiin tietoa.
Antaisiko uusi data mahdollisuuden korjata yhteiskunnallisen tiedon rajoittuneisuutta? Valitettavasti se ei taida tuoda helpotusta. Päinvastoin yhteiskuntaa koskeva tieto voi muuttua yhä rajoittuneemmaksi ja keskittyä netissä aktiiviseen porukkaan. Aiempien ryhmien lisäksi syrjään jäävät digiporopeukalot ja muut sosiaalista mediaa vierastavat. Lisäksi verkossa ilman asianmukaista kontrollia toteutettavat mielipidetiedustelut lisäävät nettiaktiivien näkyvyyttä muiden kustannuksella.
Uuden tiedon lisäksi uusi data tuottaa runsaasti epätietoa. Aineistojen suuri koko lisää mm. satunnaisten, mutta tilastollisesti merkitsevien korrelaatioiden esiintymistä, mikä johtaa helposti vääriin johtopäätöksiin. Tämä on ollut ongelma empiiristen tutkimusten tulostehtailussa jo aiemmin, mutta se pahenee isojen aineistojen myötä.
Se että joukkoviestimet saavat lisää falskeja "nyt se on tutkittu" -tyyppisiä juttuja, on pienempi paha kuin se, että ideologisesti virittynyt päätöksenteko pystyy poimimaan perusteluikseen mieluisimmat näennäistulokset.
Datan runsaus on innostanut uskomaan, että data sinänsä tuottaisi päätöksenteon kaipaamia kysymyksiä ja vastauksia. Perinteistä yhteiskuntateoriaa ei silloin enää tarvittaisi.
Datauskovaisten mielestä big datan pohjalta tehdyt ennusteet ovat hyödyllisempiä kuin syy-seuraussuhteiden selvittäminen. Joiltakin osin näin onkin. Survey-aineistoista kehitellyt kausaalimallit ovat usein monimutkaisia, ja eri muuttujilla on alhaiset selitysasteet. Ennuste, joka olettaa tapahtuneen kehityksen jatkuvan jonkun logiikan mukaan, voi olla käytännöllisempi – ainakin jonkin aikaa.
Googlen flunssaindikaattorin epäonnistuminen osoittaa kuitenkin, että ennustaminen ilman käsitystä siitä, mitä mittari kuvaa, ajautuu ennen pitkää ongelmiin. Flunssaindikaattorilla seurattiin tietyntyyppisten hakusanojen esiintymistä Googlen hakukoneessa. Parin vuoden ajan tällä indikaattorilla pystyttiin ennustamaan epidemioiden etenemistä paremmin kuin terveydenhuollon organisaation tiedoilla. Kolmantena vuonna ennustukset menivät pieleen. Indikaattori ei mitannutkaan flunssan esiintymistä.
Flunssamittarin tekijät eivät olleet ymmärtäneet, millä ehdoilla mittari toimi. Datan ja sen analyysin taustalla on tulkinta maailmasta. Tiedon hyödyllisyyden kannalta on tarpeen, että mittareiden rajoitukset tunnetaan.
Uuden datan käyttö ja tulkinta on ajateltu tekniseksi hommaksi, johon tarvitaan vain IT- ja menetelmäväkeä. Työmarkkinoilla kuitenkin kysytyimpiä ovat sellaiset data-analyytikot, jotka datalukutaidon ohella hallitsevat myös jonkun erikoisalan asioita. Siis myös substanssiosaaminen on tärkeää uuden datan käytössä.
On vaikeaa hahmottaa, minkälaiseksi tiedonhankinnan kokonaiskuva muodostuu näiden muutosten seurauksena. Joka tapauksessa uusi data merkitsee vallankumousta tutkimus- ja tilastotyössä. Tiedon hankinnan menetelmät ja osaamisvaatimukset on mietittävä uudestaan.
Satunnaisotannan ja survey-tyyppisten tutkimusten avulla on tuotettu standardoituja, tasarakenteisia ja laadukkaita aineistoja. Ne ovat nyt saamassa rinnalleen sekalaista dataa, joka kertoo uusista asioista nopeammin ja halvemmalla. Uusi data on kuitenkin syntynyt muista syistä kuin yhteiskuntakuvauksen tarpeista, minkä vuoksi se sisältää tutkimuksen ja tilastojen kannalta hankalia ratkaisuja ja rajauksia.
Vanha osaaminen ei ehkä menetä arvoaan, mutta uusia menettelyjä on kehitettävä. Tieteen maailmassa tilastotieteen rinnalle on syntynyt data science, joka perustuu tilastotieteen lisäksi hyvin monenlaisiin tietotekniikan ja tiedonhallinnan alueisiin. Myös substanssiasiantuntemuksen merkitys korostuu. Suomessa rekistereihin pohjautuvien tilastojen tuotanto jo aiemmin ratkaissut samantyyppisiä ongelmia, mutta uuden datan aineistoissa haasteet moninkertaistuvat.
Blogiteksti pohjautuu Tilastokeskuksen tietopalvelujohtajanakin toimineen kirjoittajan sekä alan toisen konkarin VTT Jussi Simpuran eri yliopistoissa pitämään luentosarjaan Tilastojen yhteiskunta.
Avainsanat:
Miksi tätä sisältöä ei näytetä?
Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.