Salainen agentti ja tietosuoja
Oletko nähnyt viimeisimmän Bond-elokuvan 007 Spectre? Avauskohtauksessa mustiin pukeutunut henkilö pääkallomaskissa kävelee vilkkaalla Mexico Cityn kadulla keskellä Kuolleiden päivän karnevaalia. Vaikka kasvoja ei paljasteta, katsoja tajuaa hyvin pian kameran seuraavan Bondia.
Tunnistustehtävä on helppo, kun tietää katsovansa Bond-elokuvaa. Lisäksi ohjaaja sekä näyttelijä tekevät parhaansa antaakseen sopivasti vihjeitä paljastamatta suoraan ruudussa näkyvän hahmon henkilöllisyyttä. Katsojalla on näin riittävästi tietoa tunnistaakseen, kenestä on kyse pääkallomaskista huolimatta.
Hallinnolliset rekisteriaineistot sisältävät suuren määrän yhteiskunnasta kerättyä tietoa. Aineistojen vahvuus ja erityispiirre on siinä, että eri puolilta kerättyä tietoa voidaan luotettavasti yhdistellä. Tällä tavoin on mahdollista päästä käsiksi hyvin monimutkaisiinkin yhteiskunnallisiin ilmiöihin, tutkia niitä ja käyttää tuloksia tietoon perustuvassa päätöksenteossa.
Kun tiedon määrä kasvaa, myös tietosuojaan on kiinnitettävä entistä enemmän huomiota. Tietosuoja nousi esiin viime viikolla Helsingin Sanomien uutisoinnin käynnistämässä keskustelussa puolustusvoimien ”palikkatestien” epäillystä tietovuodosta (linkki1, linkki2, linkki3).
Tällä viikolla selvisi, että Pääesikunta ei epäile tietovuotoa. Keskustelussa esiintyivät tietosuojaan liittyvät käsitteet anonymisointi ja pseudonymisointi.
Bond-elokuvan katsojalla oli riittävästi tietoa vähintäänkin hyvään arvaukseen pääkallomaskiin naamioituneen hahmon henkilöllisyydestä. Katsoja pystyi rajaamaan mahdollisten henkilöiden joukon riittävän pieneksi ruumiinrakenteen, silmien sekä hiusten perusteella arvatakseen, että kyse on elokuvan päähenkilöstä.
Jos aineisto sisältää riittävästi tietoa, samalla tavoin rajaamalla onnistuu erityistapauksissa yksittäisen havainnon, kuten henkilön tai yrityksen tunnistaminen yksikkötasoisesta tutkimusaineistosta, vaikka käytössä ei olisikaan suoraa tunnistetta kuten henkilötunnus tai yritystunnus. Tätä kutsutaan epäsuoraksi tunnistamiseksi.
Jos suora ja epäsuora tunnistaminen halutaan estää, tutkimusaineisto on anonymisoitava. Anonymisoitu aineisto ei sisällä tietoja, joita yhdistelemälläkään yksittäinen havainto, kuten henkilö, voitaisiin tunnistaa. Anonymisoituun aineistoon ei myöskään voi yhdistää uusia tietoja siten, että tunnistaminen tulee mahdolliseksi.
Kun kyseessä on monimutkainen useasta lähteestä yhdistetty aineisto, luotettavasti anonymisoidun aineiston tuottaminen on työlästä. Hyvin laajojen aineistojen tapauksessa anonymisointi ei aina ole edes mahdollista. Anonymisointi vaikuttaa myös aineiston käytettävyyteen tutkimuksessa, koska aineiston tarkkuus ja kattavuus usein vähenevät anonymisoinnin yhteydessä.
Kun aineiston havaintojen suorat tunnisteet peitetään tai korvataan koodeilla, puhutaan pseudonymisoinnista. Pseudonymisoitua aineistoa käytettäessä voi erityistapauksessa olla mahdollista, että jokin havainto on epäsuorasti tunnistettavissa. Tämän vuoksi Tilastokeskus on luonut pseudonymisoitujen aineistojen käsittelyyn tietoturvallisen ympäristön.
Alun esimerkissä Bondin henkilöllisyys ei ollut anonymisoitu vaan pseudonymisoitu. Suora tunniste – kasvot – oli peitetty naamarilla.
Yhteiskunnassa jatkuvasti lisääntyvä datan määrä mahdollistaa yhä monimutkaisempien ilmiöiden tutkimisen, mutta vain, jos tieto saadaan turvallisesti ja tehokkaasti käyttöön.
Tilastokeskus tarjoaa tutkimusaineistoja sekä anonymisoituna että pseudonymisoituna. Aineiston tarve ja luovutustapa arvioidaan aina tapauskohtaisesti käyttölupamenettelyn kautta. Aineiston käyttäjä antaa aina myös salassapitositoumuksen ja käsittelee tietoja luottamuksellisina, eikä saa yrittää tunnistaa tietojen kohteita.
Pseudonymisoituihin aineistoihin voi saada käyttöoikeuden Tilastokeskuksen FIONA-etäkäyttöjärjestelmän (Finnish Online Access) kautta. FIONA-järjestelmä on tietoturvallinen ympäristö, jonka kautta tutkija saa näkymän aineistoon ja pystyy käsittelemään sitä.
Kun järjestelmästä otetaan tuloksia ulos, taulukot tarkastetaan tietosuojan osalta ennen niiden luovuttamista tutkijalle. Yksittäisiä havaintoja ei voi siirtää ulos järjestelmästä, eikä ulos anneta tuloksia, joista havaintojen epäsuorakaan tunnistaminen on mahdollista.
Kun aineistoa käsitellään FIONAssa, käyttäjä ei myöskään voi luovuttaa aineistoa eteenpäin. Käyttöä voidaan valvoa ja väärinkäyttöepäilyiden tapauksessa yhteys voidaan katkaista välittömästi. Vastaavanlaisia järjestelmiä on käytössä myös esimerkiksi muissa Pohjoismaissa.
Tietoluovutuksiin liittyvän tekniikan ja käytänteiden kehittäminen on tehokas tapa tukea suomalaista tutkimusta. Yhä suurempien aineistomassojen hyödyntäminen tutkimuksessa vaatii, että myös tietosuoja huomioidaan uudella tavalla. Jos näihin asioihin panostetaan, voimme tarjota tutkijoillemme kansainvälisestikin merkittävän kilpailuedun yhteiskunnasta kerättävien laajojen ja luotettavien aineistojemme kautta.
Avainsanat:
Miksi tätä sisältöä ei näytetä?
Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.