Siirry etusivulle - Tilastokeskus
Tieto&trendit - etusivulle

Neuroverkko luokitteli palkansaajien ammatit hyvin – yrittäjien kohdalla hankalampaa

Kuva: Tilastokeskus

Tekoäly ja sen osa-alue koneoppiminen ovat kehittyneet huomattavasti viime vuosina. Niiden käyttö eri tehtävissä laajenee myös jatkuvasti. Tilastotuotanto perustuu yhä pitkälti käsityömäiseen asiantuntijatyöhön, mutta koneoppimisen hyödyntämistä pidetään merkittävänä mahdollisuutena tehostaa tilastotuotantoa sekä Suomessa että muualla maailmassa. Yksi tärkeä sovelluskohde koneoppimiselle on luokittelu, jota voidaan tehdä esimerkiksi ammatin, koulutuksen tai toimialan mukaan.

Neuroverkko on mukautuva matemaattinen malli, jonka rakenne on samankaltainen kuin biologisten aivojen rakenne. Neuroverkko oppii koulutusdatan perusteella luomaan yhteyksiä syötteiden ja tuloksen välille niin, että se pystyy ennustamaan oikean tuloksen uusista, aiemmin näkemättömistä syötteistä. Bayesilainen neuroverkko laajentaa perinteistä neuroverkkoa tuottamalla ennusteille todennäköisyysjakaumat yksittäisten arvojen sijaan. Tämä taas mahdollistaa ennusteiden luotettavuuden tarkemman arvioinnin.

Diplomityössäni kehitin bayesilaisiin neuroverkkoihin perustuvan mallin työssäkäyntitilaston ammattiluokitteluun. Mallin kouluttamiseen ja testaamiseen hyödynnettiin vuosien 2020 ja 2021 dataa. Luokittelussa käytettiin syötteinä ammattinimikettä, toimialaa, tutkintoa, sektoriluokkaa, henkilömäärää ja palkkaluokkaa. Havainnot jaettiin palkansaajiin ja yrittäjiin, joita käsiteltiin erillisinä joukkoina.

Palkansaajien osalta saavutettiin hyvä 91 prosentin luokittelutarkkuus, kun taas yrittäjien tarkkuus jäi heikommaksi, 77 prosenttiin. Malli suoriutuu siis varsin hyvin ottaen huomioon, että luokkia on lähes 500 ja ne ovat keskenään hyvin erikokoisia. Malli osaa luokitella yleisimpien luokkien havainnot erinomaisesti, mutta harvinaisimpien luokkien kohdalla esiintyy haasteita.

Erittäin tarkasti luokiteltujen luokkien joukkoon kuuluvat muun muassa hammaslääkärit, professorit ja lastentarhanopettajat. Näiden luokkien ammattinimikkeet ovat usein hyvin yhdenmukaisia keskenään ja erottuvat selvästi muista luokista, mikä tekee niiden luokittelun mallille helpommaksi.

Hankalammista tapauksista esimerkiksi käy yhteiskunta- ja kulttuuritutkijoiden luokka, jonka havainnot malli usein luokitteli kuuluviksi historioitsijat, politiikan tutkijat ja filosofit -luokkaan. Tämä johtuu pitkälti siitä, että nämä kaksi luokkaa sekoittuvat keskenään: ne ovat hyvin samankaltaisia ja sisältävät paljon samoja ammattinimikkeitä, kuten tutkija, tutkijatohtori, projektitutkija ja asiantuntija.

Yrittäjien palkansaajia heikompi luokittelutarkkuus johtui osittain datan vähäisestä määrästä ja heikosta laadusta. Koko datasta yrittäjiä oli vain noin 10 prosenttia. Datan joukossa oli jonkin verran puuttuvia arvoja. Ammattinimikkeiden tarjoama tieto jää myös vähäiseksi, sillä 99 prosentilla yrittäjistä ammattinimikkeenä oli pelkkä "yrittäjä", mistä ei siis käy ilmi heidän tarkka ammatillinen roolinsa tai työnkuvansa.

Lisäksi datassa esiintyi identtisiä syötteiden yhdistelmiä, jotka kuitenkin kuuluivat eri ammattiluokkiin – yrittäjien tapauksessa enimmillään jopa yhdeksään eri luokkaan. Näiden pulmien vuoksi mallin on vaikea erotella yrittäjiä tarkasti eri luokkiin.

Yhteenvetona voidaan todeta, että bayesilaisiin neuroverkkoihin perustuva malli tarjoaa lupaavia tuloksia työssäkäyntitilaston ammattiluokittelussa. Jatkotutkimuksissa olisi kuitenkin tärkeää parantaa datan laatua ja kehittää mallia edelleen, erityisesti huomioimalla luokkien hierarkkisuus eli niiden väliset suhteet paremmin. Esimerkiksi luokat 7125 (lasinasentajat) ja 7126 (putkiasentajat) eivät ole täysin erillisiä, vaan ne kuuluvat karkeammalla tasolla samaan luokkaan 712 (rakennusten viimeistelytyöntekijät), ja tämä logiikka mallin olisi hyvä ymmärtää.

Kirjoittaja työskentelee graduharjoittelijana Tilastokeskuksessa ja opiskelee laskennallista tekniikkaa LUT-yliopistossa.

Lähteet

Abdi, H., Valentin, D., ja Edelman, B. (1999). Neural networks, volume 124 of Quantitative Applications in the Social Sciences. SAGE Publications Inc.

Arbel, J., Pitas, K., Vladimirova, M., ja Tuin, V. (2023). A primer on Bayesian neural networks: Review and debates. arXiv:2309.16314.

Goodfellow, I., Bengio, Y., ja Courville, A. (2016). Deep learning. MIT Press.

Vilkkilä, V. (2024). Työssäkäyntitilaston ammattiluokittelu bayesilaisten neuroverkkojen avulla. Diplomityö. Lappeenrannan-Lahden teknillinen yliopisto LUT.

Avainsanat:

Miksi tätä sisältöä ei näytetä?

Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.