Siirry etusivulle - Tilastokeskus
Tieto&trendit - etusivulle

Ennustemallit vastauskatoa vastaan – puheluiden parempi ajoitus tuo lisää vastauksia

Henkilötiedonkeruiden vastausasteet ovat laskeneet viime aikoina merkittävästi Euroopassa ja länsimaissa (Jabkowski & Cichocki, 2025). Tilastokeskuksen Työvoimatutkimuksen tiedonkeruussa koettu vastauskato on johtanut siihen, että vastausmäärien kasvattaminen vaatii haastattelijoilta yhä useampia otosjoukkoon kohdentuvia uudelleentavoitteluita. Tämä lisää tiedonkeruun kustannuksia.

Vastausmäärien vähenemisen myötä henkilötiedonkeruuta on tarpeen kehittää niin, että tavoittelu pysyy sekä vaikuttavana että resurssien kannalta kestävänä.

Tarkastelin Tilastokeskuksessa toteuttamassani pro gradu -tutkielmassa, miten henkilötiedonkeruuprosessista kerätyn paradatan – eli tiedonkeruun toteutuksesta kerätyn tiedon – sekä tutkimusotokseen valikoituneiden henkilöiden taustamuuttujien avulla voidaan tehostaa tiedonkeruuprosessin resurssien käyttöä sekä parantaa kyselyiden tavoittavuutta tulevissa tutkimuksissa.

Mallinnus eteni kahdessa vaiheessa

Lähdin ratkomaan tutkimusongelmaa tilastollisten ennustemallien avulla. Toteutin mallinnuksen kahdessa vaiheessa, joissa tarkastelin erikseen ilman puhelintavoitteluita saatavia verkkovastauksia sekä puhelintavoitteluista saatavia haastatteluja ja puheluiden jälkeisiä verkkovastauksia.

Käytin malleissa tutkimuskyselyyn vastaamista selittävinä tekijöinä henkilön taustamuuttujia sekä puhelintavoitteluita mallinnettaessa myös tavoitteluprosessiin liittyviä tekijöitä.

Kaksivaiheinen lähestymistapa mahdollisti sen, että ajankäytön ja kustannusten kannalta tehokkaimpia, ilman puhelintavoitteluita saatavia verkkovastauksia pystyttiin tarkastelemaan erillään puhelintavoitteluiden aikana saaduista vastauksista.

Korkeasti koulutetut vastaavat yleisimmin verkossa

Mallinnuksen tulokset osoittivat, että henkilön taustatekijät ovat selvästi yhteydessä vastaustodennäköisyyteen. Verkkovastaaminen oli yleisintä korkeasti koulutetuilla, jotka vastasivat verkossa selvästi matalammin koulutettuja useammin.

Puhelinhaastatteluita taas saatiin erityisesti iäkkäämmiltä henkilöiltä, joiden vastausalttius puhelinhaastatteluissa oli keskimääräistä korkeampaa.

Puhelintavoitteluiden tarkempi tarkastelu osoitti, että vastaustodennäköisyys laskee selvästi tavoittelukertojen määrän kasvaessa sekä peräkkäisten tavoitteluiden välisen aikavälin pidentyessä. Ensimmäiset puhelintavoittelut tuottavat suurimman osan vastauksista, ja uudelleentavoitteluilla vastauksen saamisen todennäköisyys pienenee reilusti.

Ne henkilöt, jotka oli saatu edes kerran kiinni puhelimitse, osallistuivat myöhemmissä tavoitteluissa selvästi todennäköisemmin tutkimukseen kuin aikaisemmin täysin tavoittamattomat kohdehenkilöt.

Miten hyödyntää tuloksia tiedonkeruun tehostamiseen?

Tulokset antoivat siis osviittaa siitä, mitkä tekijät ovat yleisesti yhteydessä Työvoimatutkimukseen osallistumisen todennäköisyyteen. Mutta miten saatuja tuloksia voitaisiin hyödyntää käytännössä tiedonkeruun tehostamiseen? Etsin tähän vastausta kahdesta eri näkökulmasta.

Ensimmäinen tarkastelunäkökulma liittyi siihen, miten tutkimukseen tuleville uusille henkilöille tehtävien ensimmäisten puhelintavoitteluiden järjestys vaikuttaa ilman puhelintavoitteluita saatavien verkkovastausten määrään.

Työvoimatutkimuksen tiedonkeruumallissa kaikkia uusia henkilöitä pyritään tavoittelemaan puhelimitse ensimmäisen tiedonkeruuviikon aikana, jolloin henkilön mahdollisuus verkkovastaamiseen ilman yhtäkään puhelintavoittelua riippuu vahvasti siitä, milloin haastattelija yrittää tavoitella henkilöä ensimmäisen kerran. Mitä myöhemmin ensimmäinen puhelintavoittelu tehdään, sitä enemmän aikaa henkilöllä on vastata täysin itsenäisesti verkossa.

Verkkovastausten maksimoimiseksi optimoitu ensimmäisten puhelintavoitteluiden järjestys määritettiin estimoitujen verkkovastaustodennäköisyyksien avulla. Ne kohdehenkilöt, joiden verkkovastaustodennäköisyys oli korkein, sijoitettiin tavoiteltaviksi vasta loppuviikosta ja epätodennäköisimmät verkkovastaajat jo heti alkuviikosta.

Jotta optimoitua tavoittelujärjestystä voidaan pitää realistisena, jaoin tavoiteltavat henkilöt ensimmäiselle tiedonkeruuviikolle siten, että päiväkohtaiset tavoittelumäärät pysyivät yhtä suurina kuin aineistossa: jokaisena viikonpäivänä tavoiteltaisiin suurin piirtein yhtä montaa uutta henkilöä kuin aineistossa.

Optimoidun tavoittelujärjestyksen testaus simuloinnilla

Testasin optimoitua tavoittelujärjestystä verkkovastausmäärien simuloinnilla. Muodostin simulointia varten tutkimusaineistosta useita satunnaisia osa-aineistoja, joihin sovelsin optimoitua ensimmäisen viikon tavoittelujärjestystä.

Kussakin osa-aineistossa laskettiin, kuinka monta verkkovastausta olisi kertynyt, jos uusien henkilöiden ensimmäiset puhelintavoittelut olisi tehty optimoidun järjestyksen mukaisesti. Simuloituja määriä verrattiin toteutuneisiin verkkovastausmääriin eli siihen, kuinka monta verkkovastausta osa-aineistoittain todellisuudessa saatiin.

Vertailun tulokset olivat johdonmukaisia: optimoidulla tavoittelujärjestyksellä simuloitu verkkovastausmäärä ylitti jokaisessa testatussa osa-aineistossa toteutuneen verkkovastausmäärän. Tulosten mukaan ensimmäisten puhelintavoitteluiden järjestyksen optimoinnilla voidaan lisätä ilman puhelintavoitteluita saatavien verkkovastausten määrää johdonmukaisesti. (Kuvio 1)

Kuvio 1. Todelliset verkkovastausmäärät sekä optimoidulla tavoittelujärjestyksellä simuloidut verkkovastausmäärät osa-aineistoittain (testiaineistoittain)*

*Kunkin osa-aineiston sisältämien tiedonkeruuviikkojen yhteenlasketut verkkovastausmäärät. Katkoviivoilla esitettävät 95 %:n kvantiilivälit kuvaavat optimoidun tavoittelujärjestyksen simulaatioiden välistä vaihtelua. Lähde: Alaluusua, O. (2026)

Milloin kohdehenkilön tavoittelua ei enää kannata jatkaa?

Toinen tarkastelunäkökulma liittyi uudelleentavoitteluiden rajoittamiseen. Tarkoitukseni oli selvittää, milloin puhelintavoittelun seurauksena saadun vastauksen todennäköisyys laskee niin pieneksi, että tavoittelun jatkaminen ei ole enää perusteltua.

Hyödynsin ns. pysäytysrajamenettelyä, jossa henkilön uudelleentavoittelu lopetetaan silloin, kun seuraavalla puhelintavoittelulla saatavan vastauksen todennäköisyys alittaa ennalta määrätyn todennäköisyystason eli pysäytysrajan.

Testasin pysäytysrajamenettelyä laskemalla, kuinka paljon puheluita olisi jäänyt soittamatta, ja kuinka monta vastausta olisi jäänyt saamatta, jos tiedonkeruu olisi katkaistu henkilöittäin valitun pysäytysrajan mukaisesti.

Säästettyjen puheluiden sekä menetettyjen vastausten määrä saatiin vertaamalla pysäytysrajalla katkaistua tiedonkeruuta siihen, kuinka monta puhelua ja vastausta aineistossa todellisuudessa kertyi ilman pysäytysrajan käyttöä. Arviointi toteutettiin jakamalla tutkimusaineisto useisiin eri osa-aineistoihin, joissa säästettyjen puheluiden sekä menetettyjen vastausten määrää arvioitiin eri pysäytysrajojen avulla.

Pysäytysrajamenettelyn tulokset osoittavat, että mitä korkeammaksi pysäytysraja asetetaan, sitä enemmän puheluita säästyy, mutta samalla myös menetettyjen vastausten määrä kasvaa. Kuvio 2 esittää säästettyjen puheluiden sekä menetettyjen vastausten keskimääräisiä prosenttiosuuksia eri pysäytysrajoittain.

Kuvio 2. Pysäytysrajoilla 0.05–0.15 katkaistulla tiedonkeruulla säästettyjen puheluiden sekä menetettyjen vastausten keskimääräiset prosenttiosuudet

Lähde: Alaluusua, O. (2026)

Miksi pysäytysrajan käyttö uudelleentavoitteluiden rajoittamisen keinona on perusteltua, vaikka rajan kasvaessa vastauksia jää saamatta melko paljon?

Siksi, että vastaajajoukon pienenemisen ei havaittu heikentävän vastaajajoukon edustavuutta merkittävästi. Vaikka uudelleentavoitteluiden rajoittamisen seurauksena vastaajien määrä vähenee, saadaan vastauksia edelleen melko samassa suhteessa eri väestöryhmistä.

Havainto viittaakin siihen, että Työvoimatutkimuksen kohderyhmälle tehtävien puhelintavoitteluiden määrää voidaan vähentää merkittävästi ilman vastaajajoukon edustavuuden olennaista heikkenemistä.

Vastauskatoa vastaan ennustemalleja hyödyntäen

Yhteenvetona voidaan todeta, että tilastollisilla ennustemalleilla estimoitujen vastaustodennäköisyyksien avulla on mahdollista kasvattaa Työvoimatutkimuksen tiedonkeruussa saatavien vastausten määrää sekä parantaa resurssitehokkuutta merkittävästi eli vähentää turhia yhteydenottoja ja kustannuksia.

Tutkimustulokset vaikuttavat lupaavilta, mutta niiden tulkinnassa on syytä huomioida muutamia rajoitteita. Puhelintavoitteluissa ei ole ollut käytössä mitään tarkkaa ennalta määrättyä tavoittelujärjestystä, minkä vuoksi kaikilla aineiston henkilöillä ei ole ollut yhtäläisiä mahdollisuuksia vastata verkossa ennen kuin heitä yritetään tavoitella puhelimitse. Tämä saattaa aiheuttaa tuloksissa lievää valikoitumisharhaa.

Lisäksi mallinnusstrategia on pitkälti Työvoimatutkimuksen tiedonkeruuprosessiin räätälöity ratkaisu. Tämän vuoksi sekä käytettyjen menetelmien että tulosten yleistettävyys muihin henkilötiedonkeruisiin voi olla rajallista.

Jatkotutkimuksissa olisi kiinnostavaa tarkastella, miten esimerkiksi tulotaso ja työmarkkina-asema vaikuttavat vastausalttiuteen. Kyseiset muuttujat ovat nimittäin nousseet aikaisemmissa tutkimuksissa esiin yksilön vastaustodennäköisyyteen vaikuttavina tekijöinä (Stoop, 2005).

Lisäksi olisi tärkeää arvioida sitä, toistuvatko havaitsemani vastausalttiuteen yhteydessä olevat tekijät myös muissa henkilötiedonkeruuprosesseissa. Lisätutkimus auttaisi arvioimaan, missä määrin tulokset ovat yleistettävissä laajemminkin henkilötiedonkeruihin.

Kirjoittaja työskenteli keväällä 2026 graduharjoittelijana Tilastokeskuksen Työvoimatutkimuksesta vastaavassa ryhmässä ja valmistui tilasto- ja datatieteiden maisteriksi kesäkuussa.

Lähteet:

Alaluusua, O. (2026). Henkilötiedonkeruisiin liittyvien vastaustodennäköisyyksien mallintaminen – sovelluksena Työvoimatutkimus [pro gradu -tutkielma, Jyväskylän yliopisto]. JYX-julkaisuarkisto.

Jabkowski, P., & Cichocki, P. (2025). Survey response rates in European comparative surveys: A 20-year decline irrespective of sampling frames or survey modes. Quality & Quantity, 59 (Suppl 1), 635–655.

Stoop, I. A. L. (2005). The hunt for the last respondent: Nonresponse in sample surveys. Sociaal en Cultureel Planbureau.

Avainsanat:

Miksi tätä sisältöä ei näytetä?

Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.