Haravoimalla uutta tietoa vuokramökeistä
Verkkoharavointi (eng. web-scraping) tarkoittaa tietojen automatisoitua keruuta internet-sivuston lähdekoodista. Verkkoharavointi on ollut jo pitkään mahdollista useilla eri koodikielillä, mutta vasta viime vuosina eri maissa on tunnistettu haravoinnin mahdollisuudet tilastotuotannossa.
Myös Tilastokeskuksessa on selvitetty verkkoharavoinnin mahdollisuuksia tiedonhankinnassa. Käytännössä kaikki verkossa oleva tieto on mahdollista kerätä tilastojen tuotantoon, kunhan tiedon keräämisessä noudatetaan laillisia sekä eettisiä toimintaperiaatteita.
Verkkoharavoinnilla voidaan kerätä uutta tietoa kokonaan uusien tilastojen tuottamiseen tai nykyisten laadun parantamiseen. Lisäksi voi olla mahdollista korvata vanhoja haastatteluihin perustuvia tiedonkeruita, mikä vähentää vastausrasitetta eli yritysten ja yksityishenkilöiden tiedonkeruisiin käyttämää aikaa.
Yksityishenkilöiden omistamat vuokramökit saadaan mukaan
Tilastokeskuksen majoitustilasto tuottaa laadukasta tietoa yöpymisistä yli 20 vuodepaikan majoitusliikkeistä. Tiedolla pystytään arvioimaan sekä ulkomaalaisten matkailua Suomeen sekä suomalaisten kotimaan matkailua.
Matkailutilastoissa on kuitenkin ongelmana koko Suomen majoituskapasiteetin tunnistaminen, koska iso osa Suomen kapasiteetista on yksityisten henkilöiden omistamissa vuokramökeissä ja loma-asunnoissa.
Vuokramökkien majoituskapasiteetin tilastointi on aikaisemmin ollut mahdotonta, koska kapasiteettia ei ole laskettavissa viranomaisten rekistereistä eikä haastattelututkimuksen luominen vuokramökkien omistajille ole käytännössä mahdollista kohtuullisilla kustannuksilla.
Visit Finland ja Tilastokeskus aloittivat esiselvityksen vuokramökkitilastoinnin perustamisesta vuoden 2018 alussa, jonka aikana luotiin menetelmä vuokramökkien tilastoimiseksi. Menetelmän keskeisenä osana on kapasiteetin tunnistaminen haravoimalla vuokramökkejä välittäviä sivuja. Haravoidut tiedot yhdistetään vuokramökkien välityspalveluilta saatavaan käyttötietoon.
Vuokramökkitilaston verkkoharavoinnissa on tunnistettu yhteensä yli 11 000 vuokralla olevaa mökkiä. Esimerkiksi huhtikuussa 2020 suurimmilla kotimaisilla sivustoilla oli tarjolla 11 338 vuokramökkiä ja vuokrattavaa loma-asuntoa.
Vuonna 2019 vuokramökeissä oli yhteensä noin 2,68 miljoonaa yöpymistä. Tämä vastaa noin kymmentä prosenttia majoitusliikkeissä tapahtuneista yöpymisistä.
Vuokramökkien keskihinnat ovat tilaston mukaan 43,31–144,98 euroa yöltä riippuen kuukaudesta. Tarkempia tietoa voi katsoa tilaston kotisivulta: http://www.stat.fi/tup/kokeelliset-tilastot/vuokramokkitilasto/index.html.
Haasteina ulkomaiset alustapalvelut ja tuplahavainnot
Tällä hetkellä tiedonkeruu käsittää suurimmat kotimaiset vuokramökkien kauppapaikat ja välityspalvelut. Tiedonkeruu kattaa suurimman osan Suomen vuokramökeistä. Toistaiseksi ulkomaiset alustapalvelut, kuten Airbnb, kuitenkin puuttuvat.
Kansainväliset sivut ovat vaikeampia haravoida, ja lisäksi niiden kanssa on vaikeampi sopia haravoinnin teknisistä yksityiskohdista. Tilasto kattaa kuitenkin myös ison osan Airbnb:ssä olevista vuokramökeistä, koska useimmat kohteet on ilmoitettu myös kotimaisilla alustoilla.
Suurena haasteena tilastoinnissa on tuplahavaintojen tunnistaminen eli jos sama mökki on ilmoitettu kahdella tai useammalla eri sivustolla. Toistaiseksi Tilastokeskuksessa on käytetty ilmoitustekstiin perustuvaa tunnistusta. Muita vaihtoehtoja on muun muassa kuvantunnistusmenetelmät.
Tämän tyylisissä haasteissa on tilastoviranomaisilla mahdollista ottaa käyttöön koneoppimismenetelmiä, jotka tekevät myös vahvasti tuloaan Tilastokeskuksessa.
Kirjoittaja työskentelee yliaktuaarina Tilastokeskuksen matkailu- ja liikennetilastoissa.
Avainsanat:
Miksi tätä sisältöä ei näytetä?
Tämä sisältö ei näy, jos olet estänyt evästeiden käytön. Jos haluat nähdä sisällön, tarkista evästeasetuksesi.