Julkaistu: 8.11.2001

Jakauman esittäminen

Tilastotietoon liittyy käytännöllisesti katsoen aina jakauma. Tilastografiikankin tehtävä on oikeastaan vain havainnollistaa jakaumia ja niiden välisiä suhteita. Jakauman jättäminen huomiotta on kuitenkin melko tavallista jatkuva-arvoisten muuttujien kohdalla. Laatuero- ja järjestysasteikolla mitattujen muuttujien kohdallahan jakauman esittäminen on tavallaan itsestäänselvyys, koska muita ilmiön erittelytapoja on niukalti käytettävissä.

Yksi syy, miksi jatkuva-arvoisten muuttujien jakaumaan ei kiinnitetä useinkaan huomiota, on varmasti se, että tähän soveltuvat kuviotyypit tunnetaan huonosti ja vain kehittyneimmissä ohjelmistoissa niitä voidaan tuottaa ilman kikkailua. Syynä saattaa olla myös se, että tällainen jakaumien tarkastelu on työlästä ja käsitteellisesti vaikeampaa - ja myös se, että vaihtoehtoisia tapoja on tarjolla.

Jakauma on kuitenkin monien ilmiöiden keskeinen ominaisuus, joskus jopa keskeisin ominaisuus. Erityisesti tieteellisissä tutkimuksissa johtopäätökset perustuvat usein nimenomaan muuttujien jakaumien vertailuun, vaikka se ei aina tapahdu eksplisiittisesti. Jakauma kuitenkin helposti jätetään huomiotta ja tiivistetään sitä koskeva tieto johonkin jakauman parametriin. Selitys saattaa olla myös se, että jakaumaa ylipäätään ei ole sisäistetty.

Yleisimmin vertaillaan vain keskiarvoja. Tällaisella tiedon tiivistämisellä menetetään monasti keskeisiä piirteitä ilmiöiden luonteesta, sillä esimerkiksi jakauman muoto, hajonta, ääriarvot, vaihteluväli jne. saattaisivat olla aivan yhtä merkittäviä kuin keskiarvo. Keskiarvon käyttö tässä yhteydessä saattaa olla jopa harhaanjohtavaa..

Tufte (Visual Display of Quantitative Information, Graphics Press,1983) väitti, että nykyisin empiirisissä tutkimuksissa yleinen tilastollinen testaus on yksi tiedon tiivistämisen muoto, jolla käytännössä häivytetään jakauma. Schmidin (Graphics: Design Principles and Practices. John Wiley & Sons, 1992) kanta puolestaan oli, että tilastollisen testauksen yleistyminen aikanaan hävitti jakaumien tarkastelun tutkimusraporteista.

Yksinkertaisin ja kenties perinteisin jakaumakuvio on histogrammi. Histogrammi tehdään siten, että muuttujan arvoalue jaetaan luokkiin ja sitten lasketaan kuinka monta havaintoa kuhunkin luokkaan sijoittuu, ja näitä vastaavasti piirretään pylväs. Periaatteessa histogrammi siis on tavanomainen pystypylväskuvio, mutta pylväät piirretään lähelle toisiaan, monasti aivan yhteen.

Histogrammin tekemisessä suurin ongelma on luokkien määrästä ja samalla luokkavälistä päättäminen. Vanha Tilastotieteilijän Ohje sanoo, että luokkia pitää olla suurin piirtein kuutiojuuri havaintojen määrästä eli viisi luokkaa jos havaintoja on 125. Periaatteessa sääntö on hyvä, mutta ei siihen pidä liian tiukasti takertua. Muitakin sääntöjä käytetään, mutta millään näistä säännöistä ei ole teoreettista perustetta.

kuva

kuva

Tilastotieteen näkökulmasta tärkeintä on, että käytetty luokittelu tuo muuttujan jakautuman oikeana esille. Ohessa on neljä eri luokituksella tehtyä histogrammia samoista luvuista. Niistä voi nähdä luokituksen vaikutuksen kuvioon. Kuvio 1 ei ole onnistunut, koska siinä liian iso luokkaväli hävittää jakauman muodon ja kuvio 4 on epäonnistunut, koska siinä liian lyhyen luokkavälin vuoksi jakaumakuvioon tulee satunnaisvaihtelua. Kuviot 2 ja 3 ovat parhaat vaihtoehdot. Kuviossa 2 luokkia on kuutiojuuri havaintojen määrästä. Riippuu kuitenkin asiayhteydestä kumpi näistä kahdesta kannattaisi valita.

Histogrammi soveltuu hyvin kuitenkin vain yhden muuttujan samanaikaiseen esittämiseen. Graafisilla keinoilla voi jakaumia ehkä yrittää esittää päällekkäin, mutta tulos on harvoin onnistunut. Kaksi jakaumaa voidaan esittää myös samalla periaatteella kuin väestöpyramidi tehdään. Näin syntyy usein mielenkiintoinen vertailuasetelma. Useamman muuttujan esittämiseen samassa yhteydessä on käytettävissä joko laatikko- ja viikset -esitys tai vaihteluvälikuviot.


Päivitetty 8.11.2001

Lisätietoja:
sähköposti: tietoaika@tilastokeskus.fi