Tilastotiede on maailman jännittävin tieteenala, sanoo Pekka Pere – ja tieteilijät loivat sille uuden suomenkielisen sanaston
Oli lopulta vain muutamista viikoista kiinni, että suomenkielisen tieteen historia olisi ollut toisenlainen. Niin lyhyestä ajasta vuosien 1849–1850 taitteessa riippui, kuka ehti julkaista suomeksi ensimmäisen tieteellisen tutkimuksen, kertoo tilastotieteilijä ja yliopistonlehtori Pekka Pere Aalto-yliopiston matematiikan ja systeemianalyysin laitokselta.
Ensimmäiseksi rinnanmitalla kiri lääkäri Erik Alexander Ingman artikkelillaan Ovatko taudit itsenäisiä eläväisiä olentoja? Vain pari viikkoa myöhemmin tähtitieteilijä ja matemaatikko Johan Eklöf julkaisi artikkelin, josta tuli Pekka Peren mukaan paitsi suomenkielisen tilastotieteen, myös suomalaisen tieteen virstanpylväs. Ja Eklöfin Kokemäenjoen jäidenlähtöä koskevasta artikkelista riittää ammennettavaa tänäkin päivänä, kuten myöhemmin käy ilmi.
”Minusta on hienoa, että Eklöf sovelsi tässä työssä pienimmän neliösumman menetelmää, opetan sitä parhaillaankin kurssilla. Eklöf on ajankohtainen myös siksi, että hän on tutkinut artikkelissaan ilmastonmuutosta”, Pere muistuttaa.
Nyt, lähes 200 vuotta myöhemmin, suomi on vakiintunut myös tieteen kieleksi, mutta ei ehkä niin vankasti kuin monet toivoisivat. Tähän ongelmaan tarjoaa vastauksia Tilastotieteen sanasto -teos, jonka taustalta löytyy arvovaltainen joukko tutkijoita. Verkosta löytyvään teokseen ja sen hakukoneeseen on käännetty tilastotieteen keskeisiä termejä englannista suomeksi – ja toisin päin.
Tekijöitä motivoi halu vaalia suomea tilastotieteen kielenä. Tilastotieteen sanastoa uhkaa pirstouttaa paitsi tilastotieteen enenevä käyttö eri tieteenaloilla, myös datatieteen kehittyminen. Samalla englannin tulo opetuskieleksi haurastuttaa aiemmin vakiintunutta suomenkielistä termistöä.
Kirja on Suomen Tilastoseuran kustantama. Vaikka aloite sanaston tekemiseen on Pekka Pereltä peräisin – hän on seuran puheenjohtaja – Pere painottaa, että Tilastotieteen sanasto on syntynyt arvovaltaisen tutkijajoukon tiiviinä yhteistyönä. Painetun kirjan eli ensimmäisen laitoksen takaa löytyy neljä keskeistä hahmoa: Peren lisäksi mukana olivat tilastotieteen emeritusprofessorit Juha Alho ja Elja Arjas Helsingin yliopistosta sekä biometrian professori Esa Läärä Oulun yliopistosta.
Sanaston synnyllä on myös hieman murheellinen kaiku, sillä asia nousi ensimmäisen kerran esiin yliopistonlehtori Petri Koistisen muistotilaisuudessa kymmenisen vuotta sitten. Tuolloin Arjas istui sattumoisin Peren kanssa samaan pöytään, ja kävi ilmi, että heitä yhdisti kiinnostus suomenkielisen tiedesanaston tekemiseen.
Alkuperäinen, vuonna 2021 julkaistu ensimmäinen laitos vei tutkijoilta lopulta neljän vuoden työn. Verkossa julkaistuun toiseen laitokseen ja sieltä löytyvään hakukoneeseen tulivat tekijöiksi mukaan sovelletun matematiikan professori Lasse Leskelä Aallosta sekä tilastotieteen professori Juha Karvanen Jyväskylän yliopistosta. Alho ja Arjas jättäytyivät työstä pois.
”Jo tieteellinen seura kustantajana antaa teokselle arvovaltaa, mutta se, että mukana on viisi professoria, tuo sanastolle aivan poikkeuksellista uskottavuutta”, Pere korostaa.
Elämän muuttanut kirja varastettiin
Mutta miten Pekka Perestä tuli tilastotieteilijä, ja vieläpä varsin intohimoinen sellainen?
Alun perin hän ei aikonut lähteä opiskelemaan tilastotiedettä. Lukion jälkeen Pere pohti, kiinnostaisivatko yhdyskuntasuunnittelu tai kauppatieteet, mutta sisarensa usutuksesta hän päätyi valtiotieteellisen tiedekunnan oppilasjärjestö Kannunvalajien tapahtumaan. Sieltä kiinnostavia aineita löytyi lopulta kaksin kappalein: kansantaloustiede ja tilastotiede.
Pere haki ja pääsi sisään opiskelemaan kansantaloustiedettä. Hän pitää sitä yhä ”makeana aineena”, sillä kansantaloustieteessä pääsee pohtimaan todella suuria kysymyksiä. Tilastotiede sen sijaan ei tuntunut lähtevän yhtä vauhdikkaasti liikkeelle, Pere manaa. Hän kertoo anekdootin peruskurssin vetäjästä, joka rullasi perinteistä piirtoheitinkalvoa ja kirjoitti samaan aikaan.
”Hän pyöritti sitä rullaa ja tuotti tekstiä, pyöritti rullaa ja tuotti tekstiä – ja puhui samalla hyvin monotonisella äänellä. Minusta se oli oikein huono luentoesitys”, Pere naureskelee nyt.
Onneksi opiskelu ei jäänyt perusopintoihin, sillä aineopintoihin päästessä tilastollisen päättelyn ja regressioanalyysin kurssit muuttivat kaiken: Pere löysi ilmeisen yhteyden siihen, kuinka oikeaa maailmaa voi tutkia tilastotieteen menetelmillä.
”Tilastotieteessä on keskeistä tarkastella sitä epävarmuutta, mikä arvioomme maailmasta liittyy. Ja heti perään haluan sanoa, että tämä on maailman jännittävin tieteenala!”
Mutta myös sattumalla – tai säännöillä – oli lopulta sormensa pelissä. Pere oli aikeissa mennä tenttimään makrotaloustieteen erityiskysymyksiä, mutta uudistuneet säännökset estivät sen tenttimisen tuolloin tammikuussa. Niinpä tilalle valikoitui aikasarja-analyysin tentti, johon Pere kävi jouluaattona ostamassa kirjan Helsingin Akateemisesta kirjakaupasta.
”Silloin innostuin aikasarja-analyysista tosissaan – lopulta väittelinkin siitä. Koin, että juuri tuo kirja muutti elämäni suunnan.”
Kyseinen kirja oli myöhemmin Hakaniemen McDonald’siin unohtuneessa repussa.
”Kun menin takaisin, se oli jo varastettu. Sinne meni elämäni suunnan muuttanut kirja! Olin vieläpä saanut siihen Englannissa kirjan tekijän signeerauksenkin”, Pere harmittelee – pilke silmäkulmassa.
Eklöfin ”oudokki” jatkaa elämäänsä Tilastotieteen sanastossa
Vaikka tekijäkunta teki Tilastotieteen sanaston tiiviissä yhteistyössä, Pere itse vastasi kolmannen luvun ”Tilastotieteen termien suomentamisen historiaa” sisällöstä. Sen kirjoittaminen oli hauskaa, mutta myös kuin salapoliisityötä.
Esimerkkinä hän käyttää jo mainittua Johan Eklöfin Kokemäenjoen jäidenlähtöä koskevaa aineistoa ja siihen liittyvää ”oudokkia”. Englanniksi termi outlier viittaa erilaiseen, muusta aineistosta ”poikkeavaan havaintoon” – ja tätä on englanninkielisen termin ohella suomenkielisissä teksteissä Peren mukaan aiemmin pitkälti käytettykin.
Eklöfin aineistossa vuosi 1822 ”on aivan eri maailmassa” kuin muut havainnot. Peren mukaan tämä aiheuttaa tilastotieteilijälle monenlaista päänvaivaa: säilyttääkö havainto mukana vai pitäisikö se poistaa? Onko kyse oikeasta havainnosta vai virhekirjauksesta? Pere ryhtyi salapoliisimaiseen selvitystyöhön ja löysi ensin Oxfordista lämpötilatilastoja, joista ilmeni, että keväällä 1822 koettiin tavaton lämpöaalto. Vyyhti aukesi lopullisesti, kun tilastot paljastivat myös Turussa olleen poikkeuksellisen lämmintä, mistä saattoi päätellä, että jäät todella lähtivät Kokemäenjoesta tuona keväänä selvästi normaalia aiemmin.
”Sinä vuonna on ollut aivan huikea ilmastopoikkeama. Sen takia kirjaus on mukana ja kuuluu tähän havaintoaineistoon. Epävarmuuden kuvaaminen on tilastotieteessä tärkeää. Tällainen on Eklöfin data ollut, ja siellä selvästi näkyy sanaston uuden termin mukainen oudokki.”
Oudokki ei ole ainoa sana, johon Pere on sanastossa tyytyväinen. Toisena esimerkkinä hän mainitsee sanan survey käännöksen ”luotaus” tai ”luodata”, joka on paitsi kuvaava, sisältää myös pienen jipon: ”luo + data”.
Tilastotieteen sanaston ensipainoksen julkaisusta on jo jokunen vuosi vierähtänyt, mutta Pere ei ole jäänyt toimettomaksi. Parhaillaan Pere kirjoittaa artikkelia, jossa hän katsoo vielä kauemmas tilastotieteen suomenkielisten termien historiaan kuin sanastossa. Artikkeli tulee tilastotieteen historiaa Suomessa käsittelevään kirjaan, jota hän työstää usean kollegan kanssa. Mutta palataan niihin sitten vaikkapa uuden jutun merkeissä, Pere naurahtaa.
Lisää aiheesta muualla:
Tilastotieteen sanaston verkkoversio
Yle Areena: Aristoteleen kantapää -podcast, 30.3.2022: Kuplakuvio, hölynpölykorrelaatio ja oudokki – tilastotiede on kaikkialla
Tieteessä tapahtuu 2/2022: Oudokki, verrokki, riski ja moni muu – Uusi tilastotieteen sanasto
- Julkaistu:
- Päivitetty: