Väitös laskennallisen tieteen alalta, DI Tuomas Sivula
Milloin
Missä
Tapahtuman kieli
Käytännön tilastollisessa mallinnuksessa on usein tilanteita, joissa analysoitava data jaetaan erikseen käsiteltäviin pistevieraisiin joukkoihin. Tätä lähestymistapaa hyödynnetään mm. tilanteissa, joissa analysoitava havaintoaineisto on liian suuri yhdessä käsiteltäväksi tai aineisto sisältää luontaisen osituksen. Toinen yleinen tilanne, missä hyödynnetään data ositusta, on mallin prediktiivisen suorituskyvyn arviointi ja monen mallin vertailu. Näihin tilanteisiin on kehitetty monia menetelmiä. Vaikka näitä menetelmiä on tutkittu kirjallisuudessa kattavasti aiemmin, niiden käyttäytyminen ja soveltuvuus kaikissa tilanteissa ei ole selvillä.
Tämä väitöskirja käsittelee eri menetelmiä, joissa hyödynnetään havaintoaineiston jakamista pistevieraisiin joukkoihin. Analysoitavat menetelmät ovat approksimatiiviseen päättelyyn sovellettava odotusarvon välittäminen (expectation propagation, EP) ja mallin arviointiin ja vertailuun sovellettava jätä-yksi-pois ristiinvalidointi (leave-one-out cross-validation, LOO-CV). Näiden menetelmien soveltuvuutta ja käyttäytymistä tutkitaan eri tilanteissa. Erityisesti väitöskirjassa käsitellään EP-menetelmän soveltuvuutta hajautettuun päättelyyn ja LOO-CV-menetelmään liittyvää epävarmuutta.
Kirjallisuudessa on aiemmin keskitytty EP-menetelmän tarkasteluun approksimatiivisen päättelyn näkökulmasta. Tässä väitöskirjassa menetelmän soveltuvuutta tutkitaan erityisesti joustavan hajautetun päättelyn näkökulmasta. Kokeellisten tulosten perusteella menetelmällä voidaan saavuttaa tarkempia tuloksia tehokkaammin verrattuna joihinkin vaihtoehtoisiin menetelmiin. Lisäksi menetelmää voidaan hyödyntää kätevästi joidenkin ongelmien kompleksisuuden pienentämiseen erottelemalla eri tekijöihin vaikuttavat havainnot eri laskentayksiköille.
Tarkasteltaessa LOO-CV menetelmää mallin prediktiivisen suorituskyvyn arvioinnissa, väitöskirjan tutkimustulokset osoittavat, että menetelmän tuottamiin tuloksiin liittyvä epävarmuus on merkittävä tietyissä yleisissä tilanteissa. Tämän epävarmuuden arvioiminen on monimutkainen tehtävä ja nykyinen suosittu lähestymistapa tuottaa usein epätarkkoja tuloksia. Väitöskirjassa osoitetaan kuitenkin, että on mahdollista saavuttaa parempia tuloksia kehittämällä ongelmakohtaisia estimaattoreita. Tutkimusten perusteella väitöskirjassa esitetään yleisiä tekijöitä, joita tulee ottaa huomioon sovellettaessa LOO-CV menetelmää mallin arviointiin ja vertailuun.
Vastaväittäjä: Dr. Daniel Hernández-Lobato, Universidad Autónoma de Madrid, Espanja
Kustos: professori Aki Vehtari, Aalto-yliopiston perustieteiden korkeakoulu, Tietotekniikan laitos
Väittelijän yhteystiedot: Tuomas Sivula, [email protected]
Väitös järjestetään etäyhteyden (Zoom) kautta. Linkki väitökseen
Väitöskirja on julkisesti nähtävillä 10 päivää ennen väitöstä Aalto-yliopiston julkaisuarkiston verkkoriiputussivulla.