Big Datan tietomäärää ei vielä osata hyödyntää
TkT Esa Ollila nimitettiin signaalinkäsittelyn ja akustiikan laitokselle Associate Professor -tehtävään 1.6.2015. Professuurin ala on tilastollinen signaalinkäsittely, joka koostuu sovelletun matematiikan, sähkötekniikan ja koneoppimisen malleista ja menetelmistä.
Ollilan mukaan signaalinkäsittely on laajentanut omaa kenttäänsä.
– Data-analyysin merkitys kasvaa sen myötä, kun tietomäärä kasvaa. Vaikka älykkäät laitteet jokapäiväisessä elämässämme ovat tarjonneet erilaisia keinoja kerätä, käsitellä ja tallentaa suuria tietomääriä helposti, tietomäärän hyödyntäminen ei ole kasvanut samaa tahtia.
Ollila mainitsee, että tekniikoista puuttuu skaalautuvuus, joka vaikeuttaa piirteiden, korrelaatioiden tai klustereiden löytämistä laajoista tietojoukoista. Lisäksi usein se, mitä halutaan tietää, on epävarmuus johdetuissa estimaateissa ja analyyseissä.
– Tällä hetkellä meiltä puuttuu Big Datan työkalupakista menetelmiä, jotka mahdollistavat virhemarginaalin antamisen estimoiduille parametreille. Tämä on yksi tämän hetkisistä tutkimuskohteistani Big Datan tiimoilta.
Laajemmin hänen tavoitteensa on kehittää laskennallisia menetelmiä, työkaluja ja algoritmeja suurten moniulotteisten datajoukkojen käsittelyyn ja visualisointiin. Tarkoitus on, että Big Datan eli valtavien tietomäärien hyödynnettävyys paranee.
– Tällaisilla menetelmillä voi olla myös laajaa taloudellista ja yhteiskunnallista merkitystä, Ollila sanoo.
Datan mallinnuksen ja analysoinnin sovelluskenttä on laaja
Mitä sitten nykyään tarkoitetaan signaalinkäsittelyllä?
– Signaali on oikeastaan vain dataa eli numeroarvoisia havaintoja erityyppisistä antureista tai mittausjärjestelmistä. Siksi sana signaali on terminä vanhentunut. Tyypillisiä esimerkkejä Big Datasta tai signaaleista ovat signaali- ja tietoliikennejärjestelmien, älypuhelimien, monisensorijärjestelmien, tietoverkkojen, tai älykkäiden sähköverkkojen tuottamat datat.
Datasta tai isosta tietojoukosta voidaan laskea useita erilaisia estimaattoreita eli tunnuslukuja, jotka jollain tavalla kuvaavat tutkittua populaatiota tai auttavat ymmärtämään tutkittavaa ilmiötä, jota kerätty data ilmentää. Datan määrän kasvaessa myös virheellisten mittausten tai poikkeavien havaintojen määrä kasvaa samaa vauhtia, mikä tuottaa virheen myös estimaattoreissa ja saaduissa johtopäätöksissä ja analyyseissä.
– Siksi esimerkiksi robustit signaalinkäsittelyn ja data-analyysin menetelmät, eli menetelmät jotka eivät ole herkkiä mittausvirheille tai poikkeaville havainnoille, ovat erittäin tärkeässä roolissa Big Data -analyysissä. Minulla on vankka kokemus robusteista menetelmistä ja tilastollisesta mallinnuksesta, jota voin nyt hyödyntää omassa Big Data -tutkimuksessani.
Signaalinkäsittelyssä Ollila tutkii satunnaisuutta mittauksissa, erityisesti erilaisia kohinamalleja, joita voidaan hyödyntää esimerkiksi antenniryhmien ja tutkasignaalien analyyseissä ja optimaalisten estimaattoreiden johtamisessa. Hän on myös kehittänyt tekniikoita antenniryhmän vastaanottamien signaalien tulosuunnan ja lähettimen sijainnin estimoimiseen.
Datan mallinnuksen ja analysoinnin sovelluskenttä on laaja. Yhtenä esimerkkinä Ollila mainitsee lääketieteellisen kuvantamisen.
– Esimerkiksi tensorihajotelmat ovat erittäin hyödyllisiä ja käyttökelpoisia datan käsittelymenetelmiä moniulotteisille datajoukoille ja niitä voidaan soveltaa vaikkapa lääketieteellisen datan analyyseissä.
Entä miten professori viettää vapaa-aikaansa?
– Vapaa-aika kuluu perheen ja harrastusten parissa erityisesti talvisin laskettelemassa ja kesäisin tenniskentällä. Kokkaan myös mielelläni, joka on osoittautunut hyväksi vastapainoksi työlle.
Kuva: Lasse Lecklin