Tapahtumat

Väitös puhe- ja kieliteknologian alalta, DI Aku Rouhe

Kieliteknologian kokonaismallit nojaavat laskentatehoon ja dataan, mutta rakenne ja insinöörityö ovat yhä tarpeen.
- Väitös Aalto-yliopiston sähkötekniikan korkeakoulusta, informaatio- ja tietoliikennetekniikan laitokselta
Kuvassa tekoälyn näkemys attentiomekanismipohjaisesta kokonaismallista: korva suuntaa säteen puhekupliin.
Attentiomekanismi on tekniikka, jolla neuroverkko voi kohdentaa huomionsa syötteensä tärkeisiin osiin.

Väitöskirjan nimi: Attention-based End-to-End Models in Language Technology

Tohtoriopiskelija: Aku Rouhe
Vastaväittäjät: Prof. Ralf Schlüter, RWTH Aachen University, Germany
Kustos: Prof. Mikko Kurimo, Aalto-yliopiston sähkötekniikan korkeakoulu, informaatio- ja tietoliikennetekniikan laitos

Puheentunnistuksessa ja kieliteknologiassa laajemminkin tutkimus on viimeaikoina keskittynyt ns. kokonaismalleihin. Kokonaismalleissa pyritään eroon ihmisymmärryksellä asetetuista tekoälysysteemin rakenteista, ja niiden sijaan käytetään yleismuotoisia suuria malleja, jotka nojaavat vain laskentatehoon ja dataan. Tässä tutkimuksessa kyseenalaistetaan onko siirtymä kokonaismalleihin perusteltu systeemien toimivuuden kannalta. Kun puhe- ja kieliteknologiat tulevat arkisiksi, on tärkeää ymmärtää, millaisia valintoja niiden rakentamisessa tehdään. Kokonaismallit toimivat erityisen hyvin, kun dataa ja laskentatehoa on käytettävissä rutkasti, mikä ei kuitenkaan ole mahdollista esimerkiksi monen pienen kielen kohdalla. 

Tutkimus keskittyy puheentunnistukseen. Sen osalta keskiössä on uusien koeasetelmien luominen kokonaismallien ja niiden vaihtoehdon, hajotettujen ratkaisujen välille. Näissä koeasetelmissa kokonaismallit ja hajotetut mallit tehdään mahdollisimman vastaavilla tavoilla, sekä datan, että opetuslaskennan osalta, ja päätulos on, että hajotetut mallit ovat yhä kilpailukykyisiä kokonaismallien kanssa puheentunnistuksen perinteisillä mittareilla. Tutkimuksessa myös näytetään, miten kokonaismalleja voi parantaa tavoilla, jotka hyödyntävät osatehtävien omia aineistoja. Kaiken kaikkiaan tutkimus korostaa, että kokonaismallien sijaan oleellisimmat parannukset puheentunnistuksessa näyttävät tulleen uusista neuroverkkorakenteista, datasta, ja laskentatehosta. 

Lisäksi tutkimus käsittelee kanonista morfisegmentointia ja puheen kääntämistä. Vaikka näitä aloja käsitellään lyhyemmälti, tulosten nojalla vaikuttaa että puheentunnistuksessa käsitellyt kysymykset pätevät myös muussa kieliteknologiassa. 

Kokonaismalleilla on selkeät käyttökohteensa esimerkiksi puhelimissa, mutta tutkimus osoittaa, että hajotetut mallit ovat yhä käyttökelpoinen ratkaisu, ja että datan ja laskentatehon tuomien parannusten lisäksi ihmisymmärrys voi tuoda yhä parannuksia puhe- ja kieliteknologiasovelluksissa.

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 10 päivää ennen väitöstä): https://aaltodoc.aalto.fi/doc_public/eonly/riiputus/

Avainsanat: puheentunnistus, kieliteknologia, kokonaismallit

Yhteystiedot:

Sähköposti  [email protected]
Puhelinnumero  0408133607


Sähkötekniikan korkeakoulun väitöskirjat: https://aaltodoc.aalto.fi/handle/123456789/53

  • Julkaistu:
  • Päivitetty: