Väitös tietotekniikan alalta, Ari Heljakka
Milloin
Missä
Tapahtuman kieli
Väitöskirjan nimi on "Deep Generative Neural Network Models for Capturing Complex Patterns in Visual Data"
Generatiivisilla tekoälymalleilla voidaan tuottaa ja semanttisesti muokata monimutkaisia rakenteita, kuten kuvia tai kappaleita. Erityisen realistisia kuvia on viime vuosina onnistuttu tuottamaan GAN-malleilla. Yleensä nämä mallit kuitenkin rajoittuvat tuottamaan satunnaisia kuvia tietystä aihekategoriasta. Usein haluaisimme sen sijaan tehdä muunnelmia olemassaolevista kuvasisällöistä ja yhdistellä vapaasti semanttisia piirteitä sopivista esimerkkikuvista. Tämä vaatii olemassaolevien kuvien koodaamista mallin ymmärtämään muotoon. Generatiiviset autoenkooderit voisivat suoraan soveltua tähän tarkoitukseen, mutta niiden tuottamat kuvat ovat yleensä sumeita jo matalissakin resoluutioissa.
Tässä väitöskirjatyössä kehitettiin koneoppimisen menetelmiä ja autoenkoodereita, joilla voidaan tarkkapiirteisesti muokata halutun olemassolevan korkea-resoluutioisen kuvan semanttisia ominaisuuksia, kuten kasvonilmettä tai sukupuolta, esimerkkikuvia käyttäen. Osoitettiin, että toisin kuin yleisesti on oletettu, myös autoenkooderit voivat tuottaa niin realistisia kuvia, ettei ihmissilmä helposti tunnista niitä synteettisiksi, ja ero GAN-malleihin tältä osin kaventui. Samalla säilytettiin kyky myös viiveettömästi käsitellä ja yhdistellä ominaisuuksia vapaasti käyttäjän syöttämistä kuvista, opetusdatan aihealueen puitteissa. Näin siitä huolimatta, että malli oppii merkitsemättömistä kuvista, kokonaan ohjaamattomasti. Kuviin voidaan halutessa myös lisätä hallittu määrä satunnaisvaihtelua GAN-mallien tapaan.
Ideaalitapauksessa tällainen generatiivinen malli oppii suoraan halutun tieteen- tai teknologia-alueen opetusdatasta, millainen "design-maasto" on fysikaalisesti mahdollinen ja hyväksyttävä. Tässä paradigmassa suunnittelijan tehtävä on valita olemassaolevista kuvista tai muista datarakenteista toivottuja ylätason piirteitä, jotka tekoäly sitten yhdistää realistisella tavalla, käyttäjän valitsemin painotuksin.
Vastaväittäjä: professori Ole Winther, Technical University of Denmark DTU, Tanska
Kustos: professori Juho Kannala, Aalto-yliopiston perustieteiden korkeakoulu, tietotekniikan laitos
Tohtorikoulutettavan yhteystiedot: Ari Heljakka, Tietotekniikan laitos, p. +358 50 428 0606,
[email protected]
Väitös järjestetään etäyhteyden kautta (Zoom). Linkki väitökseen
Väitöskirja on julkisesti nähtävillä 10 päivää ennen väitöstä Aalto-yliopiston julkaisuarkistossa (aaltodoc.aalto.fi).
- Julkaistu:
- Päivitetty: