Eero Hyvönen tuo datamassat humanistien – ja kaikkien muidenkin – ulottuville
Etsitkö uusia kirjavinkkejä tai tietoa talvisodassa kuolleesta sukulaisestasi? Haluatko selvittää jonkun tunnetun suomalaisen elämäntarinaa? Vai oletko kenties historioitsija, joka kiinnostaa keskiaikaisten kirjoitusten liikkuvuus maailmalla?
Aalto-yliopiston professori ja Helsingin yliopiston digitaalisten ihmistieteiden keskuksen HELDIG:n johtaja Eero Hyvönen Semanttisen laskennan tutkimusryhmineen (SeCo) on merkittävällä tavalla helpottanut tällaisen tiedon etsintää. Hyvönen tunnetaan nimittäin sammoistaan.
Sampojen avulla kuka tahansa voi helposti hakea tietoa eri aiheista – esimerkiksi suomalaisesta kaunokirjallisuudesta, toisen maailmansodan aikana kuolleista sotilaista tai tunnettujen suomalaisten elämästä ja lähipiiristä.
Sammot tuovat yhteen paikkaan eri tietokannoista yhdistettyä dataa. Niiden avulla sitä voi helposti myös visualisoida ja analysoida. ”Tajusimme jossain vaiheessa, että sampo on aika hyvä brändi. Meillä taitaa nyt olla kaksitoista eri sampoa ja lisää on tulossa”, Hyvönen kertoo.
Suosituimpia ovat Kirjasampo ja Sotasampo
Sammot helpottavat humanistien työtä, sillä niiden avulla he voivat hyödyntää data-analyyttisia välineitä opettelematta syvällisiä tietoteknisiä taitoja. Sammot ovat Hyvösen mukaan saaneet monet humanistit myös kiinnostumaan tekniikasta.
Hyvönen painottaa kaikkien sampojen datan avoimuutta: sekä dataa että niihin perustuvia sovelluksia voi käyttää kuka tahansa, juuri siten kuin haluaa. Monet sammot ovatkin kiinnostaneet muitakin ihmisiä kuin tutkijoita, mikä käy ilmi niiden käyttäjämääristä.
Eero HyvönenTajusimme jossain vaiheessa, että sampo on aika hyvä brändi. Meillä taitaa nyt olla kaksitoista eri sampoa ja lisää on tulossa.
Kirjasampoa, joka kokoaa yhteen kaikkien Suomen yleisten kirjastojen kaunokirjalliset teokset, käytti viime vuonna kaksi miljoonaa ihmistä. Sitä ylläpitävät nykyään yleiset kirjastot, jotka päivittävät tietokantaa aina saadessaan kokoelmiinsa uusia kaunokirjallisia teoksia.
Sammoista toiseksi suosituin on kansainvälisesti palkittu Sotasampo, jolla on ollut vuodesta 2015 alkaen yli 630 000 käyttäjää. Se yhdistää talvi- ja jatkosotiin liittyviä tietoja erilaisista sotahistoriallisista lähteistä. ”Tunnemme Kansallisarkiston materiaaleihin perustuen kaikki noin 95 000 suomalaista, jotka ovat menehtyneet toisessa maailmansodassa ja tuhansia muita tunnettuja sotilaita. Mukana linkitetyssä datassa on myös muun muassa tuhansia joukko-osastoja, kymmeniä tuhansia sotapäiväkirjoja, 160 000 Puolustusvoimien autenttista valokuvaa, historiallisia karttoja ja paikkoja ja paljon muuta”, Hyvönen kertoo.
Käyttäjä voi esimerkiksi hakea tietoa toisen maailmansodan taisteluissa kuolleesta sukulaisestaan. Se lieneekin yleisin syy sille, miksi ihmiset ovat innostuneet tutustumaan Sotasampoon. ”Tämä systeemi rekonstruoi automaattisesti sotilaiden sotapolun tai sotatarinan.”
Biografiasampo paljastaa yllättäviäkin yhteyksiä tunnettujen suomalaisten välillä
Sammoista kenties monipuolisin on Biografiasampo. Siinä on mukana yli 13 000 Suomalaisen Kirjallisuuden Seuran suomalaisista kuuluisuuksista kertoavaa elämäkertaa rikastettuna kuudentoista muun lähteen, kuten Kirja- ja Sotasampojen, avulla. Biografiasammolla on ollut jo yli 29 000 käyttäjää.
Biografiasampoa kehittäessään tutkijat loivat elämäkertojen teksteistä tekoälyn avulla jättimäisen semanttisen verkoston, jossa on 120 miljoonaa tietojen välistä yhteyttä. Sen avulla voidaan tutkia eri henkilöiden elämäkertojen tapahtumia kartoilla ja ajassa, liikkumista, verkostoja ja yhteyksiä. Biografiasammosta näkee helposti esimerkiksi tunnetun henkilön sukulaiset ja sen, missä päin maailmaa hän on vaikuttanut ja miten.
Eero HyvönenBiografiasammosta näkee, että naiskansanedustajista kertovissa elämäkerroissa käytetään hyvin paljon sanoja "lapsi" tai "perhe".
Portaalissa voi myös tehdä esimerkiksi kielianalyysia ja tutkia, miten paljon tiettyjä sanoja liitetään erilaisiin ihmisiin. ”Sieltä näkee esimerkiksi sen, että naiskansanedustajista kertovissa elämäkerroissa käytetään hyvin paljon sanoja ’lapsi’ tai ’perhe’, mutta jos mennään katsomaan ihan vastaavia mieskansanedustajia, niissä puhutaan hyvin harvoin perheasioista.”
Jotkut yhteydet eri ihmisten välillä ovat hämmentäviäkin. ”Jos katsoo vaikkapa Tapio Rautavaaran egosentristä verkostoa, huomaa, että hänellä on suora yhteys akateemikko ja runoilija Aale Tynniin – mikä tuntuu vähän oudolta. Biografiasammosta kuitenkin selviää, että he voittivat molemmat Lontoon olympialaisissa kultamitalin. Aale Tynni sai mitalin lyriikasta – se oli silloin olympialaji.”
Uusin sampo paljastaa, miten keskiaikaiset kirjoitukset ovat vuosisatojen aikana liikkuneet maailmalla
Sampo-sarjan uusin tulokas on Mapping Manuscript Migrations (MMM). Se julkaistiin tammikuun 2020 lopussa Washington DC:ssä, ja siitä on hyötyä etenkin historioitsijoille.
MMM tuo yhteen tietoa yli 200 000 käsin keskiajalla ja renessanssin ajalla kirjoitetusta dokumentista ja 900 000 niihin liittyvästä tapahtumasta. Dokumentit on koottu kolmesta valtavasta lähteestä: Oxfordin yliopiston kuuluisasta Bodleian-kirjastosta, yhdysvaltalaisesta Schoenberg-instituutista ja ranskalaisesta IRHT-tutkimusinstituutista.
”Keräsimme yhteen tiedot näistä eri organisaatioista, jotta käsikirjoituksia olisi helpompi tutkia. Nämä ovat kansainvälisesti liikkuvia käsikirjoituksia ja samoja käsikirjoituksia mainitaan eri tietokannoissa. Tässä projektissa tiedot eri tietokannoista yhdistettiin, jotta pystyttäisiin luomaan asiasta globaali näkemys”, Hyvönen kertoo.
Palvelusta voi esimerkiksi katsoa, milloin tietty käsikirjoitus on laadittu ja kuka sen on tehnyt. Mukana on muun muassa yli 2 000 keskiajalla tehtyä kopiota antiikin kreikkalaisen filosofin Aristoteleen kirjoittamista dokumenteista. Koska monet tekstit ovat kopioita, niiden sisältö on voinut muuttua alkuperäisestä.
”Esimerkiksi Marco Polon seikkailuista on olemassa monenlaisia versioita. Uusi kopioija tai kustantaja, joka on halunnut tehdä bisnestä, on voinut lisätä sinne muutaman hauskan stoorin lisää”, Hyvönen sanoo nauraen.
Uuden sammon yhtenä ideana oli, että portaalin karttanäkymistä näkisi, miten dokumentit ovat maailmanlaajuisesti liikkuneet. Myös siihen on integroitu helppokäyttöisiä data-analyysityökaluja, joita voi alkaa käyttää ilman erillistä opettelua. ”Jos tutkija ei ole tyytyväinen meidän visualisointeihimme vaan haluaa käyttää vaikkapa jotain muuta karttaohjelmaa, hän voi valita itseään kiinnostavan datajoukon ja ladata sen taulukkolaskentamuodossa.”
Kun MMM:n julkistuksesta oli kulunut reilu kuukausi, sillä oli ollut noin 1 500 käyttäjää. Ottaen huomioon, että se on suunnattu nimenomaan muinaisten käsikirjoitusten tutkijoille, määrä on melko korkea.
Onko sinulla jotain historiataustaa, kun olet näin omistautunut näille aiheille? ”No kyllähän historia tietysti kiinnostaa, ja olen aina ihaillut renessanssin ihmisten monialaista työtä, mutta ihan täältä Teknillisen korkeakoulun tietotekniikka- ja sähköosastoilta olen valmistunut”, Hyvönen sanoo.
Hänen mielestään aihe sopii hyvin semanttiseen tutkimukseen. ”Vaikka emme ole ammattihistorioitsijoita, pystymme kuitenkin ymmärtämään yleisellä tasolla näitä asioita, mikä tekee tästä meille ja opiskelijoille ymmärrettävän tutkimusaiheen. Syvällisempää asiantuntemusta hankkeisiin saamme niissä aina mukana olevilta humanististen alojen tutkijoilta. Yhteistyö Helsingin yliopiston humanistisen tiedekunnan Digitaalisten ihmistieteiden keskuksen HELDIG:n kautta on tärkeä osa työtämme.”
Nämä sammot ovat jo taottavana
- Akatemiasammossa on tarkat tiedot Suomessa vuosina 1640–1899 akateemisen koulutuksen saaneesta 28 000 henkilöstä
- Löytösampoa kehitetään Museoviraston ja Kansallismuseon arkeologisista löytöaineistoista
- Lakisampo, jota tutkijat tekevät yhteistyössä oikeusministeriön ja kustannusyhtiö Editan kanssa, julkaisee Suomen lainsäädännön ja keskeisiä oikeustapauksia älykkäänä semanttisena portaalina
- Parlamenttisampo perustuu eduskunnan aineistoihin ja sitä kehitetään poliittisen kulttuurin tutkimukseen Suomen Akatemian DIGIHUM-ohjelmassa
- Historiasampo käsittelee Suomen historiaa ja se hyödyntää muun muassa historian tutkijoiden Suomen humanistiverkko Agricolan aikajanadataa
- Eero Hyvönen kertoo, että syntymässä on toisiinsa linkkityvien sampojen avoin infrastruktuuri. ”Sitä voisi ehkä kutsua Samposammoksi.”