Edellinen Seuraava Ylös

WEBSOM - Uusi näkökulma tekstitietoon

Timo Honkela


Teknillisen korkeakoulun kirjasto, Terveystieteiden keskuskirjasto ja Svenska handelshögskolans bibliotek ovat järjestäneet jo muutaman vuoden ajan yhteisiä yhden päivän koulutustilaisuuksia, joissa yleensä on ollut ulkopuolisia luennoitsijoita. Viime joulukuun 16. päivä Terkko organisoi Elektronisen julkaisemisen päivän. Yksi luennoitsijoista oli Timo Honkela TKK:n Neuroverkkojen tutkimusyksiköstä aiheenaan "Karttoja tiedon valtateille, WEBSOM-menetelmä digitaalisten kirjastojen organisoimiseen ja tiedonhakuun". Toimitus kyseli luennoitsijalta selvennystä asiaan.


Kyseessä on Suomen Akatemian ja TKK:n rahoittama määräaikainen huippututkimusyksikkö, jota johtaa akatemiaprofessori Teuvo Kohonen. Professori Kohosen kehittämät menetelmät - esimerkkinä maailmalla paljon eri alojen soveltajia saanut itseorganisoiva kartta - ovat yksikössä tehtävän työn keskeinen perusta.

Olen ollut yksikössä tutkijana vuoden 1995 alusta. Aiemmin olin tutkijana VTT Tietotekniikassa noin 5 vuotta ja sitä ennen SITRAn rahoittamassa kielikoneprojektissa muutamia vuosia. Nykyiset tehtäväni liittyvät aivan uudenlaisen, Kohosen itseorganisoivaan karttaan perustuvan tekstitiedonhallinnan ja tiedonhaun menetelmän kehittämiseen. Menetelmästä käytetään nimeä WEBSOM. Olen mukana prof. Kohosen vetämässä tutkimusryhmässä, jonka muita jäseniä ovat Samuel Kaski ja Krista Lagus.

WEBSOM-menetelmä on kehitetty tuottamaan annetusta tekstikokoelmasta ns. dokumenttikartta. Kartalla dokumentit ovat yksittäisinä pisteinä niin, että sisällöltään lähekkäiset tekstit ovat lähellä toisiaan. Dokumenttikarttaa voidaan käyttää aineistoa koskevaan hakuun ja "tutkimusmatkailuun". Koska dokumentit ovat järjestyneet kartalla sisällönmukaisesti, kartta auttaa muodostamaan yleiskuvan koko aineistosta visuaalisin keinoin.

WEBSOM-menetelmä julkistettiin 19.1.1996, jolloin demonstraatio annettiin yleiseen käyttöön WWW-osoitteessa http://websom.hut.fi/websom/. Ensimmäisellä kartalla oli noin 5000 internetistä poimittua keskusteluryhmäartikkelia. Suurin tähän mennessä julkistettu kartta sisältää 131 500 dokumenttia. Meillä on myös valmistumassa 1 000 000 dokumentin kartta.

Menetelmässä on käytetty hyväksi itseorganisoivan kartan kykyä muodostaa kuvauksia data-aineistosta ilman ihmisen antamaa palautetta. Siten WEBSOM on varsin automaattinen väline. Puutumme opetusprosessiin valitsemalla joidenkin parametrien arvot ja karsimalla hieman sanastoa. Lisäksi opetuksen jälkeen kartta voidaan haluttaessa nimikoida käsin.

Yleisellä tasolla tutkimuksen motivaatio liittyy itseorganisoivan kartan moniin etuihin luonnollisen kielen tulkinnan välineenä. Yksi lähtökohta on kriittinen näkökulma perinteiseksi tekoälyksi kutsuttuun tutkimussuuntaan. Perinteisesti kielen tulkinnassa tarvittavaa tietämystä on pyritty keräämään käsin sääntöinä ym. kielellisen tason kuvauksina. Itseorganisoiva kartta mahdollistaa sekä oppimisen mukanaantuoman määrällisen edun että tietämyskuvauksen laadun kehittämisen.

Tiedonhaun näkökulmasta tarkoituksena on tarjota vaihtoehto ja täydentävä mahdollisuus perinteiselle avainsanahaulle. Avainsanoja käyttämällä hakutulokset ovat usein joko liian suppeita tai liian laajoja haun rajaavuuden tasosta riippuen. WEBSOM tarttuu tämän ongelman ytimeen järjestämällä dokumenttiaineiston mielekkääksi kuvaksi, dokumenttimaisemaksi.

Sovelluksena WEBSOM tarjoaa testausympäristön, jonka puitteissa voidaan kehittää menetelmiä ja soveltaa niitä valtaviin aineistoihin.

Tutkimuksen kuluessa on kehitetty uudentyyppisiä menetelmiä ja sovellettu niitä pilottitutkimuksena tiedonhakuun. Tärkein tulos on menetelmien ja käsitteistön kehittyminen ja aivan uudenlainen lähestymistapa tietokantoihin. Konkreettisempia tuloksia kuten internet-demonstraatiossa esiteltävä pilottijärjestelmä syntyy ohessa, mutta tutkimusyksikön päätehtävänä on professori Kohosen viitoittama perustutkimus.

Kirjastot voisivat esimerkiksi toimia solmupisteinä, joissa tuotetaan eri alojen dokumenttikarttoja. Kirjastojen merkityksen en näe vähentyvän automaattisten tiedonhaun välineiden kehittyessä. Painopisteet ja toiminnan luonne varmaankin muuttuvat.

Yksittäisiä tietoja haen usein käyttäen Alta Vista -hakukonetta. Lisäksi käytän hyväkseni valmiita linkkikokoelmia eri alueilta. Hyödyllisiä ovat sekä laajempien organisaatioiden listat kuin yksittäisten, samoista aiheista kiinnostuneiden tutkijoiden keräämät linkit. Etenkin uuteen aiheeseen tai käsitteellisesti monimuotoiseen aiheeseen perehtyessä toivoisin saavani käyttööni WEBSOMin kaltaisen työvälineen.

Tekstiaineistojen organisoinnin apuvälineiden kehittymisen lisäksi näköpiirissä on monimuotoisen datan (kuva, ääni, puhe, video, ym.) käytön laajeneminen. Hakumenetelmille tämä kehityssuunta tuo uusia vaatimuksia. Toisaalta www-aineiston inhimillinen arviointi lisääntyy, kun tiedonhakijat haluavat välttyä selaamasta sinänsä oikeaa aihealuetta käsitteleviä mutta heikkolaatuisia tekstejä Näyttää siis siltä, että sekä automaattisten hakuvälineiden että toimitetun koostemateriaalin käyttö on lisääntymässä.

Edellinen Seuraava Ylös