Edellinen Seuraava Ylös

Kaliforniasta Indianaan - opintomatkalla USA:ssa

Tuija Sonkkila


Tutustuin viime kesänä kahden viikon ajan OPM:n Tietohuollon matka-apurahan turvin neljään kohteeseen USA:ssa. Kohteet sijaitsivat Kalifornian, Virginian, Illinoisin ja Indianan osavaltioissa ja ne liittyivät yliopistojen elektronisen julkaisemisen hankkeisiin sekä digitaalisen kirjaston tutkimukseen. Paitsi hankkeista olin kiinnostunut myös niissä syntyneistä yhteistyön muodoista kirjaston edustajien ja tietojenkäsittelyn ammattilaisten välillä.


Tutustumiskohteet olivat aikajärjestyksessä seuraavat: Network Computer Science Technical Report Library (NCSTRL) -projekti (Stanford University, Mathematical and Computer Science Library); Electronic Text Center (University of Virginia, Alderman Library, Charlottesville); Digital Library Initiative, University of Illinois, Urbana-Champaign; INforum (University of Indiana, Bloomington). Yksityiskohtaisemmat kuvaukset vierailukohteista ja hankkeissa käytettävistä tekniikoista löytyvät web-osoitteesta <URL:http://www.hut.fi/~sonkkila/papers/usa96.html.

NCSTRL - tietojenkäsittelytieteen raportteja Webissä

NCSTRL (lausutaan "ancestral") on hajautettu verkkopalvelu, jossa on mukana tietojenkäsittelytieteen laitoksia ja laboratorioita eri puolilta maailmaa. Palvelu sisältää siinä mukana olevien tahojen paikallisesti, omille koneilleen, tallentamia tutkimusraportteja. NCSTRL on avoin palvelu kaikille internetin käyttäjille, ja se näyttää käyttäjälle yhdeltä suurelta, yhtenäiseltä tekstiarkistolta. Haku tehdään web- lomakkeella ja NCSTRL:n keskitetty hakupalvelin etsii haun toteuttamien raporttien bibliografiset tiedot. Sen jälkeen raportit voidaan tulostaa ruudulle ja/tai kirjoittimelle. Hanketta esitteli LTKK:n kirjaston informaatikolle Marja Talikalle ja minulle kirjastonhoitaja Rebecca Lasher.

NCSTRL:ssä on tällä hetkellä mukana useita kymmeniä organisaatioita - "lähiaikoina on tullut mukaan laitoksia erityisesti Euroopasta", Lasher totesi - ja raportteja on yhteensä runsaat 10.000. "Kaikkiin mahdollisiin julkaisuihin pyydetään julkaisulupa tekijältä, mutta kaikki eivät ole sitä antaneet", kertoi Lasher ja näytti, minkälaisella lomakkeella tekijä/t suostuvat antamaan tuotteensa NCSTRL:ään. Raporttien lisäksi NCSTRL:ssä on mukana mm. Stanfordista myös väitöskirjoja. Lasher piti niitä kuitenkin liian isoina tiedostoina tähän palveluun ja hän arvelikin niistä luovuttavan. "Isoin pulma tällä hetkellä on mielestäni se, että hajautettu palvelinrakenne ontuu, mutta miksi, siitä ei käyttäjä saa mitään tietoa", Lasher kertoi ja demonstroi asiaa tekemällä NCSTRL-haun. Haku palautti pitkän listan, jossa kerrottiin todella varsin ylimalkaisesti, mitkä palvelimet eivät vastanneet.

Electronic Text Center

Vuosikymmenen alku merkitsi alkua myös elektroniselle julkaisemiselle humanistisissa tieteissä. "On kiintoisaa olla paitsi tiedon kuluttaja myös tuottaja", muotoili David Seaman, Virginian yliopiston Alderman-kirjastossa sijaitsevan Electronic Text Centerin koordinaattori. Electronic Text Center lähti vuonna 1992 kehittämään toimintaansa kokotekstitietokantojen pohjalta ja nimenomaan niin, että tietokannat olivat paikallisia. "CD-ROMit ovat aikaa vieviä kapineita", valitteli Seaman,"hakuohjelmat ovat kaikki erilaisia ja kaiken lisäksi asennus ja käyttö on epäluotettavaa."

Keskus saa rahoituksensa Alderman-kirjastosta. Seaman tähdensi sitä, että keskus mielletään kirjaston osaksi. "Alusta asti pyrin juuri tähän", hän kertoi. "Tämä on PR:ää sekä kirjastolle että keskukselle. Matkustan paljon esittelemässä keskuksen toimintaa, mutta silti tämä on ensi sijassa paikallinen palvelu."

Keskus harjoittaa elektronista julkaisua sekä itsenäisesti että yhteistyössä muiden tahojen kanssa. Ilmaiseen web-jakeluun valitaan tekstejä, joiden tekijänoikeus on umpeutunut. Näiden vapaasti käytettävien tekstien lisäksi keskus julkaisee tekstejä myös rajoitettuun paikalliskäyttöön.

Electronic Text Center ottaa vastaan tekstejä elektronisessa muodossa (esim. WP- tiedostoina) useasta eri yliopistosta kuten Pittsburghista, jonka kanssa on laajempaakin yhteistyötä. Tekstien muokkaus aloitetaan niin, että etsitään esille dokumentin alkuperäinen, painettu versio. Teksti luetteloidaan tästä painetusta versiosta ja jos se sisältää kuvia, ne skannataan. Sen jälkeen elektroninen teksti varustetaan Text Encoding Initiativen (TEI) mukaisilla SGML-kenttätunnisteilla. Bibliografinen tieto tallennetaan TEI-otsikkoon ja tieto siirretään lisäksi kirjaston NOTIS-järjestelmään MARC-tietueeksi, johon lisätään tarvittavat kentät.

Keskus on tehnyt yhteistyötä erityisesti Oxford University Pressin kanssa, ad-hoc -periaatteella sittemmin myös muiden kustantajien. Kustantajat eivät aikaisemmin olleet kovin kiinnostuneita SGML:stä, Seaman kertoi, mutta nyt mielipiteet ovat muuttuneet. "Raha tekee tehtävänsä", kuten hän muotoili. Keskuksen elektronisessa arkistossa on myös pienempiä erikoiskokoelmia kuten esim. paikkakunnan sanomalehtien vuosikertoja, luentomateriaalia ja kirjeitä.

Keskuksen www-sivujen käyttötilasto osoittaa, että kuukausittain siellä käydään noin 400.000 kertaa. Alle 10% käyttäjistä on ulkopuolelta yliopistomaailman. Vilkas www-käyttö tarkoittaa paitsi hyvää PR:ää keskukselle myös sitä, että www-palvelinta on päivitettävä jatkuvasti.

Digitaalisen kirjaston projekti - Grainger Engineering Library

Illinoisin (Urbana-Champaign) yliopiston Grainger Engineering Libraryssa on käynnissä yksi NSF/ARPA/NASA:n rahoittamista digitaalisen kirjaston projekteista. Keskeinen tutkimuskohde on teknisten alojen SGML-koodattujen aikakauslehtiartikkelien kokotekstitietokanta. Aineisto saadaan SGML-muodossa kuudelta projektikumppanina toimivalta kustantajalta.

Tällä hetkellä tietokanta koostuu viidestä lehdestä. Tavoite oli ollut korkeammalla, mutta työvoimapula ja odotettua hankalampi prosessointityö on hidastanut aineiston määrän kasvua. SGML-prosessointityötä on tehnyt vajaan parin vuoden aikana 1,5 ihmistä ja nyt materiaalia on n . 4000 artikkelia. Testiaineisto saatiin kuntoon vuoden 1996 helmikuussa. Projektin alussa uskottiin optimistisesti, että aineisto voitaisiin kohtuullisen helposti siirtää sellaisenaan omaan tietokantaan. Kävi kuitenkin niin, että kustantajien aineisto vaihteli rakennekuvaukseltaan eli DTD:ltään varsin paljon, mikä vaati toimenpiteitä aineiston jälkikäsittelyssä. Myös toimitukset olivat hitaita. UIUC:in oli tehtävä jokaisen kustantajan materiaalia varten oma normalisointitaulukko, jossa kerrottiin, mitkä tagit "vieraassa" aineistossa vastasivat UIUC:ssa kanoniseksi DTD:ksi valitun artikkelistandardin, ISO 12083:n tageja.

Toistaiseksi hankkeen tulokset ovat käytettävissä vain Graingerissa, mutta web-liittymä on tulossa vuoden lopulla, jolloin sen käyttö laajenee kampukselle. Hankkeen teknisestä osuudesta kirjastossa vastaava Tim Cole sanoi että jos hanke aloitettaisiin nyt alusta, hän valitsisi edelleenkin ilman muuta tekniseksi ratkaisuksi nytkin SGML:n. "Mutta vain jos on siihen olisi tarpeeksi rahaa", hän painotti. Paljon riippuu siitä, minkälaista indeksointi- ja hakutasoa halutaan, Cole mainitsi. Eräs mahdollisuus on käyttää indeksointi- ja esityskielenä HTML:ää, mutta silloin on määriteltävä filtterit, joilla ylimääräiset, HTML:lle vieraat tagit eliminoidaan. Silloin joudutaan kuitenkin ongelmiin esim. matemaattisten kaavojen kanssa.

Tulevaisuudessa UIUC:in tavoitteena on se, että kirjasto ei itse varastoisi kustantajien artikkeleita, vaan yhtenäisellä käyttöliittymällä päästäisiin kustantajien omiin, standardia noudattaviin SGML- arkistoihin. Toistaiseksi kustantajat tuottavat SGML:ää vain kustannusprosessin sivutuotteena, eivät lopputuotteena, ja on ollutkin havaittavissa, että kustantajat tavallaan odottavat UIUC:n tekevän "raa'an" tutkimustyön heidän puolestaan.

Projektin yhteiskunnallisia vaikutuksia tutkiva ryhmä on käyttänyt kohderyhmänä paikallisen Beckmann- instituutin suhteellisuusteoreetikkoja. Tämän kaikkien DLI- projektien yhteisen, 'sociology'-nimellä kulkevan projektikokonaisuuden vetäjä on Ann Bishop Illinoisin yliopiston kirjasto- ja informaatiotieteen jatkokoulutusyksiköstä (GSLIS). Hän kertoi, miten käyttäjäkyselyissä on jo nyt saatu varsin mielenkiintoisia tuloksia. Fyysikot lähtevät kirjastoon vain erittäin harvoissa tapauksissa, hän kertoi. Kirjasto on tietynlainen "last resort", riippumatta siitä, että se sijaitsee lähellä, samalla kampuksella. Muita, tärkeämpiä tiedonhankintatapoja ovat: Los Alamosin preprint-arkisto, paikalliset tiedostopalvelimet ja email-arkistot, omalla työpöydällä oleva lähdemateriaali, työkaverit, konferenssiraportit.

"Tiedon etsijöillä on myös varsin erilaisia tapoja lähestyä tietolähdettä", Bishop kertoi."Jotkut käyvät läpi pelkän bibliografian, toiset taas abstraktin, jotkut taas ovat kiinnostuneita pelkästään grafiikasta ja kuvamateriaalista." Tällaiseen eriytyneeseen tiedonhakutapaan on SGML omiaan, sillä sen avulla käyttäjä voi kohdistaa kyselyn tiettyihin dokumentin osiin.

Eräs Illinoisin digitaalisen kirjaston mielenkiintoisista osaprojektista tutkii terminologiaa. Tavoitteena on tuottaa semanttisia listoja, jonka avulla tiedonhaun käyttöön saataisiin samaa ilmiötä kuvaavia termejä tekniikan eri aloilta. Tästä tavasta käytetään englanninkielistä nimitystä "vocabulary switching". Testiaineistona on käytetty Inspec- ja Compendex- abstraktitietokantoja. Hengästyttävän suurilla NCSA:n supertietokoneajoilla on saatu muodostettua testiaineistosta käsitealueita.

Edellinen Seuraava Ylös