Setu pärimus Ello Kirsi kirjapanekus

Muistendite digiteerimisest andmebaasideni*

Liisa Vesik

Muistendid ja usunditeated väljendavad jutustajate seoseid igapäevaolustikuga, vahendavad nende maailmavaadet, on seotud uskumussüsteemiga ja edastavad neisse kätketud eetilisi norme. Need lood avavad omapärase vaate seostele inimese ja teda ümbritseva keskkonna vahel, räägivad asustusajaloost, kuid ennekõike inimesest endast ja tema fantaasiatest. Minevikku on jäänud tekke- ja seletusmuistendid ning enamik mütoloogiliste olenditega seotud traditsioonis, kuid jätkub muistendite jutustamine – nähtuste seletamine ja kompensatsiooni otsimine tegelikus elus puudu jäävale, üleloomulike kogemuste vahendamine, võimatu tegelikuks jutustamine. Muistendiuurimine kätkeb endas võimalusi jõuda põhjalike rahvaelu iseloomustuste ja sügavamate üldistusteni. Samal ajal sisaldab see traditsioon palju laialtlevinud motiive, mida käivitavad uskumused, eelarvamused ja stereotüübid on omased kõigile kultuuridele. Rahvuslikud muistendite tüübi- ja motiiviloendid (Marjatta Jauhiainen, Reidar Christiansen jt) ning rahvaliku kirjanduse üldtüpoloogia (Stith Thompson) toetavad ainestiku võrdlevat analüüsi ja rahvusvaheliste paralleelide leidmist, mida hõlbustab 1990. aastatel alanud rahvajuttude digitaliseerimine. Käesolev kirjutis annab ülevaate muistendite digitaliseerimisprojektist ja selle väljunditest.

Eesti muistendite ja teiste usundiliste juttude alaliikide olulised käsitlused ilmusid 1930. aastatel Oskar Looritsa sulest, enamasti Teise maailmasõja eel väljakujunenud rahvajututerminoloogia on mõne lisandusega tänaseni kasutusel. 1950.–1970. aastatel valmistati ette ja avaldati kolm köidet hiiu- ja vägilasmuistendeid, ühte muistendite alaliiki ammendavalt esitaval sarjal on Eduard Laugaste kirjutatud sissejuhatused ja lisatud motiiviindeksid. Ligikaudu samasse aega jääb muistendikartoteegi täiendamine uute konspektidega, osa muistendikonspektidest tüpologiseeris 1970. aastatel Ellen Liiv, lähtudes Antti Aarne ja Lauri Simonsuuri kataloogidest. Uutest teemadest alustati kodukäija-muistendite koondamist uurimistööks ja väljaandeks. Kavandatud akadeemiliste muistendiköidete, -tüpoloogia ja -monograafiate sari jäi aga soiku muude suuremahuliste ülesannete tõttu.

1990. aastate alguses alustati Eestis tänapäevamuistendite käsitlemisega, nt Mare Kõiva uuris laste õudusjutte – muistendi ja muinasjutu elemente sisaldavaid lugusid, samal ajal kirjutasid Eesti Keele Instituudi rahvausundi ja -juttude töörühmas klassikalistest kuradimuistendite monograafiat Ülo Valk ja aardepärimusest Mare Kalda.

1993. aastal alustatud muistendiprojekti ülesandeks oli õhutada jutu-uurimist, valmistada ette valitud teemade ja olenditega seotud tekstikorpused ja andmebaas uute monograafiliste uurimuste ja muistendiköidete ettevalmistamiseks. Digiteerimist ja tekstide süstematiseerimist aga toetada seminaride, esialgsete uurimistulemuste raportite ja lühemate üksikuurimustega (Kõiva 1996).1 Eesmärkide saavutamiseks oli vaja digiteerida ja korrastada:

  • Eesti arhiivides leiduv vastavasisuline rahvajutuaines ja sellega seotud uskumustik;
  • teemakohased varasemad trükised, liita nende elektroonilised koopiad märgendatult tekstikorpusesse, kuid avaldada paralleelselt ka terviklike e-raamatutena;2
  • translitereerida audiovisuaalne ainestik;
  • luua ainesest e-indeksid ja on-line-andmebaas;3
  • lõpptulemusena publitseerida akadeemilised uurimused koos on-line- ja CD-DA formaadis väljunditega.

Esmajärjekorras digiteerimiseks (materjali hulga tõttu loobuti kogu teabe ühekorraga töötlemisest) valiti mütoloogiliste haigustega seotud (maa-alused, halltõbi, lendva, katk) muistendid ja haldjapärimus (mets-, vete- ja koduhaldjad). Mõlema temaatilise rühma valikul oli määrav, et neid jutte on jäädvustatud hinnanguliselt keskmisel arvul, tegemist on minevikulise pärimusega – materjali hüppeline juurdekasv ettevalmistustööde ajal oli välistatud - ja eeldatavad tugikorpused (rahvameditsiin, haldjate elusfääriga seotud pärimus) on samuti keskmise suurusega. Toomas Sildvee alustatud ja Renata Sõukandi jätkatud etnobotaanika andmebaas HERBA oli konkreetne tugi mütoloogiliste haiguste teemale – seos erinevate ravivõtete ja taimenimedega osutab haiguse aktuaalsusele kogukonnas.

Siiski lisandus hiljem (2000) haldjate elusfääriga seotud lugude (puud/metsad ja veekogud) ning uurijakattega aarde- ja libahundipärimuse digiteerimine.

Umbes poolte valikteemade kohta on lisaks muistenditele üles kirjutatud uskumusteateid, narratiivilaadseid kommunikatsiooniakte, arheoloogilisi ja ajaloolisi teateid, rahvaetümoloogiaid, maagilisi ja utilitaarseid tarbetekste jmt, mis on liidetud valmivasse tekstikorpusesse – valiku aluseks on seega mitte vorm, vaid sisu ja temaatika. Teemakohase trükise digiteerimist alustati akadeemilistest hiiu- ja vägilasmuistendite köidetest, mis olid masintuvastuseks sobivamas vormis.

Projekti kulgemise võib jagada kolmeks etapiks, mida iseloomustavad erinevad tehnilised võimalused ja erinev taktika. 1993. aastal alustatud digiteerimine päädis andmebaasi Rehepapp avamisega 2005. aastal.

Projekti kulgemine

Praegu, kui vastavate teemade jaoks digiteerimisnimestike koostamine on lõpujärgus, on sobiv teha tagasivaade senisele tööle.

Muistendite ja usunditeadete erijooneks on asjaolu, et neist on vähe masinkirjakoopiaid ehk siis tekstituvastuse kaudu saab integreerida vähe andmeid. Temaatilised jutukartoteegid sisaldavad enamasti konspekte, neisse täienduste lisamine on olnud juhuslik, aga usunditeadete sihipärane kopeerimine lõppes juba 1930. aastatel, mistõttu kumbki kartoteekidesüsteem ei hõlma käsikirjades leiduva ainestiku esinemust. Metaandmestikku sisaldavates üldregistrites on liigiandmed avatud erineva põhjalikkusega, usunditeateid on hakatud avama alles täiesti 1960. aastate lõpus, toonaste noorte folkloristide Arvo Krikmanni ja hiljem Mall Hiiemäe uuendusena. Eelloetletud põhjustel tuleb arhiivist vajalike andmete leidmiseks ja sisestamiseks lugeda käsikirjad de visu üldregistritega võrreldes läbi. Täpsustamist vajavad ka metaandmed, mille suhtes on nõuded tänaseks teistsugused kui teemakartoteekide rajamise ja üldregistrite koostamise ajal.

Projekti alguses oli digiteerimine piiratud tehniliste võimaluste poolt: kümnete folkloristide kasutuses oli ainult üks oma arvuti, 1994. aastal juba kaks arvutit, kuid see tingis ikkagi lühiaegse tööperioodi kasutusgraafiku alusel. Arvuti juurde pääses lihtsamalt hilisõhtul pärast ametlikku tööaega, enamasti töötati südaööni. Aastatel 1995–1996 sisustati Eesti Teadusfondi grandi 676 toel projektis osalejatele arvutitöökohad, paralleelselt loodi folkloristide arvutivõrk, serverite süsteem ja veebilehed. Sellest ajast alates oli võimalik optimeerida arvutitööd ja alustada käsikirjade kõrval varasemate trükiste digiteerimist. Seda soodustas ka paremate skannerite ja tekstituvastusprogrammide jõudus arenemine.

1. Üksikute teemade kaupa digiteerimine

Uute muistendiköidete ettevalmistamist alustati kogu Euroopat mõjutanud katkuhaiguse kajastustest folklooris. Selle ülesande võttis üliõpilane Reet Hiiemäe, keda sisestamisel abistasid hiljem lühemalt osaliskoormusega üliõpilased Hannes Vetik (1993) ja Signe Susi (1995). Tema alustas hiljem paralleelselt lendvapärimuse digiteerimist. Kui katkupärimuse digiteerimisel oli aluseks Eduard Laugastele koostatud esialgne arhiivitekstide ja kirjanduse nimestik, siis lendvapärimuse digiteerimiseks tuli kogu arhiiv registrite toel läbi lugeda.

Tulemitena valmisid 1996. aasta lõpuks katkumuistendite populaarne väljaanne, akadeemilise köite käsikiri ja teemakohased lühiuurimused. Reet Hiiemäe koostatud Eesti katkupärimus toimetati Eesti Teadusfondi toel (grant 2747) ja avaldati Eesti Kultuurkapitali rahastusel aasta hiljem. Katkupärimuse köide sisaldab teaduslikku sissejuhatust, registreid ning resümeesid inglise, saksa ja vene keeles (Hiiemäe 1997). Digiteeriti veel erinevate hoiuasutuste lendvapärimus, litereeriti lendva- ja õudusjutud, järgmise projekti jaoks aardejutud; valmis õudusjuttude täistekstidega tüübikartoteek ja artikleid. Viimasel aastal olid ettevalmistustöödel abiks keeletoimetaja Luule Krikmann ja arvutihaldur-programmeerija Sander Vesik.

2. VTK-periood

Üksikteemade kaupa arhiividest tekstide sisestamine kui väheperspektiivne asendus arvutivõrgu arenedes 1997. aasta teisel poolel rühmatööga. Igal projektis osalejal oli oma teema, kuid ta otsis ja digiteeris arhiivist materjali ka teistele, korraga töötati kõigi mütoloogiliste haiguste ja haldjatega seotud teemakorpuste loomisega, kuid sisestatu kollatsioneerimine ja redigeerimine jäeti järgmiste ühistöö etappide ajaks.

Alustati ühest suuremast käsikirjalisest kollektsioonist ERA, mille kogumisprioriteetide hulgas olid rahvajutud ja mütoloogia, kirjasaatjate kaastööde suhtes valitsesid kindlad nõuded ja kaastööliste kirjutamisvilumus oli ühtlasemal tasemel. Sisestamisel tekstid märgendati, metaandmed olid standardiseeritud.

1997. aasta jooksul valiti konkursiga muistendiprojekti jätkama üliõpilased Piret Paal, Kristel Kivari ja Eve Ehastu. Mõnda aega jätkas koostööd Viljandi Kultuuriakadeemiasse raamatukogundust õppima suundunud Signe Susi, kes loovutas tööjärje elektrooniliste väljaannete osalise koormusega assistendile Merje Susile. Haldjateemadega alustasid Mare Kõiva ja Aino Laagus (seoses õppetööga Rootsis ja hiljem Soomes tegutses ta projektiliikmete poolt ettevalmistatud digiteeringuga), Reet Hiiemäe kirjutas katkupärimuse põhjal väitekirja.

Uue meeskonna tuumast kujunes kiiresti rõõmsameelne VTK-rühm ehk Väike Töökas Kollektiiv. Sagedastest aruteludest kujunes regulaarne iganädalane VTK-seminar (korraldaja Piret Paal), kus tutvustati teoreetilisi seisukohti ja artikleid, katsetati oma ainesel erinevaid metoodikaid, esitati uurimisraporteid. Seminariks valminud tõlked avaldati veebis (vt Paal & Hiiemäe 1999–2004). Seminari on hiljem koordineerinud Reet Hiiemäe, Liisa Vesik, Aimar Ventsel, käesoleval ajal juhib seda Mare Kalda. Arhiivitekstide kõrval alustati laiemalt rahvajutukogumike digitaliseerimise, indekseerimise ja e-raamatute ettevalmistamisega, mille juures abistasid märkimisväärselt Piret Paal ja Maris Müürsepp, samuti Saamuel Vesik, Tuul ja Meel Sarv jpt.

Olulisemateks tulemiteks kujunesid Tartu Ülikoolis kaitstud uurimistööd: Reet Hiiemäe bakalaureuse- ja magistritöö “Eesti katkupärimus Lääne-Euroopa katkutraditsiooni piirimail” (1999), Piret Paali ja Kristel Kivari bakalaureusetööd ning Piret Paali 2004. aastal kaitstud magistritöö “Eesti ja Soome-Karjala halltõvepärimus: arhiivitekstidel põhinev analüüs” (vt http://www.utlib.ee/ekollekt/diss/mag/2004/b16954026/paal.pdf).

3. Jagatud ülesannetega digiteerimine

Juba enne VTK-meeskonna välisõppe- ja lapsepuhkuste perioodi tekkis pakiline vajadus muuta digiteerimise stiili, kuivõrd uurimistööks ja andmebaasi avamiseks oli vaja kiiremini jõuda järgmiste etappide väljundini. Survet avaldas projektipõhine rahastus ja et mitte loobuda oma algsest sihist ehk kollatsioneeritud ja redigeeritud tekstide korpusest, tuli asuda paralleelselt järgmiste tööetappide juurde. Sellega seoses kerkis vajadus metaandmete kiire täpsustamise ja sellekohaste abivahendite järele. Tõusetus ka vaidlus tekstoloogia ja redigeerimise problemaatika üle, mis tõi esile kaks erinevat suunda: andmebaas kui digitaalne turvakoopia ja senist akadeemilise editeerimise tava jätkav ortograafiliselt redigeeritud tekstidega andmebaas, millist esindas projektiga loodav muistendite korpus. Kuivõrd väljundiks oli kavandatud avalikult kasutatav andmebaas, siis oli tekstide korrastamine hädavajalik.

2000. aastast

  • alustati digiteeritud ainestiku kontrollimise, paranduste sisseviimise ja redigeerimisega. Selle kõrval jätkati vajalike tekstide otsimist ja sisestamist käsikirjadest. Erinevaid etappe teostasid erinevad inimesed, kuid sisestamistempo langes;
  • jätkus tekstide koondamine helikandjatelt ja videosalvestustelt, nende litereerimine ja redigeerimine;
  • jätkus vanemat rahvajuttu sisaldava trükisõna skaneerimine ja tekstituvastuse kaudu kätesaadavaks muutmine, samuti vastava ainese indekseerimine ja märgendamine andmebaasi tarbeks;
  • arendati andmebaasi spetsiifilist tarkvara ja rakendusi.

Kohaandmete ühtlustamiseks hakati kasutama Eesti Keele Instituudi kohanimeandmebaasi KNAB ja kogujanimede täpsustamiseks Rein Saukase koostatud nimestikku.

Jaotatud ülesannetega digiteerimine kindla suurusega rühma, kuid muutuvate abilistega tähendab, et seniste üheste ülesannete asemel oli kaks või kolm erinevat ülesannet,4 võtmeküsimuseks on järjekindel tööde koordineerimine, muudest probleemidest nimetagem siinkohal veel:

  • erioskusi nõudva tehnilise töö suure mahu ja assisteerijate vähesuse tõttu on uurijad ja väljundi loojad hõivatud ajamahukate tehniliste eeltöödega;
  • 19. sajandi käsikirjade uuurijatele sulgemine tõttu digiteeritakse 2002. aastast mikrofilmide vahendusel, mis aeglustab tööd 50–70% võrra;
  • muuseumi ruumides töötav meeskond teeb tehnilist eeltööd kõigi projektiliikmete heaks, kuid väljaspool folkloristika osakonda ja eriti väljaspool Eesti Kirjandusmuuseumi töötavatel partneritel on keeruline osaleda ettevalmistustöödes, nende motiveerimiseks ei jätku ressursse;
  • trükiste digiteerimise tempo on olnud aeglasem kui käsikirjade digiteerimise tempost, sest töid on teostatud eeskätt Eesti Kultuurkapitali stipendiumitega.

Ka vajavad temaatilised tekstikorpused andmebaasi konverteerimise eel või järel uurijapoolset lisamärgendamist.

Redigeeritud ja liigendatud on kahe järgmise muistendiköite ainestik, digiteeritud ainestikust on kollatsioneeritud, redigeeritud ja liidetud andmebaasi Rehepapp umbkaudu kolmandik tekstidest ehk kolmveerand ERA, kolmandik Eiseni, RKMi, vanemate käsikirjaliste kogude digiteeritud tekstidest. Uurimistöö tulemustest nimetagem Mare Kalda aardepärimust käsitlevat magistritööd “Jutud peidetud varandustest: tõsieluteade, muistend, muinasjutt” (Tartu Ülikool 2001), libahundi teemal kaitses väitekirja Merili Metsvahi.

Perspektiivid

Lähemate aastate peaülesanne on jõuda ettevalmistatud tekstide käsikirjadega võrdlemise ja redigeerimisega sisestamisele järele, et saaks keskenduda täistekstikorpuste analüüsile ja muudele väljunditele. Sellele aitab kaasa 2005. aastal valminud andmebaas Rehepapp, kuhu oli 2005. aasta suveks liidetud üle 10 000 teksti (Vesik 2006), 2006. aastal on lisandumas umbes sama palju tekste. Andmebaasis on konverteeritud, kontrollitud ja ortograafiliselt redigeeritud TXT-failid, mille metaandmestik sisaldab teavet ka digiteerimise ja trükistes avaldamise kohta, tüpoloogilisi ja struktuuri puudutavaid kommentaare ja muud asjakohast. Komplitseerituma metaandmestiku ja märkuste lisamine on konkreetse teema uurija otsustada ja ootab edasist arendamist.

Päevakorral ongi temaatiliste alamandmebaaside loomine ja täiendavate uurijaliideste programmeerimine, et hõlbustada folkloristi tööd, laiemale kasutajaskonnale on plaanis kujundada andmebaasi toetav portaal. Aktualiseerunud on ka infotehnoloogiliste analüüsiprogrammide (tekstoloogiline võrdlus, automaatne tüpologiseerimine jm) arendamine.

Valikdigiteerimise lõpetamise järel tuleks alustada frontaalse muistendite ja usunditekstide digiteerimisega, hõlbustamaks tööd sisuldasa keerukate tekstisülemitega. Ka käsikirjalistest kogudest valmistatud mikrofilmide täielik digiteerimine, eriti 19. sajandit puudutavas osas säästaks aega sisuliseks tüpologiseerimiseks ja uurimistööks. Seni on puudunud võimalused nii mahukate tööde läbiviimiseks, kuid pikemas perspektiivis tasub see panustamist.

Muistendiköidete uurimuslik osa ja tekstikorpus on kavas avaldada ka mõnes rahvusvahelise teaduskeelena kasutatavas võõrkeeles, et integreerida eesti ainestik üleilmsesse kasutusse.

Kolm kõrgkooli lõputööd, kolm magistritööd, akadeemiline köide, artiklid, andmebaas, seminaride seeria – ja kaksteist last. Kas pole hea tulem?

Kommentaarid

* Artikkel on avaldatud kogumikus “Võim & kultuur” 2. Koostanud Mare Kõiva. Tartu: Eesti Kirjandusmuuseum 2006.

1 Muistendite ja usunditekstide ettevalmistamine on seotud Mare Kõiva Eesti Teadusfondi grandiprojektidega nr 676 (1993–1996) ja 2747 (1997 – 3 kuud) ning riiklike sihtprogrammide Eesti keel ja kultuur (1997–2003) ning Eesti keel ja rahvuslik mälu (2004–2008) projektiga Eesti muistendid. Ülevaate kirjutamisel on kasutatud projektide taotlusi ja aruandeid. Käsikirjade digiteerimist, e-raamatute valmistamist ja andmebaasi arendamist on toetanud Eesti Kultuurkapital, toetust saadi ka Avatud Eesti Fondist. Tekstide kontrollimisel on abistanud vabatahtlikud MTÜ Eesti Folkloori Instituudist, digiteerimisel aga paljud vabatahtlikud, samuti Tartu Ülikooli üliõpilased – Tiiu Jaago ja Mare Kõiva loengukursuste kuulajad.

2 Peaaegu sajast e- ja virtuaalsest raamatust on paljud seotud muistendiprojektiga: hiiu- ja vägilasmuistendite seeria (http://www.folklore.ee/rl/folkte/myte/), Matthias Johannes Eiseni rahvaraamatud (http://www.folklore.ee/rl/pubte/ee/vanad/eisen/), Ferdinand Johann Wiedemanni Aus dem inneren und äusseren Leben der Ehsten (http://www.folklore.ee/rl/pubte/ee/vanad/aiale/), Johann Forseliuse Eestlaste ebausukombed, viisid ja harjumused (http://www.folklore.ee/pubte/forselius/est_index.html), Oskar Looritsa Endis-Eesti elu-olu köited (http://www.folklore.ee/rl/pubte/ee/eluolu/), Pille Kippari antoloogia Loomad linnud ja putukad (http://www.folklore.ee/pubte/muina/loomad/), Vaina Mälgu, Ingrid Sarve ja Richard Viidalepa muinasjutuantoloogia (http://www.folklore.ee/pubte/muina/antoloogia/) jm.

3 Rehepapp ehk rahvausundi ja muistendite andmebaas (vt http://www.folklore.ee/rehepapp/).

4 Otsimise ehk vajalike tekstide nimestike, metaandmete ja märksõnade koostajateks olid Mare Kõiva ja Reet Hiiemäe, hiljem sai see Katre Kikase ülesandeks. Aastast 2001 on digiteerinud Eva-Kait Kärblane, Kultuurkapitali rahastusel veel Merje Susi, Salle Kajak ja Pille Parder. Kollatsioneerinud on Luule Krikmann, Mare Kalda ja Mare Kõiva, lühemat aega Kultuurkapitali jm rahastusel Anne Kaaber, Kadi Sarv jt. Redigeerinud on peamiselt Luule Krikmann, Mare Kalda, Mare Kõiva. Eesti Keele Instituudi murde- ja rahvaluulekogust digiteerisid haldjamuistendeid Liisa Vesik, Maris Kuperjanov ja Merje Susi. E-väljaannete ettevalmistamisel abistasid Maris Müürsepp, Piret ja Birgit Paal, Tuul, Kail ja Pihel Sarv, Saamuel Vesik jt. Arvutivõrgu ja serveri rajamise raskust kandis Sander Vesik, algul vabatahtliku abilisena, 1996. aastast koosseisulisena.
piret, reet, mare kalda, piret – 2, eve 3, kristel 2, signe 2, reet 1, maris 2.

Kirjandus

Hiiemäe, Reet 1997. Eesti katkupärimus. Monumenta Estoniae antiquae 2: Eesti muistendid. Mütoloogilised haigused 1. Tallinn: Eesti Keele Instituut.

Kõiva, Mare 1997. Rahvausundi ja -juttude uurimise töörühm 1990–1996. Viikberg, Jüri (toim). Eesti filoloogia poolsajand Teaduste Akadeemias. Tallinn: Eesti Keele Instituut, lk 93–121.

Paal, Piret & Hiiemäe, Reet (koost) 1999–2004. VTK-raamat: Võrguteavik. Tartu: Eesti Kirjandusmuuseum (http://www.folklore.ee/seminar/ – 1. august 2006).

Vesik, Liisa 2006. The Narrative Database “Rehepapp” and its Application to the Example of lendva-Tradition. Folklore: An Electronic Journal of Folklore. Ilmumas.