Eesti kõnekäändude andmebaas poolel teel

Katre Õim
EKM FO teadur, TÜ doktorant

Eesti kõnekäändude ja fraaside tüpologiseerimist alustati 1994. a ja üldjoontes jõuti sellega lõpule 2000. a. Paberkartoteegis on kõik tekstid jagatud tüüpidesse, mis omakorda on varustatud märksõnaga. Tüübipeaks on fraseologismi prototüüpseim, tuntuim sõnastusvorm — selle järgi on nimetatud ka kõnekäänutüüp. Märksõnaks on üldiselt tüübipea esimene täistähenduslik sõna. Info leidmine sellest kartoteegist on võimalik ainult lähtuvalt tüpoloogiast. Erinevate tüpoloogiaväliste nähtuste (nt sõnastusvormide struktuur ja tähendus, üksiksõna v sõnaühendi esinemine tekstides, tekstide üleskirjutusaeg ja -koht jne) jälgimine eeldab aga kogu materjali käsitsi läbi vaatamist.

Kõnekäändude elektroonilise andmebaasi loomist alustati 1998. a. Selle põhieesmärgiks ja eeliseks paberkartoteegi ees on igasuguse, s.o mitte ainult tüpoloogilise, informatsiooni saamine etteantud teemal terve materjali lõikes. Andmebaasi saab peatselt kasutada aadressil http://193.40.113.62. Loodud on esialgne rakendustarkvara, mille põhifunktsioonid on andmete väljastus ning andmete lisamine, muutmine ja eemaldamine reaalajas. Ammendava ja objektiivse info saamist andmebaasist takistab tekstide vormistuse kvaliteet (ortograafiavead, murdepärasused), arhailine keelematerjal jms. Lahenduse mõnedele probleemidele tooks näiteks see, kui esitada igas kirjes teksti originaalkuju kõrval ka kirjakeelne vorm või jagada väljendid üksiksõnadeks, moodustada nende põhjal n-ö uus märksõnasüsteem ja varustada märksõnad morfoloogilise indeksiga. Viimane võimalus tagaks päringute sõltumatuse sõnade morfoloogilisest vormist, samuti lisaks see andmebaasi olulist grammatilist teavet.

tagasi