Terminology EXtraction and Text Analytics (TEXTA) tööriistakomplekt

Raul Sirel
Tarkvara Tehnoloogia Arenduskeskus

Suurandmete ajastul on üha aktuaalsemaks muutunud andmekaeve ja -analüütikaga seotud teemad. Kuna väga suur osa suurandmetest on vabatekstilised, räägitakse enam ka loomuliku keele töötlemisest (natural language processing) ja selle rakendamisest suurandmete analüüsis. Vabatekstiliste suurandmete töötlemise ja analüüsimise teevad aga keeruliseks mitu asjaolu:

  • välja töötatud lahendused on enamasti keelespetsiifilised ning nende kohandamine teiste keelte jaoks tehniliselt keeruline või üldse võimatu,
  • olemasolevad loomuliku keele töötlemise vahendid on enamasti loodud üldkeelel kasutamiseks, mistõttu ei ole need sobilikud erinevates allkeeltes või dialektides esitatud andmete analüüsimiseks,
  • puuduvad valdkondlikud leksikaalsed ressursid (sõnastikud, tesaurused), mille alusel andmeid analüüsida,
  • välja töötatud vahendid ei skaleeru piisavalt, et neid efektiivselt suurandmete analüüsil kasutada.

Nimetatud kitsaskohti silmas pidades olen loonud paindliku keeletehnoloogilise lahenduse, Terminology EXtraction and Text Analytics (TEXTA) nimelise tööriistakomplekti, mille eesmärk on võimaldada (eestikeelsete) suurandmete eksploratiivset analüüsi.

Tarkvara võimaldab tekstikorpustest ekstraheerida korpuses esindatud valdkonnale omast oskussõnavara, koostada selle alusel mõistepõhiseid terminoloogilisi ressursse, tuvastada tekstidokumentidest mõistetele viitavaid tekstifragmente ning visualiseerida tulemusi andmestikus leiduvate andmeväljade lõikes. Valdkondliku terminikasutuse kirjeldamiseks kasutatakse tarkvara koosseisus erinevaid juhendamata masinõppe meetodeid, sh tehisneurovõrkudel põhinevaid loomuliku keele vektormudeleid ning hierarhilise klasterdamise algoritmi.

TEXTA tööriistakomplekt on valdkonnast sõltumatu, mistõttu saab seda kasutada erinevates (all)keeltes esitatud andmestike töötlemiseks. Väljatöötatud tarkvara on ka skaleeruv: selle robustsus võimaldab reaalajalistes analüüsides kasutada sadu miljoneid tekstidokumente.