{"id":809,"date":"2015-10-12T15:44:36","date_gmt":"2015-10-12T12:44:36","guid":{"rendered":"http:\/\/www.folklore.ee\/dh\/?page_id=809"},"modified":"2015-10-13T01:21:06","modified_gmt":"2015-10-12T22:21:06","slug":"sirel","status":"publish","type":"page","link":"https:\/\/www.folklore.ee\/dh\/dhe2015\/sirel\/","title":{"rendered":"Terminology EXtraction and Text Analytics (TEXTA) t\u00f6\u00f6riistakomplekt"},"content":{"rendered":"<p style=\"text-align: right;\">Raul Sirel<br \/>\nTarkvara Tehnoloogia Arenduskeskus<\/p>\n<p style=\"text-align: left;\">Suurandmete ajastul on \u00fcha aktuaalsemaks muutunud andmekaeve ja -anal\u00fc\u00fctikaga seotud teemad. Kuna v\u00e4ga suur osa suurandmetest on vabatekstilised, r\u00e4\u00e4gitakse enam ka loomuliku keele t\u00f6\u00f6tlemisest (<em>natural language processing<\/em>) ja selle rakendamisest suurandmete anal\u00fc\u00fcsis. Vabatekstiliste suurandmete t\u00f6\u00f6tlemise ja anal\u00fc\u00fcsimise teevad aga keeruliseks mitu asjaolu:<\/p>\n<ul>\n<li>v\u00e4lja t\u00f6\u00f6tatud lahendused on enamasti keelespetsiifilised ning nende kohandamine teiste keelte jaoks tehniliselt keeruline v\u00f5i \u00fcldse v\u00f5imatu,<\/li>\n<li>olemasolevad loomuliku keele t\u00f6\u00f6tlemise vahendid on enamasti loodud \u00fcldkeelel kasutamiseks, mist\u00f5ttu ei ole need sobilikud erinevates allkeeltes v\u00f5i dialektides esitatud andmete anal\u00fc\u00fcsimiseks,<\/li>\n<li>puuduvad valdkondlikud leksikaalsed ressursid (s\u00f5nastikud, tesaurused), mille alusel andmeid anal\u00fc\u00fcsida,<\/li>\n<li>v\u00e4lja t\u00f6\u00f6tatud vahendid ei skaleeru piisavalt, et neid efektiivselt suurandmete anal\u00fc\u00fcsil kasutada.<\/li>\n<\/ul>\n<p>Nimetatud kitsaskohti silmas pidades olen loonud paindliku keeletehnoloogilise lahenduse, Terminology EXtraction and Text Analytics (TEXTA) nimelise t\u00f6\u00f6riistakomplekti, mille eesm\u00e4rk on v\u00f5imaldada (eestikeelsete) suurandmete eksploratiivset anal\u00fc\u00fcsi.<\/p>\n<p>Tarkvara v\u00f5imaldab tekstikorpustest ekstraheerida korpuses esindatud valdkonnale omast oskuss\u00f5navara, koostada selle alusel m\u00f5istep\u00f5hiseid terminoloogilisi ressursse, tuvastada tekstidokumentidest m\u00f5istetele viitavaid tekstifragmente ning visualiseerida tulemusi andmestikus leiduvate andmev\u00e4ljade l\u00f5ikes. Valdkondliku terminikasutuse kirjeldamiseks kasutatakse tarkvara koosseisus erinevaid juhendamata masin\u00f5ppe meetodeid, sh tehisneurov\u00f5rkudel p\u00f5hinevaid loomuliku keele vektormudeleid ning hierarhilise klasterdamise algoritmi.<\/p>\n<p style=\"text-align: left;\">TEXTA t\u00f6\u00f6riistakomplekt on valdkonnast s\u00f5ltumatu, mist\u00f5ttu saab seda kasutada erinevates (all)keeltes esitatud andmestike t\u00f6\u00f6tlemiseks. V\u00e4ljat\u00f6\u00f6tatud tarkvara on ka skaleeruv: selle robustsus v\u00f5imaldab reaalajalistes anal\u00fc\u00fcsides kasutada sadu miljoneid tekstidokumente.<\/p>\n","protected":false},"excerpt":{"rendered":"<p style=\"text-align: right;\">Raul Sirel Tarkvara Tehnoloogia Arenduskeskus<\/p>\n<p style=\"text-align: left;\">Suurandmete ajastul on \u00fcha aktuaalsemaks muutunud andmekaeve ja -anal\u00fc\u00fctikaga seotud teemad. Kuna v\u00e4ga suur osa suurandmetest on vabatekstilised, r\u00e4\u00e4gitakse enam ka loomuliku keele t\u00f6\u00f6tlemisest (natural language processing) ja selle rakendamisest suurandmete anal\u00fc\u00fcsis. Vabatekstiliste suurandmete t\u00f6\u00f6tlemise ja anal\u00fc\u00fcsimise teevad aga keeruliseks mitu asjaolu:<\/p>\n<p> v\u00e4lja t\u00f6\u00f6tatud lahendused on [&#8230;]<\/p>\n","protected":false},"author":3,"featured_media":0,"parent":749,"menu_order":21,"comment_status":"open","ping_status":"open","template":"","meta":[],"_links":{"self":[{"href":"https:\/\/www.folklore.ee\/dh\/wp-json\/wp\/v2\/pages\/809"}],"collection":[{"href":"https:\/\/www.folklore.ee\/dh\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/www.folklore.ee\/dh\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/www.folklore.ee\/dh\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.folklore.ee\/dh\/wp-json\/wp\/v2\/comments?post=809"}],"version-history":[{"count":3,"href":"https:\/\/www.folklore.ee\/dh\/wp-json\/wp\/v2\/pages\/809\/revisions"}],"predecessor-version":[{"id":867,"href":"https:\/\/www.folklore.ee\/dh\/wp-json\/wp\/v2\/pages\/809\/revisions\/867"}],"up":[{"embeddable":true,"href":"https:\/\/www.folklore.ee\/dh\/wp-json\/wp\/v2\/pages\/749"}],"wp:attachment":[{"href":"https:\/\/www.folklore.ee\/dh\/wp-json\/wp\/v2\/media?parent=809"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}