Kas yra tekstynas? Ar yra kaupiami gestų kalbos tekstynai? Ar jie reikalingi? Kaip jie atrodo?

Kas yra tekstynas

Tekstynas – tai tam tikros kalbos tekstų sankaupa, kuria remiantis atliekami kalbos tyrimai. Šiais laikais naudojami tik elektroniniai tekstynai, leidžiantys greitai rasti visus bet kokio žodžio, žodžių junginio ar kito kalbos elemento vartojimo atvejus tuose tekstuose, apskaičiuoti žodžių arba žodžių junginių vartojimo dažnumą ir gauti kitus duomenis kompiuteriu, kitaip tariant, ieško ir skaičiuoja ne žmogus, o kompiuteris, o kalbininkai tik analizuoja gautus duomenis. Tekstynai labai svarbūs kalbos tyrimui – tiek leksikos, tiek gramatikos, tiek sociolingvistikos ir kitoms sritims.

Lietuvių kalbos tekstynai

Lietuvių kalbos tekstyną prieš 20 metų pradėjo kaupti VDU Kompiuterinės lingvistikos centras. Jame sukaupta rašytinių tekstų, kurių apimtis daugiau nei 100 000 000 000 (šimtas milijonų!) žodžių (http://tekstynas.vdu.lt/tekstynas/). Taip pat yra sukauptas nedidelis sakytinės lietuvių kalbos tekstynas, kurį sudaro 225 000 žodžių (80 val. transkribuotų garso įrašų) (http://donelaitis.vdu.lt/sakytines-kalbos-tekstynas).

Tekstynas reikalingas ne tik kalbininkams, bet ir paprastiems kalbos vartotojams, ir besimokantiems tos kalbos kaip antrosios kalbos. Pavyzdžiui, lietuvių kalbos tekstynai gali būti labai naudingi ir kurtiesiems, norintiems suprasti nežinomo žodžio reikšmę, sužinoti, kur jį tinka vartoti, išmokti taisyklingiau rašyti ir pan. Štai, pavyzdžiui, jei jūs nelabai suprantate žodžio vadovautis (ne vadovauti!) reikšmės arba kaip jį vartoti, įvedę šį žodį į tekstyno paiešką (http://tekstynas.vdu.lt/tekstynas/), rasite kelis šimtus pavyzdžių, kaip šis žodis vartojamas!

Gestų kalbų tekstynai

Gestų kalbų tekstynai pradėti kaupti tik prieš 10 – 15 metų, kai kompiuteriai tapo pakankamai galingi, kad pajėgtų apdoroti didelį kiekį filmuotos medžiagos. Šiuo metu yra kaupiami ir analizuojami gestų kalbų tekstynai: vokiečių, olandų, britų, švedų, australų, lenkų ir kt., vyksta nemažai seminarų, susijusių įvairiomis su gestų kalbų tekstynų rengimo fazėmis: tekstų rinkimu ir filmavimu, anotavimu (transkribavimu) ir analizavimu. Čia trumpai aptarsime šias fazes.

1) Tekstų rinkimas

Kad gestų kalbos tekstynas būtų reprezentatyvus, t. y. atspindėtų visoje šalyje įvairų žmonių vartojamą gestų kalbą (o ne vieno kurio miesto kelių žmonių kalbą), dažniausiai filmuojami skirtingo amžiaus žmonės (jaunimas, vidutinio amžiaus kurtieji ir vyresni, iki 70 – 80 metų) iš skirtingų miestų arba regionų. Pavyzdžiui, didžiausią šiuo metu rengiamą tekstyną – vokiečių gestų kalbos tekstyną – sudaro apie 500 valandų filmuotų tekstų, surinktų iš 330 kurčiųjų iš 12 Vokietijos regionų. Numatoma, kad bendra visų šių gestų apimtis bus apie 3 000 000 gestų.

Kokie tekstai filmuojami? Dažniausiai kurtiesiems informantams duodamos kelios užduotys: dviejų kurčiųjų pokalbis kokia nors paskirta tema arba laisvas pokalbis, pasakojimas iš savo patirties ir istorijos atpasakojimas pagal paveikslėlius arba filmuko atpasakojimas.

2) Transkribavimas ir anotavimas

Kaip gestų kalbos tekstyne rasti ieškomą gestą? Tarkim, mes norime pažiūrėti pavyzdžių, kokiose situacijose vartojamas gestas NEPAISYTI. Kaip „paprašyti“ kompiuterio rasti šį gestą? Pavyzdžiui, jei ieškome lietuviško žodžio, galime jį įrašyti ir spausti „Ieškoti“. O kaip įrašyti gestą? Ar galime jį nusifilmuoti ir spausti „Ieškoti“. Kol kas tikrai ne, nors gal po 5 ar 10 metų tai ir bus įmanoma su tokiomis kalbomis, kaip ASL (amerikiečių gestų kalba) arba DGS (vokiečių gestų kalba). Kad galėtume ieškoti gesto tekstyne, jis turi būti transkribuotas, t. y. kiekvienas gestas užrašytas atitinkamu lietuvišku žodžiu, vadinamu glosa. Glosa – tai sutartinis sąlyginis gesto pavadinimas. Pavyzdžiui, internetiniame LGK žodyne (http://gestai.ndt.lt/) kiekvienas gestas turi tokį pavadinimą (kaip šiuo atveju NEPAISYTI):

Taigi, transkribuojant gestų kalbos tekstą kiekvienas gestas užrašomas glosa. Pavyzdžiui, šis sakinys (http://gestai.ndt.lt/media/public/Video/mp4/002532_2.mp4) transkribuotas atrodytų taip:

SŪNUS KAUNAS VYKTI-Į AŠ NELEISTI, JIS NEPAISYTI VYKTI-Į. Taigi, kai tekstynas yra transkribuotas, mes galime įvesti į paiešką gesto pavadinimą „NEPAISYTI“ ir spausti „Ieškoti“ – tuomet rasime visus atvejus, kur vartojamas šis gestas. Dauguma gestų kalbos programų transkribuojama naudojant programą ELAN, kurioje įrašytus žodžius galima susieti su rodomais gestais vaizdo įraše.

Kadangi tekstynas naudojamas ne tik leksikai, bet ir gramatikai tyrinėti, jis turi būti papildomai gramatiškai anotuotas: nurodyta, kur kokia kalbos dalis, kur kokia gramatinė informacija, taip pat gali būti nurodoma fonologinė informacija, pavyzdžiui, lūpų judesiai. Čia pateikiamas su ELAN programa anotuoto teksto pavyzdys:

Kam reikalingas LGK tekstynas

Turint tokiu būdu transkribuotą ir anotuotą tekstyną, galima atlikti įvairius gestų kalbos tyrimus: aprašyti gestų reikšmes įvairiuose kontekstuose, ištirti, kokią funkciją sakinyje gestas dažniausiai atlieka (pavyzdžiui, ar gestas NEPAISYTI dažniau naudojamas kaip veiksmažodis, ar kaip dalelytė), koks lūpų judesys būdingiausias gestui (pavyzdžiui, ar gestas VYKTI-Į dažniau rodomas su gestiniu lūpų judesiu u, ar su žodiniu važ), ir t. t. Taigi LGK tekstynas yra būtinas rengiant gestų kalbos žodyną, tyrinėjant gramatiką ir fonologiją.

Be to, turint didelį tekstyną su skirtingo amžiaus kurčiųjų iš penkių didžiųjų Lietuvos miestų, galima nustatyti, koks gesto variantas yra labiausiai paplitęs Lietuvoje (pavyzdžiui, kuris iš 4 ar 5 gesto AUTOBUSAS variantų) ir turėtų būti pateikiamas žodyne. Taigi, tekstynas yra labai svarbus ir lietuvių gestų kalbos norminimui.

Deja, lietuvių gestų kalbos tekstynas kol kas nėra kaupiamas. Reikia tikėtis, kad jis bus pradėtas jau labai greitai.

Šaltiniai ir papildoma informacija:
1. Danielius M. Gestų kalbų taikomieji tyrimai: leksikografija ir tekstynai. https://saugykla.telia.lt/Shares/Home.aspx?ShareID=b17662a5-2d31-4843-aa23-bdab1bf742ea
2. Kovalevskaitė J. Dabartinės lietuvių kalbos tekstynas – 10 metų kaupimo ir naudojimo patirtis. http://donelaitis.vdu.lt/publikacijos/Jolantos_apie_tekstyna.pdf
3. Marcinkevičienė. E. Tekstynų lingvistika. Teorija ir praktika. http://donelaitis.vdu.lt/publikacijos/marcinkeviciene.pdf
4. Informacija apie skirtingų šalių gestų kalbos tekstynus: https://www.sign-lang.uni-hamburg.de/dgs-korpus/files/inhalt_pdf/SL-Corpora-Survey_update_2012.pdf
5. British Sign Language Corpus. http://www.bslcorpusproject.org/project-information/
6. Corpus NGT. http://www.ru.nl/corpusngten/
7. DGS-Corpus. https://www.sign-lang.uni-hamburg.de/dgs-korpus/index.php/welcome.html
8. Corpus informed lexicography: a decade of exploration. http://www.bslcorpusproject.org/wp-content/uploads/mckee-corpus-wkshop2.pdf