Lingvistică computațională

Lingvistică

Lingvistica computațională este un domeniu interdisciplinar care se ocupă de modelarea statistică sau bazată pe reguli a limbajelor naturale, dintr-un punct de vedere legat de calculatoare. Modelarea aceasta poate avea ca obiect orice domeniu lingvistic. Cei care se ocupă cu lingvistica computațională sunt cercetătorii științifici în informatică, specializați în aplicarea computerelor la prelucrarea automată a limbajelor naturale, de obicei în cooperare cu lingviști, experți în limbi precum și cu informaticieni programatori de aplicație, cercetători în Inteligența Artificială (AI), matematicieni, psihologi cognitivi, psiho-lingviști, antropologi, neurologi și mulți alții.

Începuturile[modificare | modificare sursă]

Lingvistica computațională aparține de largul domeniu al inteligenței artificiale. A luat naștere prin anii 1950 în SUA cu ocazia primelor încercări de a traduce automat (cu ajutorul calculatoarelor) texte din limbi străine, în special din l. rusă în l. engleză. Cele mai căutate texte erau cele din diverse reviste de știință.^[1]

Plecând de la rapiditatea calculatoarelor în domeniul aritmeticii s-a crezut la început că și traducerile automate vor putea fi realizate în scurt timp, obținându-se și viteze de lucru superioare față de traducerile obișnuite (manuale). Totuși cercetătorii s-au lovit curând de complexitatea structurilor limbilor naturale, iar traducerile lor automate ("mecanice", computerizate) au lăsat mult de dorit din punctul de vedere al calității și acurateței traducerilor. Termenul "lingvistică computațională" a apărut prin anii 1960, când a luat naștere domeniul inteligenței artificiale. De data asta era vorba de încercări de a extrage automat "semnificația" unui text, bazată pe diverse formalisme, cu scopul creării unor algoritme și programe de prelucrare inteligentă (analiză, înțelegere, interpretare, traducere) a textelor. De remarcat că ființele umane fac cu ușurință astfel de operații mentale (chiar dacă nu foarte repede).

S-a recunoscut repede că, pentru a traduce automat un text dintr-o limbă în alta, este nevoie și de noțiuni gramaticale profunde (atât de morfologie, cât și de sintaxă). Apoi mai sunt absolut necesare și lexicoane (vocabulare) complete ale ambelor limbi, dar și informații foarte pragmatice despre felul cum "funcționează" fiecare din cele două limbi și trăsăturile lor mai subtile, foarte specifice. În acest fel, pe parcursul timpului, din simpla dorință de a traduce texte în mod automat a luat naștere o întreagă ramură nouă de cercetări în domeniul reprezentării, "înțelegerii" și procesării limbajelor naturale cu ajutorul calculatoarelor.

Subdomenii[modificare | modificare sursă]

Din punct de vedere al mediului purtător se depun eforturi atât în domeniul textelor scrise cât și al textelor rostite. Prelucrarea automată poate avea drept țel atât analiza textului și recunoașterea semnificației, de exemplu recunoșterea automată a spuselor unui vorbitor, cât și sintetizarea (generarea) de text tradus în altă limbă sau generarea de text rostit (acustic).

Alte subdomenii de activitate:

Complexitatea limbilor naturale, modelată pe baza teoriei automatelor și aplicând gramatica contextuală și mașinile Turing lineare
Semantica informațională, filtrarea și prelucrarea "seminificației" unui text
Lingvistica corporală (corpus linguistics)
Proiectarea de parsere pentru limbile naturale