Sari la conținut

Tatoeba

De la Wikipedia, enciclopedia liberă
Tatoeba
Fondator(i) Trang Ho, Allan Simon
Pagină de internet http://tatoeba.org/
Tipe site Open collaborative multilingual sentence dictionary
Înregistrare Optional
Limbi 17 languages; content in 93 languages
Data deschiderii 2006
Statut activ

Tatoeba.org este o bază de date online gratuită, formată din exemple de fraze, orientată către persoanele care învață limbi străine. Numele său provine din termenul japonez "tatoeba" (例えば tatoeba), însemnând "de exemplu". Spre deosebire de alte dicționare online, care se focalizează pe cuvinte, Tatoeba se concentrează pe propoziții/fraze complete, proprietățile lor gramaticale și traducerea lor în alte limbi. Înregistrarea pe site este opțională și deschisă publicului, indiferent de fundalul lingvistic sau competența într-o a două limbă. Tatoeba a fost fondată de Trang Ho în 2006 și a fost inițial găzduită de Sourceforge sub numele de proiect "multilangdict".[1] Trang Ho menține și administrează proiectul împreună cu Allan Simon, care i s-a alăturat în 2009.[2] Tatoeba este găzduită și susținută de Free Software Foundation France.[3]

Începând cu luna august 2011, fondul de fraze (corpus) al Tatoeba conține 1.000.000 propoziții în 93 de limbi. O listă cu numărul de propoziții din fiecare limbă poate fi găsit pe pagina statistică a limbilor de pe site-ul Tatoeba. Interfața este disponibilă în 15 limbi diferite. Există proceduri prin care doritorii pot ajuta la adăugarea de noi interfețe și conținut în alte limbi.

Tatoeba este de asemenea gazda actuală a fondului de date (corpus) Tanaka, o serie de aproximativ 150.000 de propoziții Engleză-Japoneză care au aparținut domeniului public (prima oară puse în circulație în anul 2001), perechi de propoziții compilate de profesorul Yasuhito Tanaka de la Universitatea Hyogo.[4][5]

Utilizatorii, chiar și cei neînregistrați, pot căuta cuvinte în orice limbă pentru a regăsi liste de propoziții ce conțin acele cuvinte. Fiecare propoziție din baza de date Tatoeba este afișată alături de traducerile sale în alte limbi; se face diferență vizuală între traducerile directe și cele indirecte. Propozițiile sunt etichetate pentru conținut (subiect, dialect sau trivialitate); de asemenea fiecare, în mod individual, are un fir de discuție pentru a facilita feedback-ul și corecturile din partea altor utilizatori, cât și pentru note legate de cultură. În prezent, aproape 13.000 de propoziții în 8 limbi au și lectură audio. Propozițiile pot fi cercetate după limbă, etichetă sau versiune audio.

Utilizatorii înregistrați pot adăuga propoziții noi, pot traduce sau corecta pe cele existente, chiar dacă limba țintă nu este cea nativă. Traducerile sunt legate automat de propoziția originală. Utilizatorii pot edita liber propriile propoziții, pot "adopta" și corecta propozițiile rămase fără proprietar și comenta propozițiile celorlalți. Utilizatorii de încredere, un rang după cel al utilizatorilor noi, pot eticheta, elimina etichete, crea și șterge legături între propoziții.

Structura bazei de date

[modificare | modificare sursă]
O diagramă simplificată care stă la baza structurii de date Tatoeba.

Structura fundamentala a datelor Tatoeba este o serie de noduri și legături. Fiecare propoziție este un nod; fiecare legătură trece prin două sau mai multe propoziții cu același înțeles.[6]

Întreaga bază de date este publicată sub licența Creative Commons Attribution 2.0,[7] făcând-o gratuită pentru utilizare academică și de altă natură.

Tatoeba a primit o donație de la Mozilla Drumbeat în luna decembrie 2010.[8][9]

Corpusuri de text paralele cum este Tatoeba sunt folosite pentru o varietate de activități de prelucrare a limbilor naturale cum ar fi traducerile automate. Datele Tatoeba au fost utilizate pentru treebanking în Japoneză. [10], traducere automată,[11] și în cadrul dicționarului online Japonez-Englez WWWJDIC.

Ediții offline

[modificare | modificare sursă]

Conținut selectat din Tatoeba – 83.932 fraze în Esperanto împreună cu toate traducerile lor în alte limbi – a apărut în ediția a treia a DVD-ului multilingv Esperanto Elektronike ("Esperanto electronic") publicat în 6.000 de copii de către E@I în luna iulie 2011.

  1. ^ „Trang's dictionary project”. sourceforge.net. 
  2. ^ „Tatoeba.org, base de données de phrases d'exemple”. linuxfr.org (în French). . Accesat în . 
  3. ^ „Tatoeba, un dictionnaire de langues pour phrases d'exemples” [Tatoeba, a dictionary of example sentences in several languages]. fsffrance.org (în French). Paris: FSF France. . Accesat în . 
  4. ^ „Tanaka Corpus”. EDRDG Wiki. Electronic Dictionary Research and Development Group. . Accesat în . 
  5. ^ Breen, Jim (). „WWWJDIC - Information”. WWWJDIC. Monash University. Accesat în . 
  6. ^ Ho, Trang (). „How to be a good contributor in Tatoeba”. Tatoeba Project Blog. Accesat în . 
  7. ^ „Terms of use”. Tatoeba.org. Accesat în . 
  8. ^ Ho, Trang (). „Grant from Mozilla Drumbeat”. Tatoeba Project Blog. Accesat în . 
  9. ^ Moltke, Henrik (). „Best Drumbeat Projects: Tatoeba – a free and open database of sentences”. Yoyodyne.cc. Arhivat din original la . Accesat în . ...the Mozilla Foundation wants to encourage and help the Tatoeba project by giving it a USD 2.5K Mozilla Drumbeat Grant. 
  10. ^ Francis Bond, 栗林 孝行 [Takayuki Kuribayashi], 橋本 力 [Hashimoto Chikara] (2008) HPSGに基づくフリーな日本語ツリー バンクの構築 [A free Japanese Treebank based on HPSG]. In 14th Annual Meeting of The Association for Natural Language Processing, Tokyo.
  11. ^ Eric Nichols, Francis Bond, Darren Scott Appling and Yuji Matsumoto (2010) Paraphrasing Training Data for Statistical Machine Translation. Journal of Natural Language Processing, 17(3), pages 101-122.

Legături externe

[modificare | modificare sursă]

Format:Portalbox