Fişier text
De la Wikipedia, enciclopedia liberă
Un fişier text este un tip de fişier în care datele sunt stocate ca o secvenţă de caractere, într-o codificare predefinită (de obicei ASCII, dar mai recent şi Unicode). Este unul din cele două tipuri canonice de fişiere, celălalt tip fiind cel de fişier binar, unde datele sunt stocate ca o secvenţă de biţi. Diferenţa dintre cele două tipuri de fişiere este semi-arbitrară - orice fişier text este, până la urmă, un fişier binar, în schimb, nu orice fişier binar este un fişier text (vezi mai jos). Prin definiţie, un fişier text este codificat unitar, conţinutul său fiind lizibil şi editabil direct, prin intermediul unui editor simplu de text (Notepad, vi, emacs, gedit etc.).
[modifică] Structură şi codificare
Într-un fişier text, tipul de date este considerat explicit ca fiind textul neformatat. Organizarea unui astfel de fişier este pe rânduri (care se generează la apăsarea tastei Enter/Return), fiecare rând de text fiind delimitat de unul sau mai multe caractere de sfârşit de rând (caractere EOL). Acestea diferă în funcţie de sistemul de operare folosit pentru crearea şi editarea fişierului. Astfel, Windows foloseşte două caractere de control (ASCII 13 urmat de ASCII 10, sau, mai scurt CR+LF) pentru a semnaliza sfârşitul unei linii de text, pe când sistemele tip UNIX (incluzând aici şi Linux şi Mac OS X) folosesc numai caracterul LF, iar sistemele Mac OS pre-Unix (versiunile 9 sau mai vechi), folosesc doar caracterul CR. Astăzi, majoritatea sistemelor şi editoarelor de text sunt perfect capabile să se folosească şi să convertească automat fişierele text între diverse arhitecturi. O excepţie notabilă în acest sens este, însă, editorul Notepad, care, în cazul în care este pus să deschidă un fişier text generat pe o altă platformă, va afişa caracterul de control LF sau CR după fiecare rând, neîmpărţind textul în rânduri.
Codificarea fişierelor text se face în general ori în ASCII, ori în Unicode (standardul UTF-8, compatibil invers cu ASCII) permiţând o portabilitate ridicată între diverse tipuri de sisteme.
Un fişier text va avea codificarea MIME text/plain urmată de codificarea folosită, şi, pe sistemele Windows, va avea în mod canonic extensia .txt (deşi, o mare parte a fişierelor text, inclusiv pe arhitectura Windows, vor avea o extensie care să le arate destinaţia, precum .me, .nfo, .c, .cs, .html, .svg, etc.)
[modifică] Utilizare
Pentru utilizator, un astfel de fişier, vizualizat ca atare, apare ca text neformatat şi nearanjat în pagină. Fişierele text, per se, nu pot stoca decât caractere printabile (litere şi cifre) şi un număr foarte limitat de caractere de control. Astfel, în structura însăşi a fişierului nu se pot stoca elemente de formatare precum culori sau imagini. Fişierele text pot astfel fi folosite pentru activităţi simple, precum luatul de notiţe. Cu toate acestea, un fişier text poate stoca date de intrare pentru un program terţ. Astfel de utilizări, datorită portabilităţii uriaşe a formatului (neţinând seama de problema sfârşitului de linie) şi datorită faptului că conţinutul fişierului este uşor lizibil şi editabil ca text a dus la apariţia multor standarde care codifică informaţii de diverse feluri ca text lizibil stocat în fişiere text, şi care procesate cu ajutorul unor alte programe iau altă formă. Exemple în acest sens sunt standardul XML (şi aplicaţiile sale - HTML - care stochează pagini formatat într-un fişier text prin intermediul unor descriptori textuali sau SVG - care stochează imagini ca text lizibil în fişiere text). Mai mult, codul sursă al oricărui program, în orice limbaj de programare, este salvat pe disc sub formă de fişier text.
[modifică] Fişiere text şi fişiere binare
Tradiţional, fişierele text stochează datele în format ASCII, pe 7 biţi. Multe protocoale asociate reţelelor informatice permit transmiterea corectă a informaţiilor în acest format, dar nu permit transmisia corectă de fişiere binare (în care codificarea are loc pe 8 biţi), ducând, în cazul transmisiei la coruperea fişierului rezultat (din cauza conversiei ce are loc între cele două sisteme la apariţia caracterelor de sfârşit de rând). Astfel, există diverşi algoritmi şi soluţii software pentru codificarea fişierelor binar în format compatibil ASCII pentru transmitere (cel mai comun este Base64). Cu toate acestea, sistemele informatice stochează toate datele într-un mod identic - ca şiruri de biţi. Mai mult, unele sisteme de operare nu oferă rutine şi proceduri specifice fişierelor text, tratând toate fişierele ca şiruri binare.

