Unicode
De la Wikipedia, enciclopedia liberă
|
|
Unicode este un format dezvoltat de Unicode Consortium pentru codificarea, stocarea şi interpretarea textelor pe suporturi informatice. Unicode este formatul standard de facto de codificare şi interpretare a datelor binare în format text, incluzând în varianta finală toate caracterele folosite în orice limbă. Este proiectat pentru ca oricărui caracter din orice limbă, de pe orice platformă, sau program, să îi corespundă un singur număr. Standardul Unicode reprezintă implementarea specificaţiilor ISO/IEC 10646, publicate prima dată în 1993, de ISO.
Fiind adoptat de majoritatea producătorilor de software (Microsoft, Apple, HP, Sun), Unicode a început să fie folosit pe scară largă şi să fie suportat de cele mai diverse programe de larg interes (începând de la cele mai răspândite sisteme de operare şi până la sisteme de baze de date şi server de Internet), însă nu se poate vorbi încă de o acceptare şi un suport global şi intergrat al acestei codificări.
Până la Unicode au existat diverse metode de a se folosi caracterele naţionale ale diverselor ţări, începând cu ANSI extins şi terminând cu ultima alternativă standard, ISO-8859, trecând prin diverse variante cu răspândire mai largă sau mai restrânsă. Practic toate alternativele acceptate au fost bazate pe ideea că un text trebuie în mod necesar să fie scris de la început şi până la sfârşit în aceeaşi limbă. Odată cu globalizarea accentuată a sistemelor informatice a apărut din ce în ce mai pregnantă necesitatea de a se introduce un sistem de codificare care să suporte în unul şi acelaşi document scris orice combinaţie de limbi.
Toate sistemele de codificare ale diverselor limbi premergătoare Unicode se bazau pe acelaşi principiu ca ANSI extins: din cele 256 de combinaţii posibile în cadrul unui octet, prima jumătate era folosită de un set comun de caractere – ASCII – iar cealaltă jumătate era dedicată codificării propriu-zise, dependentă de limbă. Având în vedere nu numai multitudinea de limbi posibile dar şi simplul număr de caractere posibile în fiecare limbă străină (un exemplu relevant ar fi limba chineză), Unicode a introdus un număr practic arbitrar de octeţi per caracter. Din acest motiv suportul acestui sistem de codificare este mai greu de oferit decât pentru sistemele tradiţionale, însă cum utilitatea acestuia depăşeşte cu mult dificultatea implementării suportului, acest format a devenit în mod practic unicul standard acceptat de toate sistemele informatice curente.

