Sari la conținut

Tipuri de date

De la Wikipedia, enciclopedia liberă
Acest articol se referă la tipurile de date utilizate în informatică și programare. Pentru tipuri de date statistice, vedeți tipuri de date statistice. Pentru alte utilizări, vedeți Tipuri de date (dezambiguizare).
Tipuri de date în Python

În informatică și programare, un tip de date sau pur și simplu tip este o clasificare ce identifică diferitele tipuri de date, cum ar fi: numere reale, numere întregi sau valori logice(adevărate sau false), valori posibile pentru acest tip; operațiunile care pot fi efectuate pentru valorile de acest tip; sensul datelor; și modul în care valorile de acest tip pot fi stocate.[1][2]

Tipurile de date sunt utilizate în "sisteme de tipuri" , care oferă diferite moduri de definire, implementare și folosire. Diferite sisteme de tipuri oferă grade diferite de siguranță.

Aproape toate limbajele de programare includ în mod explicit noțiunea de tip de date, totuși diferite limbaje pot folosi o terminologie diferită. Tipurile de date comune pot include:

  • Numere întregi 
  • Valori logice 
  • Caractere 
  • Numere cu virgulă
  • Șiruri de caractere alfanumerice

De exemplu, în limbajul de programare Java , "int" reprezintă setul de numere întregi reprezentate pe 32 de biți cuprinse ca valoare între -2.147.483.648 și 2,147,483,647, precum și operațiile care pot fi efectuate cu numere întregi, cum ar fi adunarea, scăderea, sau înmulțirea. Culorile, pe de altă parte, sunt reprezentate de trei octeți care indică cantitățile de roșu, verde și albastru, și un șir de caractere reprezentând numele culorii; operațiunile permise includ adunarea și scăderea, dar nu înmulțirea.

Cele mai multe limbaje de programare, permit de asemenea, programatorului să defineasca tipuri de date suplimentare, de obicei, prin combinarea mai multor elemente de alte tipuri și definirea operațiunilor valide pentru noul tip de date. De exemplu, un programator ar putea crea un nou tip de date numit " număr complex ", care ar include componente reale și imaginare. Un tip de date reprezintă, de asemenea, o constrângere pusă pe interpretarea datelor într-un " sistem de tip " , care descrie reprezentarea, interpretare și structura de valori sau obiecte stocate în memoria calculatorului. Sistemul de tip utilizează informațiile tipului de date pentru a verifica corectitudinea programelor de calculator care accesează sau manipulează datele.

Cele mai multe tipuri de date din statistică au tipuri comparabile în limbajele de programare, și vice-versa, așa cum se arată în tabelul de mai jos:

Statistică Programarea calculatoarelor
numere reale virgulă mobilă
contor de date (de obicei, non-negativ) întreg
date binare Tip logic
date categorice tip enumerat
vector aleator Listă sau matrice
matrice aleatoare matrice bidimensională
arbore aleator Arbore

Definiție a unui "tip"

[modificare | modificare sursă]

( Parnas, Shore & Weiss 1976 ) a identificat cinci definiții ale unui "tip" care au fost utilizate uneori-implicit-în literatura de specialitate:

Sintactic
Un tip este o etichetă pur sintactică asociată cu o variabilă atunci când este declarată. Astfel de definiții ale unui "tip de date" nu dau nici un sens semantic tipului.
Reprezentare
Un tip este definit în ceea ce privește compoziția sa de tipuri mai primitive de multe ori tipuri mașină.
Reprezentare și comportament
Un tip este definit ca reprezentarea sa și o serie de operatori de manipularea acestor reprezentări.
Spațiu de valoare
Un tip este un set de valori posibile pe care o variabilă le poate avea. Astfel de definiții fac posibilă discuția despre tipuri de date disjuncte, sindicate sau de produse carteziene pe tipuri.
Spațiu de valoare și de comportament
Un tip este un set de valori pe care o variabilă poate avea și un set de funcții care se poate aplica la aceste valori.

Definiția în termeni de reprezentare a fost de multe ori făcută în limbaje imperative, cum ar fi ALGOL și Pascal , în timp ce definiția în termeni de spațiu și de comportament a fost folosită în limbaje de nivel superior, cum ar fi Simula și CLU .

Clase de tipuri de date

[modificare | modificare sursă]

Tipuri de date primitive

[modificare | modificare sursă]

Tipuri de date mașină

[modificare | modificare sursă]

La cel mai scazut nivel, toate datele din computerele bazate pe electronică digitală sunt reprezentate ca biți care pot lua valoarea 0 sau 1. Cea mai mică unitate adresabilă de date este, de obicei, un grup de biți numit octet sau byte (un octet (byte), contine 8 biți). Unitatea ce poate fi prelucrată de instrucțiunile codului mașină este numită cuvânt (din 2011, de obicei conține 32 sau 64 de biți). Majoritatea instrucțiunilor interpretează cuvântul ca un număr binar, astfel încât un cuvânt de 32 biți poate reprezenta valori fără semn întregi de la la  sau valori întregi cu semn de la  la . Datorită complementului binar, limbajul mașină și ca atare mașina nu trebuie să se facă distincția între aceste tipuri de date cu semn și cele fără semn în cea mai mare parte.

Există un set specific de instrucțiuni aritmetice, virgula mobilă care folosesc o interpretare diferită a biților în cuvânt.

Tipurile de date mașină trebuie să fie expuse sau puse la dispoziție în sisteme sau în limbajele de programare de nivel scăzut , pentru a permite un control cu granulatie fina pe hardware. Limbajul de programare C , de exemplu, oferă tipuri de număr întreg cu lățimi diferite, cum ar fi short și long. În cazul în care un tip nativ corespunzător nu exista pe platforma vizată, compilatorul le va descompune în cod folosind tipuri de date existente. De exemplu, dacă un întreg pe 32 de biți este cerută pe o platformă de 16 biți, compilatorul îl va trata tacit ca o serie de două numere întregi de 16 biți.

Mai multe limbaje permit declaratii ale datelor in sistem binar și sistem hexazecimal, pentru o manipulare mai ușoară a datelor mașină.

În limbajele de programare de nivel superior, tipurile de date mașină sunt de multe ori ascunse sau abstractizate ca un detaliu de implementare, care ar face codul mai puțin portabil dacă ar fi expuse. De exemplu, un tip numeric generic poate fi furnizat în loc de tipuri întregi cu diferite lungimi de biți.

Tipul Boolean reprezintă valorile: adevărat și fals . Deși doar două valori sunt posibile, ele sunt rareori puse în aplicare ca o singură cifră binară din motive de eficiență. Multe limbaje de programare nu au un tip boolean explicit, ci interpretează (de exemplu) 0 ca fiind fals și a alte valori ca adevărat.

Tipuri numerice

[modificare | modificare sursă]

Cum ar fi:

  •  Tipurile de date întregi, care pot reprezenta numere întregi. Pot fi clasificate în funcție de capacitatea lor de a conține valori negative (de exemplu, unsigned în C și C + +). Pot avea, de asemenea, un număr mic de subtipuri predefinite (cum ar fi short și long în C / C + +); sau permite utilizatorilor să definească în mod liber subintervale, cum ar fi 1 .. 12 (de exemplu,Pascal / Ada ).
  • Virgulă mobilă tipuri de date, numite uneori eronat reale, conțin valori fracționare. Ei au, de obicei limite predefinite atat pentru valorile extreme cât și pentru precizia lor. Acestea sunt adesea reprezentate ca numere zecimale.
  • Tipuri de date "punct fix" sunt convenabile pentru a reprezenta valori monetare. Ele sunt adesea reprezentate intern ca numere întregi, ceea ce duce la limite predefinite.
  • Bignum sau de precizie arbitrară sunt tipuri numerice fără limite predefinite. Ele nu sunt tipuri primitive, și sunt utilizate cu moderație, din motive de eficiență.

Tipuri de compozite

[modificare | modificare sursă]

Tipuri de compozite sunt derivate din mai mult de un tip primitiv. Aceasta se poate face în mai multe moduri. Modalitățile în care sunt combinate sunt numite structuri de date . Compunerea unui tip primitiv într-un tip de compus rezultă în general într-un nou tip, de exemplu, cu matricea de-întreg este un tip diferit la număr întreg.

  • Un tablou stochează o serie de elemente de același tip într-o anumită ordine. Acestea sunt accesate folosind un întreg pentru a specifica care este necesar elementul (deși elemente pot fi de aproape orice tip). -Lungime fixă ​​sau extensibilă matrice poate fi.
  • Înregistrare (de asemenea, numit tuplu sau struct) Înregistrările sunt printre cele mai simple structuri de date . O înregistrare este o valoare care conține alte valori, de obicei în număr fix și ordine și de obicei indexate după numele. Elementele de înregistrări sunt de obicei numite domenii sau membri.
  • Uniune . O definiție de tip uniune va specifica care dintre o serie de tipuri primitive permise pot fi stocate în cazurile sale, de exemplu ", float sau întreg lung". Contrast cu o înregistrare , care ar putea fi definit pentru a conține un flotor și un întreg; în timp ce, într-o uniune, există doar o singură valoare la un moment dat.
  • O uniune etichetat (de asemenea, numit o variantă , înregistrare variantă, discriminați uniune, sau uniune disjuncte) conține un câmp suplimentar care indică tipul de curent, pentru siguranță sporită tip.
  • Un set este o structură de date abstract , care poate stoca anumite valori, fără nici un fel special ordine , și nu valori repetate. Valori înșiși nu sunt preluate de la seturi, mai degrabă unul testează o valoare de membru pentru a obține un boolean "în" sau "nu".
  • Un obiect conține un număr de câmpuri de date, cum ar fi un record, și, de asemenea, o serie de fragmente de cod de program pentru a accesa sau de a le modifica. Structuri de date care nu conțin cod, cum ar fi cele de mai sus, sunt numite simplu structură de date vechi .

Multe altele sunt posibile, dar acestea tind să fie variațiuni și compuși de mai sus.

Tipul enumerat . Aceasta are valori care sunt diferite între ele, și care pot fi comparate și atribuie, dar care nu au în mod concret o reprezentare în memoria calculatorului;compilatoare și interpretoarele le pot reprezenta în mod arbitrar. De exemplu, cele patru culori într-un pachet de cărți de joc pot fi reprezntate de patru valori: TREFLĂ, ROMB, INIMĂ ROȘIE, INIMĂ NEAGRĂ aparținând unui tip enumerat numit cărți de joc În cazul în care o variabilă V este declarată având cărți de joc ca tip de date, i se poate atribui oricare dintre aceste patru valori. Unele implementări permit programatorilor să atribuie valori întregi valorilor enumerate, sau chiar să le trateze ca un tip echivalent cu numere întregi.

Caractere și șiruri de caractere

[modificare | modificare sursă]
  • Caractere alfanumerice litere, cifre, spațiu, semne de punctuație, etc
  • Șiruri alfanumerice de caractere, o secvență de caractere. Acestea sunt de obicei folosite pentru a reprezenta cuvinte și text.

Tipurile caracter și șir de caractere pot stoca secvențe de caractere dintr-un set de caractere, cum ar fi ASCII sau UTF-8. Deoarece cele mai multe seturi de caractere includ cifre, este posibil să existe un șir numeric, cum ar fi "1234". Cu toate acestea, mai multe limbaje ar trata acest șir ca aparținând unui tip diferit, cu valoarea numerică 1234.

Tipurile caracter și șir de caractere pot avea diferite subtipuri în funcție de mulțimea necesară de caractere. Tipul original pe 7-biti, ASCII, s-a dovedit a fi limitat, și a fost înlocuit cu seturi de 8 și 16 biți, (UTF-8, UTF-16) care poat codifica o mare varietate de alfabete non-latine (ebraicăchineză, japoneză, arabă ) și alte simboluri. Sirurile de caractere pot fi fie alocate dinamic sau de dimensiune fixă, chiar în cadrul aceluiași limbaj de programare. Ele pot fi, de asemenea, categorisite prin dimensiunea lor maximă.

Notă: siruri de caractere nu sunt primitive în toate limbajele, de exemplu în C, ele pot fi compuse din tablouri de caractere.

Tipurile pot fi de baza, sau derivate din, tipurile de bază explicate mai sus. În unele limbaje, cum ar fi C, funcțiile au un tip de date derivat din tipul de date al valorii intoarse de acestea.

Pointeri și referințe

[modificare | modificare sursă]

Principalul tip derivat non-compozit este pointerul, un tip de date a cărui valoare referențiază (sau "indică la"), o altă valoare stocată în altă parte în memoria calculatorului cu ajutorul adresei de memorie. Este un fel primitiv de referință . (În termeni de zi cu zi, un număr de pagină într-o carte ar putea fi considerat o bucată de date care se referă la alta). Pointerii sunt adesea stocați într-un format similar cu un număr întreg; Cu toate acestea, încercarea de a dereferenția, un pointer a cărui valoare nu a fost niciodată o adresă validă de memorie ar putea duce la o eroare în program. Pentru a ameliora această problemă potențială, pointerii sunt considerați un tip distinct de tipul de date pe care le indică, chiar dacă reprezentarea de bază este aceeași.

Tipuri de date funcție

[modificare | modificare sursă]

Tipuri de date abstracte

[modificare | modificare sursă]

Orice tip care nu specifică o punere în aplicare este un tip abstract de date . De exemplu, o stivă (care este un tip abstract) poate fi implementat ca o matrice (un bloc contiguu de memorie care conține mai multe valori), sau ca o listă de legat (un set de blocuri de memorie non-adiacente legate de indicii ).

Tipuri abstracte pot fi manevrate de cod care nu știu sau "grijă" ce tipuri de bază sunt cuprinse în ele. De programare care este agnostic cu privire la tipurile de date concrete este numit de programare generic . Arrays și înregistrările pot conține, de asemenea, tipuri de bază, dar sunt considerate de beton, deoarece acestea specifica modul în care conținutul sau elementele acestora sunt prevăzute în memorie.

Exemplele includ:

  • O coadă este un prim-in lista de primul-out. Variațiile sunt Deque și coadă prioritate .
  • Un set poate stoca anumite valori, fără nici un fel special ordine , și cu valori repetate.
  • O stivă este un ultim în primul ieșit,.
  • Un copac este o structură ierarhică .
  • Un grafic .
  • Un hash sau dicționar sau hartă sau harta / asociativă matrice / Dicționar este o variație mai flexibil pe o înregistrare, în care perechi nume-valoare pot fi adăugate și șterse în mod liber.
  • Un pointer inteligent este omologul abstract la un pointer. Ambele sunt tipuri de referință

Tipuri de utilități

[modificare | modificare sursă]

Pentru comoditate, limbaje de nivel înalt poate furniza tipuri de date de-a gata "lumea reală", de exemplu, ori date și valori monetare și de memorie, chiar și în cazul în care limba le permite să fie construit din tipuri primitive.

Sisteme de tipuri

[modificare | modificare sursă]

Un sistem de tipuri asociază tipuri de date fiecărei valori folosită într-un program. Folosind o analiză statică a codului sursă, sistemul de tipuri încearcă să demonstreze că valorile sunt folosite într-un mod consistent cu tipurile pe care le au. Cu alte cuvinte, că valorile sunt folosite doar în operații care sunt bine definite pentru valorile respective, de exemplu că operația de adunare este aplicată pe două numere, nu pe un număr și un șir de caractere.

Valorile pot avea un tip static și un tip dinamic. Tipul static este fie tipul declarat explicit pentru valoare, fie tipul dedus din modul în care este folosită valoarea. Tipul dinamic este tipul pe care valoarea îl poate avea atunci când programul este rulat. În multe cazuri tipul static și tipul dinamic sunt identice, dar în limbaje ca C++ tipul dinamic poate fi diferit din cauza moștenirii.[3]

Compilatorul poate folosi tipul static atât pentru a optimiza reprezentarea și stocarea valorilor cât și pentru a alege operații mai eficiente. De exemplu, multe compilatoare pentru limbajul C folosesc 32 de biți pentru a reprezenta tipul de date float, conform specificațiilor IEEE pentru numere de precizie simplă în virgulă mobilă. De asemenea, compilatorul emite cod care folosește operații pe numere reprezentate în vrgulă mobilă native microprocesorului.

Sistemele de tipuri pot fi manifeste sau latente, de asemenea cunoscute ca și statice sau dinamice. Termenii nu au legatură cu tipul static sau dinamic al unei valori, ci cu momentul în care sunt detectate erorile de tip. În cazul în care erorile sunt detectate la compilare, sistemul de tipuri este manifest. Dacă erorile sunt detectate abia atunci când programul este rulat, sistemul de tipuri este latent. Limbaje ca Haskell și Rust au sistem de tipuri manifest, iar limbaje ca Python și Scheme au sistem de tipuri latent.

În funcție de cum sunt tratate incompatibilitățile între tipuri, sistemele de tipuri poti fi caracterizate ca puternice sau slabe (strong și weak în limba engleză). Un sistem de tipuri puternic, indiferent dacă este manifest sau latent, raportează o eroare atunci când operațiile sunt aplicate valorilor cu tipuri incompatibile. Un sistem de tipuri slab va permite limbajului să efectueze conversii implicite pentru ca operația să reușească. De exemplu, în JavaScript, un limbaj cu un sistem de tipuri slab, atunci când programul efectuează o adunare între 1, un număr, și "x", un șir de caractere, numărul va fi convertit la reprezentarea sa textuală ca și șir de caractere, "1", și aceasta concatenată cu șirul de caractere "x" pentru a obține valoarea "1x". Sistemele de tipuri slabe pot duce la rezultate neașteptate din cauza conversiilor implicite.

  1. ^ type from FOLDOC, foldoc.org 
  2. ^ Shaffer, C.A. Data Structures and Algorthms, 1.2
  3. ^ „Programming Language Pragmatics” (în engleză). ScienceDirect. Accesat în . 

Lectură suplimentară

[modificare | modificare sursă]