Big data

De la Wikipedia, enciclopedia liberă
Jump to navigation Jump to search
Creșterea și digitalizarea capacității globale de stocare a informațiilor[1]

Termenul Big Data (big data, metadate) se referă la extragerea, manipularea și analiza unor seturi de date care sunt prea mari pentru a fi tratate în mod obișnuit.[2] Din această cauză se utilizează software special și, în multe cazuri, și calculatoare și echipamente hardware special dedicate. În general la aceste date analiza se face statistic. Pe baza analizei datelor respective se fac de obicei predicții ale unor grupuri de persoane sau alte entități, pe baza comportamentului acestora în diverse situații și folosind tehnici analitice avansate. Se pot identifica astfel tendințe, necesități și evoluții comportamentale ale acestor entități. Oamenii de știință folosesc aceste date pentru cercetări în meteorologie, genomică, (Nature 2008) conectomică, simulări fizice complexe, biologie, protecția mediului, etc.[3]

Odată cu creșterea volumului de date pe Internet, în media socială, cloud computing, dispozitive mobile și date guvernamentale, Big Data devine în același timp o amenințare și o oportunitate pentru cercetători în ceea ce privește gestionarea și utilizarea acestor date, menținând în același timp drepturile persoanelor implicate.

Definiții[modificare | modificare sursă]

Big Data includ, de obicei, seturi de date cu dimensiuni care depășesc capacitatea software și hardware obișnuite, folosind date nestructurate, semi-structurate și structurate, cu accentul pe datele nestructurate.[4] Dimensiunile Big Data au crescut în timp din 2012, de la câteva zeci de terabyte până la multe exabyte de date.[5] Eficientizarea lucrului cu Big Data implică învățarea mașinilor pentru a detecta modele,[6] dar adesea aceste date sunt un produs secundar al altor activități digitale.

O definiție din 2018 afirmă că „Big Data sunt datele care necesită instrumentele de calcul paralel pentru a gestiona datele”, aceasta reprezentând o turnură în informatică, prin utilizarea teoriilor de programare paralelă și lipsa unor garanții presupuse de modelele anterioare.” Big Data utilizează statistici inductive și concepte de identificare a sistemelor neliniare pentru a deduce legi (regresii, relații neliniare și efecte cauzale) din seturi mari de date cu densitate scăzută de informații pentru a obține relații și dependențe sau pentru a efectua predicții ale rezultatelor și comportamentelor.[7]

La nivelul Uniunii Europene nu există o definiție obligatorie dar, în conformitate cu Avizul 3/2013 al Grupului european de lucru privind protecția datelor,

„Big Data este un termen care se referă la creșterea enormă a accesului și a utilizării automate a informațiilor: se referă la cantitățile uriașe de date digitale controlate de companii, autorități și alte organizații mari, care sunt supuse unor analize ample bazate pe utilizarea de algoritmi. Big Data pot fi folosite pentru a identifica tendințele și corelațiile generale, dar pot fi utilizate și pentru a afecta direct persoanele.”[8]

Problema cu această definiție e că nu ia în considerare reutilizarea datelor cu caracter personal.

Regulamentul nr. 2016/679 definește datele personale (articolul 4, paragraful 1) drept

„orice informație referitoare la o persoană fizică identificată sau identificabilă (persoana vizată); o persoană fizică identificabilă este cea care poate fi identificată, în mod direct sau indirect, în special prin referire la un identificator cum ar fi un nume, un număr de identificare, date de localizare, un identificator online sau unul sau mai mulți factori specifici identității fizice, fiziologice, genetice, mentale, economice, culturale sau sociale a acelei persoane fizice.”

Definiția se aplică, la nivelul UE, și persoanelor neidentificate dar care pot fi identificate prin corelarea datelor anonime cu alte informații suplimentare. Datele cu caracter personal, o dată anonimizate (sau pseudo-anonimizate), pot fi prelucrate fără a fi nevoie de o autorizație, ținându-se totuși cont de riscul  re-identificării persoanei vizate.

Dimensiunile Big Data[modificare | modificare sursă]

Datele sunt partajate și stocate pe servere, prin interacțiunea dintre entitatea implicată și sistemul de stocare. În acest context, Big Data se poate clasifica în sisteme active (interacțiune sincronă, datele entității sunt trimise direct către sistemul de stocare), și sisteme pasive (interacțiune asincronă, datele sunt colectate printr-un intermediar și apoi introduse în sistem.

De asemenea, datele pot fi transmise direct în mod conștient, sau ne-conștient (dacă persoana ale cărei date sunt transmise nu este notificată la timp și clar). Datele sunt apoi prelucrate pentru a genera statistici.

În funcție de ținta analizelor statisticilor respective, dimensiunile datelor pot fi a) individuale (este analizat o singur entitate); sociale (se analizează grupuri discrete de entități din cadrul unei populații; și hibride (când o entitate este analizată prin prisma apartenenței sale la un grup deja definit).

Producția actuală imensă de date generate de utilizatori este estimată că va crește cu 2000% 1 2 3 la nivel mondial până în 2020, și sunt adesea nestructurate. În general, Big Data se caracterizează prin:

  • Volum (cantitatea de date);
  • Varietate (produse de diferite surse în diferite formate);
  • Viteză (viteza de analiza online a datelor);
  • Veracitate (datele sunt incerte și trebuie verificate);
  • Valoare (evaluată prin analiză).

Volumul de date produse și stocate evoluează în prezent exponențial, peste 90% din ele fiind generate în ultimii patru ani.[8] Volumele mari necesită viteză mare de analiză, cu impact puternic asupra veracității. Datele incorecte au potențialul de a genera probleme atunci când sunt folosite în procesul de decizie.

Una din problemele important cu Big Data este dacă este nevoie de datele complete pentru a trage anumite concluzii cu privire la proprietățile lor, sau este suficient un eșantion. Big Data conține chiar în nume un termen legat de dimensiune, care este o caracteristică importantă a Big Data. Dar eșantionarea (statistică) permite selectarea unor puncte corecte de colectare de date dintr-un set mai larg pentru a estima caracteristicile întregii populații. Big Data pot fi eșantionate pe diferite categorii de date în procesul de selecție a probelor cu ajutorul unor algoritmii de eșantionare pentru Big Data.

BIGDATA[modificare | modificare sursă]

"Datele păstrate și prelucrate în cantități imense, datorită unor medii de stocare mai ieftine, unor metode de procesare mai rapide și unor algoritmi mai performanți" definiția din - Big Data: A revolution that will transform how we live - de Viktor Mayer-Schönberger și Kenneth Cukier.

Big Data a devenit o problemă în afaceri, sau cel puțin o problemă pe care oamenii de afaceri incep să o conștientizeze. Presa începe să aloce din ce în ce mai mult spațiu acestui subiect. Pornind cu Wall Street Journal "Companiile sunt inundate cu date" (“Companies are being inundated with data") la Financial Times "Din ce în ce în afaceri sunt aplicate analize din mass-media, cum ar fi Facebook și Twitter" ("Increasingly businesses are applying analytics to social media such as Facebook and Twitter"), Forbes "Big Date a ajuns la Seton Health Care Family" ("Big Data has arrived at Seton Health Care Family"). De ce atâtea articole pe aceasta temă? Deoarece BIG DATA are potențialul de a afecta profund modul în care facem afaceri și chiar modul de a trăi.

Big Data are 4 caracteristici principale.

Prima caracteristică este VOLUMUL.[modificare | modificare sursă]

Da, volumul de date este în creștere. Experții prezic că volumul de date din lume, va crește la 25 de Zettabytes în 2020. Același fenomen afectează fiecare companie - datele sunt în creștere la aceeași rată exponențială. Dar nu este numai volumul de date care este în creștere, numărul de surse de date este de asemenea în creștere.

A doua caracteristică este VITEZA.[modificare | modificare sursă]

Datele se creează la viteze din ce în ce mai mari. Companiile își mută aplicațiile de la aplicații de tip "batch" la aplicații în timp real. Și cerințele de afaceri au crescut la fel - de la răspunsuri săptămâna viitoare sau măine la un răspuns într-un minut sau la secundă. Și lumea este, de asemenea, din ce în ce mai instrumentată și interconectată. Volumul de date de streaming de pe aceste instrumente este exponențial mai mare decât a fost chiar cu 2 ani în urmă.

A treia caracteristică este VARIETATEA datelor.[modificare | modificare sursă]

Varietatea datelor prezintă o provocare la fel de dificilă. Creșterea surselor de date a alimentat și creșterea tipurilor de date. De fapt, 80% din datele generate în lume sunt date nestructurate. Cu toate acestea, metodele tradiționale de analiză se aplică numai la informații structurate.

A patra caracteristică este VERIDICITATEA datelor.[modificare | modificare sursă]

Cum se poate acționa pe baza acestor informații, dacă nu sunt de încredere. Stabilirea încrederii în datele pe care le folosește orice companie reprezintă o provocare uriașă odată cu creșterea surselor și tipurilor de date.

Un alt motiv pentru care Big Data este un subiect fierbinte astăzi este noua tehnologie care permite unei organizații să beneficieze de resursele interne de date. Ceea ce este nou, este tehnologia pentru a procesa și analiza aceste date la volumul și viteza dorită. Scopul tehnologiei Big Data este să analizeze toate datele disponibile, eficient din punct de vedere costuri. Orice date, așa cum sunt. Se pot analiza date structurate, video, audio, date spațiale sau orice tip de date.

Datele pot veni de la sistemele noastre tradiționale - sisteme de facturare, sisteme ERP, sisteme CRM. De asemenea, vin de la mașini - de la etichetele RFID, senzori, comutatoare de rețea. Și datele vin de la oameni - site-ul web, social media, etc. Acest lucru face foarte dificilă analiza datelor sociale - extragerea ideilor de conținut în mare parte sub formă de text într-un timp foarte scurt.

Virtualizarea datelor[modificare | modificare sursă]

Virtualizarea datelor este o modalitate de colectare a datelor din mai multe surse într-o singură "vizualizare". Adunarea este virtuală: spre deosebire de alte metode, cele mai multe date rămân acolo unde a fost inițial și sunt preluate din surse brute la cerere.[9]

Note[modificare | modificare sursă]

  1. ^ Hilbert, Martin; López, Priscila (). „The World's Technological Capacity to Store, Communicate, and Compute Information”. Science. 332 (6025): 60–65. Bibcode:2011Sci...332...60H. doi:10.1126/science.1200970. PMID 21310967. Accesat în . 
  2. ^ „Big Data”. SetThings.com. . Accesat în . 
  3. ^ Reichman, O. J.; Jones, Matthew B.; Schildhauer, Mark P. (). „Challenges and Opportunities of Open Data in Ecology”. Science. 331 (703). doi:10.1126/science.1197962. 
  4. ^ Dedić, Nedim; Stanier, Clare (). ”Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery”, în Innovations in Enterprise Information Systems Management and Engineering. Springer International Publishing. pp. 114–22. 
  5. ^ „Information Overload”. Science History Institute (în engleză). Sarah Everts. . Accesat în . 
  6. ^ Mayer-Schönberger,, Viktor; Cukier, Kenneth (). Big Data: A Revolution That Will Transform How We Live, Work, and Think. Boston: Eamon Dolan/Mariner Books. 
  7. ^ Sfetcu, Nicolae (). „Etica Big Data în cercetare”. ResearchGate. doi:10.13140/RG.2.2.27629.33761. 
  8. ^ a b „The Ethics of Big Data: Balancing Economic Benefits and Ethical Questions of Big Data in the EU Policy Context” (în engleză). European Economic and Social Committee. . Accesat în . 
  9. ^ „Big Data Virtualization”. 

Bibliografie[modificare | modificare sursă]