Covarianță

De la Wikipedia, enciclopedia liberă
Sari la navigare Sari la căutare

În teoria probabilității și statistică, covarianța este măsura de variație comună a două variabile aleatorii.[1] Dacă valorile mari ale unei variabile corespund, în general, valorilor mari ale celeilalte variabile, și dacă același lucru este valabil în cazul valorilor mici (i.e. cele două variabile au comportamente similare), covarianța este pozitivă.[2] Pe de altă parte, dacă valorile mari ale unei variabile corespund, în general, valorilor mici ale celeilalte variabile (i.e. cele două variabile au comportamente opuse), covarianța este negativă. Prin urmare, semnul covarianței arată direcția relației liniare existente între cele două variabile. Magnitudinea covarianței nu este ușor de interpretat, deoarece nu este normalizată și, prin urmare, depinde de magnitudinea variabilelor. Versiunea normalizată a covarianței, coeficientul de corelație, poate arăta însă prin magnitudine puterea relației liniare.

Trebuie făcută o distincție între (1) Covarianța a două variabile aleatorii, care este un parametru al populației ce poate fi interpretat ca o proprietate a distribuției multivariate de probabilitate, și (2) Covariația eșantionului, care, pe lângă rolul descriptiv asupra eșantionului, reprezintă valoarea estimată a parametrului populației.

Definiție[modificare | modificare sursă]

Covarianța unei distribuții bivariate a două variabile aleatorii X și Y, cu momente secundare finite, este definită ca media produselor deviațiilor de la mediile lor individuale:[3]

unde E[X] este media variabilei X. Covarianța este adesea desemnată prin σXY sau σ(X,Y), în analogie cu varianța. Folosind proprietatea liniarității mediilor, formula de mai sus poate fi redusă la media produselor celor două variabile minus produsul mediilor lor:

Totuși, când , această din urmă ecuație poate fi afectată de reducere numerică atunci când este calculată cu virgulă mobilă și, prin urmare, ar trebui evitată în programele de calcul când datele n-au fost centrate înainte.[4] În acest caz, algoritmi stabili numeric ar trebui preferați. .

Pentru vectorii aleatori și , matricea covarianței încrucișate m × n este:

unde mT este transpusa vectorului m.

Elementul (i, j) al matricei este egal cu covarianța cov(Xi, Yj) între scalarul al i-lea aparținând X și scalarul al j-lea aparținând Y. În particular, cov(Y, X) este transpusa cov(X, Y).

Pentru un vector reprezentând distribuția multivariată a m variabile cu momente secundare finite, matricea covarianței (știută și ca matricea variație-covarianță) este definită ca

Variabilele aleatorii a căror covarianță este zero sunt variabile necorelate. În același fel, componentele vectorilor aleatori a căror matrice de covarianță prezintă valori zero pentru fiecare intrare, cu excepția diagonalei principale, se numesc vectori necorelați.

Unitatea de măsură a covarianței cov(X, Y) este unitatea de măsură a lui X multiplicată cu unitatea de măsură a lui Y. În schimb, în cazul corelației, ce depinde de covarianță, nu există unitate de măsură (i.e. este un coeficient adimensional, ce reprezintă o normalizare a covarianței).

Variabile discrete[modificare | modificare sursă]

Dacă perechea de variabile aleatoare (X, Y) poate lua valori (xi, yi) pentru i = 1, ... , n, cu probabilități egale 1/n, atunci covarianța poate fi scrisă, în termeni echivalenți, funcție de mediile și ca

Poate fi, de asemenea, exprimată fără a se face referire directă la medii:[5]

În general, dacă sunt n diferite perechi de (X, Y), respectiv (xi, yi) pentru i = 1, ... , n, , dar presupunând că probabilitățile de apariție pi sunt inegale, atunci covarianța este:

Exemplu pentru variabilă aleatoare discretă[modificare | modificare sursă]

Fie X și Y având următoarea funcție (bivariată) de masă,[6], în care cele șase celule centrale dau probabilitățile f(x, y) de realizare a celor șase cazuri ipotetice: (x, y) = (1, 1), (1, 2), (1, 3), (2, 1), (2,2), și (2, 3):

y
f(x,y) 1 2 3 fX(x)
1 1/4 1/4 0 1/2
x 2 0 1/4 1/4 1/2
fY(y) 1/4 1/2 1/4 1

X poate lua două valori (1 și 2), în timp ce Y poate lua trei valori (1, 2, și 3). Mediile lor sunt și . Deviațiile standard (aici considerate parametrii de populație) ale lui X și Y sunt și . Atunci avem:

Proprietăți[modificare | modificare sursă]

  • Varianța este un caz special al covarianței, în care cele două variabile sunt identice. Prin urmare, se poate defini ca:

  • Dacă X, Y, W, și V sunt variabile aleatoare reale, iar a, b, c, d sunt constante (prin “constante” înțelegându-se valori date, nealeatorii), atunci avem următoarele consecințe ale definiției covarianței:
Pentru o secvență X1, ..., Xn de variabile aleatoare, și constante a1, ..., an, avem:
  • O identitate utilă pentru calcularea covarianței dintre două variabile aleatorii este Identitatea lui Hoeffding:[7]
unde este funcția de distribuție bivariată a vectorului aleator și sunt marginalii.

O identitate mai generală pentru matricele de covarianță[modificare | modificare sursă]

Fie X un vector aleator cu matrice de covarianță Σ(X), și fie A o matrice ce este operabilă pe X. Matricea de covarianță a produsului matrice-vector A X este:

Acesta este un rezultat direct al liniarității mediilor, fiind folositor în aplicarea transformărilor liniare asupra unui vector (exp. în cazul transformării necorelative).

Lipsa de corelație și independența[modificare | modificare sursă]

Dacă X și Y sunt independenți, atunci covarianța lor este zero.[8] Acest lucru rezultă deoarece,

Opusul însă, nu este mereu adevărat. Spre exemplu, fie variabila X uniform distribuită în intervalul [-1, 1], iar Y = X2. În mod clar, X și Y, sunt dependente, dar, conform formulei:

În acest caz, relația dintre Y și X nu este liniară, pe când corelația și covariația sunt măsuri ale dependenței liniare dintre două variabile. Acest exemplu arată că dacă două variabile nu sunt corelate, aceasta nu implică cu necesitate că sunt și independente. Totuși, dacă cele două variabile au o distribuție multivariată normală (deci nu individuală, ci multivariată), lipsa de corelație implică cu necesitate independența.

Relația cu spațiile prehilbertiene[modificare | modificare sursă]

Multe dintre proprietățile covariației pot fi deduse elegant, asemănându-se proprietăților spațiilor prehilbertiene:

  1. biliniaritatea: pentru constantele a și b, și variabile aleatoare X, Y, Z, cov(aX + bY, Z) = a cov(X, Z) + b cov(Y, Z);
  2. simetria: cov(X, Y) = cov(Y, X);
  3. pozitivism semi-definit: σ2(X) = cov(X, X) ≥ 0 pentru toate variabilele aleatoare X, și cov(X, X) = 0 implică faptul că X este o variabilă aleatoare constantă (K).

În fapt aceste proprietăți implică definirea de către covarianță a unui spațiu prehilbertian asupra spațiului vectorial fracționar obținut prin extragerea subspațiului de variabile aleatoare cu momente secundare finite și identificarea acelora (oricăror două) care diferă printr-o constantă. (Această identificare transformă pozitivitatea semi-definită de mai sus în pozitivitate definită absolut). Spațiul vectorial fracționar este izomorfic față de subspațiul variabilelor aleatorii cu momente secundare finite și medie zero; pe acel subspațiu, covarianța este exact spațiul prehilbertian L2 al funcțiilor de valori reale definite pe acel spațiu.

Drept urmare, pentru variabilele aleatorii cu variații finite, inegalitatea

este valabilă via inegalitatea Cauchy–Schwarz.

Demonstrație: Dacă σ2(Y) = 0, atunci demonstrația este trivială. Pentru soluția non-trivială, fie variabila aleatoare

Atunci avem

Calcularea covarianței pentru un eșantion[modificare | modificare sursă]

Covarianțele eșantionului a K variabile cu câte N observații fiecare, extrase dintr-o populație, sunt date de matricea K x K: , cu intrările:

ceea ce reprezintă o estimare a covarianței dintre variabila j și variabila k.

Media eșantionului și covariația eșantionului reprezintă estimatori nealterați ai matricelor mediei și covarianței vectorului aleatoriu , al cărui j-lea element (j = 1, ..., K) este una din variabilele aleatoare. Motivul pentru care matricea covarianței eșantionului are la numitor, mai degrabă decât este că media populației nu este cunoscută, fiind astfel înlocuită cu media eșantionului . Dacă media populației este cunoscută, estimarea nealterată analoagă este dată de:

Comentarii adiționale[modificare | modificare sursă]

Covarianța este uneori numită “măsură a dependenței liniare” a două variabile aleatoare. Aceasta nu înseamnă același lucru ca în contextul algebrei liniare (vezi dependență liniară). Când covarianța este normalizată (i.e. standardizată), se obține coeficientul de corelație Pearson, ce dă calitatea modelării pentru cea mai bună funcție liniară posibilă ce descrie relația dintre variabile. În acest sens, covarianța este un instrument pentru dependența liniară.

Aplicații[modificare | modificare sursă]

În genetică și biologie moleculară[modificare | modificare sursă]

Covarianța este un indicator important în biologie. Anumite secvențe de ADN sunt conservate mai mult decât altele între specii, astfel, pentru a studia structurile secundare sau terțiare ale proteinelor, sau structurile ARN, secvențele sunt comparate pentru specii înrudite. Dacă schimbări secvențiale sunt găsite sau nu sunt găsite deloc în ARN non-codant (exp. microARN), se presupune că secvențele sunt necesare pentru forme structurale comune, precum buclele ARN. În genetică, covarianța servește ca bază pentru calcularea Matricei Relației Genetice (GRM), ce mai este numită și matricea de înrudire, permițând inferențierea asupra structurii unei populații pe baza unui eșantion, precum și inferențierea asupra moștenirii unor complexe de trăsături. .

În finanțe[modificare | modificare sursă]

Covarianțele joacă un rol esențial în finanțe, în special în teoria portofoliului și în modelul CAPM. Covarianțele, alături de randamentele așteptate pentru diferite active, se folosesc pentru determinarea proporțiilor de diferite active pe care investitorii ar trebui să le dețină în vederea diversificării (și scăderii riscului).

În meteorologie și oceanografie[modificare | modificare sursă]

Matricea covarianțelor este importantă în estimarea condițiilor inițiale necesare modelelor de estimare a vremii viitoare. Matricea covarianțelor erorilor estimate este construită în jurul perturbărilor de la o stare medie. Matricea covarianțelor erorilor observaților este construită pentru a reprezenta magnitudinea erorilor observaționale combinate (pe diagonală) și erorile corelate dintre măsurători (în afara diagonalei). Acesta este un exemplu al folosirii covarianței de către filtrul Kalman și în vederea estimarea stării (interne) pentru sistemele variabile în timp.

În micrometeorologie[modificare | modificare sursă]

Tehnica covarianței Eddy este un indicator atmosferic în cadrul căruia covarianța dintre deviațiile instantanee ale vitezelor vânturilor verticale de la valoarea medie, și deviațiile instantanee ale concentrării gazelor, reprezintă baza calculării fluxurilor turbulente verticale.

În extragerea și urmărirea caracteristicilor (vocale)[modificare | modificare sursă]

Matricea covarianțelor este folosită pentru a captura variabilitatea spectrală a unui semnal.[9]

Referințe[modificare | modificare sursă]

  1. ^ Rice, John (). Mathematical Statistics and Data Analysis. Belmont, CA: Brooks/Cole Cengage Learning. p. 138. ISBN 978-0534-39942-9. 
  2. ^ Eric W. Weisstein, Covarianță la MathWorld.
  3. ^
    Oxford Dicționar de Statistică, Oxford University Press, 2002, p. 104.
  4. ^ Donald E. Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn., p. 232. Boston: Addison-Wesley.
  5. ^ Yuli Zhang,Huaiyu Wu,Lei Cheng (iunie 2012). Some new deformation formulas about variance and covariance. Proceedings of 4th International Conference on Modelling, Identification and Control(ICMIC2012). pp. 987–992. 
  6. ^ „Covariance of X and Y | STAT 414/415”. The Pennsylvania State University. . Accesat în . 
  7. ^ Papoulis (). Probability, Random Variables and Stochastic Processes. McGraw-Hill. 
  8. ^ Siegrist, Kyle. „Covariance and Correlation”. University of Alabama in Huntsville. Accesat în . 
  9. ^ Sahidullah, Md.; Kinnunen, Tomi (martie 2016). „Local spectral variability features for speaker verification”. Digital Signal Processing. 50: 1–11. doi:10.1016/j.dsp.2015.10.011. 

Link-uri externe[modificare | modificare sursă]