Covarianță

În teoria probabilității și statistică, covarianța este măsura de variație comună a două variabile aleatorii.^[1] Dacă valorile mari ale unei variabile corespund, în general, valorilor mari ale celeilalte variabile, și dacă același lucru este valabil în cazul valorilor mici (i.e. cele două variabile au comportamente similare), covarianța este pozitivă.^[2] Pe de altă parte, dacă valorile mari ale unei variabile corespund, în general, valorilor mici ale celeilalte variabile (i.e. cele două variabile au comportamente opuse), covarianța este negativă. Prin urmare, semnul covarianței arată direcția relației liniare existente între cele două variabile. Magnitudinea covarianței nu este ușor de interpretat, deoarece nu este normalizată și, prin urmare, depinde de magnitudinea variabilelor. Versiunea normalizată a covarianței, coeficientul de corelație, poate arăta însă prin magnitudine puterea relației liniare.

Trebuie făcută o distincție între (1) Covarianța a două variabile aleatorii, care este un parametru al populației ce poate fi interpretat ca o proprietate a distribuției multivariate de probabilitate, și (2) Covariația eșantionului, care, pe lângă rolul descriptiv asupra eșantionului, reprezintă valoarea estimată a parametrului populației.

Definiție

Covarianța unei distribuții bivariate a două variabile aleatorii $X$ și $Y$ , cu momente secundare finite, este definită ca media produselor deviațiilor de la mediile lor individuale:^[3]

\operatorname {cov} (X,Y)=\operatorname {E} {{\big [}(X-\operatorname {E} [X])(Y-\operatorname {E} [Y]){\big ]}},

unde $E[X]$ este media variabilei $X$ . Covarianța este adesea desemnată prin $σ XY$ sau $σ (X,Y)$ , în analogie cu varianța. Folosind proprietatea liniarității mediilor, formula de mai sus poate fi redusă la media produselor celor două variabile minus produsul mediilor lor:

{\begin{aligned}\operatorname {cov} (X,Y)&=\operatorname {E} \left[\left(X-\operatorname {E} \left[X\right]\right)\left(Y-\operatorname {E} \left[Y\right]\right)\right]\\&=\operatorname {E} \left[XY-X\operatorname {E} \left[Y\right]-\operatorname {E} \left[X\right]Y+\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right]\right]\\&=\operatorname {E} \left[XY\right]-\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right]-\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right]+\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right]\\&=\operatorname {E} \left[XY\right]-\operatorname {E} \left[X\right]\operatorname {E} \left[Y\right].\end{aligned}}

Totuși, când $\operatorname {E} [XY]\approx \operatorname {E} [X]\operatorname {E} [Y]$ , această din urmă ecuație poate fi afectată de reducere numerică atunci când este calculată cu virgulă mobilă și, prin urmare, ar trebui evitată în programele de calcul când datele n-au fost centrate înainte.^[4] În acest caz, algoritmi stabili numeric ar trebui preferați. .

Pentru vectorii aleatori $\mathbf {X} \in \mathbb {R} ^{m}$ și $\mathbf {Y} \in \mathbb {R} ^{n}$ , matricea covarianței încrucișate $m \times n$ este:

{\begin{aligned}\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )&=\operatorname {E} \left[(\mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {Y} -\operatorname {E} [\mathbf {Y} ])^{\mathrm {T} }\right]\\&=\operatorname {E} \left[\mathbf {X} \mathbf {Y} ^{\mathrm {T} }\right]-\operatorname {E} [\mathbf {X} ]\operatorname {E} [\mathbf {Y} ]^{\mathrm {T} },\end{aligned}}

unde $m T$ este transpusa vectorului $m$ .

Elementul $(i, j)$ al matricei este egal cu covarianța $cov(X i, Y j)$ între scalarul al $i$ -lea aparținând $X$ și scalarul al $j$ -lea aparținând $Y$ . În particular, $cov(Y, X)$ este transpusa $cov(X, Y)$ .

Pentru un vector $\mathbf {X} ={\begin{bmatrix}X_{1}&X_{2}&\dots &X_{m}\end{bmatrix}}^{\mathrm {T} }$ reprezentând distribuția multivariată a $m$ variabile cu momente secundare finite, matricea covarianței (știută și ca matricea variație-covarianță) este definită ca

$\Sigma (\mathbf {X} )=\operatorname {cov} (\mathbf {X} ,\mathbf {X} )$

Variabilele aleatorii a căror covarianță este zero sunt variabile necorelate. În același fel, componentele vectorilor aleatori a căror matrice de covarianță prezintă valori zero pentru fiecare intrare, cu excepția diagonalei principale, se numesc vectori necorelați.

Unitatea de măsură a covarianței $cov(X, Y)$ este unitatea de măsură a lui $X$ multiplicată cu unitatea de măsură a lui $Y$ . În schimb, în cazul corelației, ce depinde de covarianță, nu există unitate de măsură (i.e. este un coeficient adimensional, ce reprezintă o normalizare a covarianței).

Variabile discrete

Dacă perechea de variabile aleatoare (X, Y) poate lua valori (x_i, y_i) pentru i = 1, ... , n, cu probabilități egale 1/n, atunci covarianța poate fi scrisă, în termeni echivalenți, funcție de mediile $E(X)$ și $E(Y)$ ca

$\operatorname {cov} (X,Y)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-E(X))(y_{i}-E(Y))$

Poate fi, de asemenea, exprimată fără a se face referire directă la medii:^[5]

$\operatorname {cov} (X,Y)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})\cdot (y_{i}-y_{j})={\frac {1}{n^{2}}}\sum _{i}\sum _{j>i}(x_{i}-x_{j})\cdot (y_{i}-y_{j})$

În general, dacă sunt n diferite perechi de (X, Y), respectiv (x_i, y_i) pentru i = 1, ... , n, , dar presupunând că probabilitățile de apariție p_i sunt inegale, atunci covarianța este:

$\operatorname {cov} (X,Y)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-E(X))\cdot (y_{i}-E(Y))$

Exemplu pentru variabilă aleatoare discretă

Fie X și Y având următoarea funcție (bivariată) de masă,^[6], în care cele șase celule centrale dau probabilitățile f(x, y) de realizare a celor șase cazuri ipotetice: (x, y) = (1, 1), (1, 2), (1, 3), (2, 1), (2,2), și (2, 3):

			y
	f(x,y)	1	2	3	f_X(x)
	1	1/4	1/4	0	1/2
x	2	0	1/4	1/4	1/2
	f_Y(y)	1/4	1/2	1/4	1

X poate lua două valori (1 și 2), în timp ce Y poate lua trei valori (1, 2, și 3). Mediile lor sunt $\mu _{X}=3/2$ și $\mu _{Y}=2$ . $\mu _{Y}=2.$ Deviațiile standard (aici considerate parametrii de populație) ale lui X și Y sunt $\sigma _{X}=1/2$ și $\sigma _{Y}={\sqrt {1/2}}$ . Atunci avem:

{\begin{aligned}&\operatorname {cov} (X,Y)=\sigma _{XY}=\sum _{(x,y)\in S}f(x,y)(x-\mu _{X})(y-\mu _{Y})\\={}&\left({\frac {1}{4}}\right)\left(1-{\frac {3}{2}}\right)(1-2)+\left({\frac {1}{4}}\right)\left(1-{\frac {3}{2}}\right)(2-2)\\&{}+(0)\left(1-{\frac {3}{2}}\right)(3-2)+(0)\left(2-{\frac {3}{2}}\right)(1-2)\\&{}+\left({\frac {1}{4}}\right)\left(2-{\frac {3}{2}}\right)(2-2)+\left({\frac {1}{4}}\right)\left(2-{\frac {3}{2}}\right)(3-2)\\={}&{\frac {1}{4}}.\end{aligned}}

Proprietăți

Varianța este un caz special al covarianței, în care cele două variabile sunt identice. Prin urmare, se poate defini ca:

$\operatorname {cov} (X,X)=\operatorname {var} (X)\equiv \sigma ^{2}(X)\equiv \sigma _{X}^{2}$

Dacă X, Y, W, și V sunt variabile aleatoare reale, iar a, b, c, d sunt constante (prin “constante” înțelegându-se valori date, nealeatorii), atunci avem următoarele consecințe ale definiției covarianței:

{\begin{aligned}\operatorname {cov} (X,a)&=0\\\operatorname {cov} (X,X)&=\operatorname {var} (X)\\\operatorname {cov} (X,Y)&=\operatorname {cov} (Y,X)\\\operatorname {cov} (aX,bY)&=ab\,\operatorname {cov} (X,Y)\\\operatorname {cov} (X+a,Y+b)&=\operatorname {cov} (X,Y)\\\operatorname {cov} (aX+bY,cW+dV)&=ac\,\operatorname {cov} (X,W)+ad\,\operatorname {cov} (X,V)+bc\,\operatorname {cov} (Y,W)+bd\,\operatorname {cov} (Y,V)\end{aligned}}

Pentru o secvență X₁, ..., X_n de variabile aleatoare, și constante a₁, ..., a_n, avem:

\sigma ^{2}\left(\sum _{i=1}^{n}a_{i}X_{i}\right)=\sum _{i=1}^{n}a_{i}^{2}\sigma ^{2}(X_{i})+2\sum _{i,j\,:\,i<j}a_{i}a_{j}\operatorname {cov} (X_{i},X_{j})=\sum _{i,j}{a_{i}a_{j}\operatorname {cov} (X_{i},X_{j})}

O identitate utilă pentru calcularea covarianței dintre două variabile aleatorii $X,Y$ este Identitatea lui Hoeffding:^[7]

\operatorname {cov} (X,Y)=\int _{\mathbb {R} }\int _{\mathbb {R} }F_{(X,Y)}(x,y)-F_{X}(x)F_{Y}(y)\,dx\,dy

unde

F_{(X,Y)}(x,y)

este funcția de distribuție bivariată a vectorului aleator

(X,Y)

și

F_{X}(x),F_{Y}(y)

sunt marginalii.

O identitate mai generală pentru matricile de covarianță

Fie $X$ un vector aleator cu matrice de covarianță $Σ(X)$ , și fie $A$ o matrice ce este operabilă pe $X$ . Matricea de covarianță a produsului matrice-vector $A X$ este:

$\Sigma (\mathbf {A} \mathbf {X} )=\operatorname {E} [\mathbf {A} \mathbf {X} \mathbf {X} ^{\mathrm {T} }\mathbf {A} ^{\mathrm {T} }]-\operatorname {E} [\mathbf {A} \mathbf {X} ]\operatorname {E} [\mathbf {X} ^{\mathrm {T} }\mathbf {A} ^{\mathrm {T} }]=\mathbf {A} \Sigma (\mathbf {X} )\mathbf {A} ^{\mathrm {T} }$

Acesta este un rezultat direct al liniarității mediilor, fiind folositor în aplicarea transformărilor liniare asupra unui vector (exp. în cazul transformării necorelative).

Lipsa de corelație și independența

Dacă X și Y sunt independenți, atunci covarianța lor este zero.^[8] Acest lucru rezultă deoarece,

$\operatorname {E} [XY]=\operatorname {E} [X]\cdot \operatorname {E} [Y]$

Opusul însă, nu este mereu adevărat. Spre exemplu, fie variabila X uniform distribuită în intervalul [-1, 1], iar Y = X². În mod clar, X și Y, sunt dependente, dar, conform formulei:

{\begin{aligned}\operatorname {cov} (X,Y)&=\operatorname {cov} (X,X^{2})\\&=\operatorname {E} [X\cdot X^{2}]-\operatorname {E} [X]\cdot \operatorname {E} [X^{2}]\\&=\operatorname {E} \left[X^{3}\right]-\operatorname {E} [X]\operatorname {E} [X^{2}]\\&=0-0\cdot \operatorname {E} [X^{2}]\\&=0.\end{aligned}}

În acest caz, relația dintre Y și X nu este liniară, pe când corelația și covariația sunt măsuri ale dependenței liniare dintre două variabile. Acest exemplu arată că dacă două variabile nu sunt corelate, aceasta nu implică cu necesitate că sunt și independente. Totuși, dacă cele două variabile au o distribuție multivariată normală (deci nu individuală, ci multivariată), lipsa de corelație implică cu necesitate independența.

Relația cu spațiile prehilbertiene

Multe dintre proprietățile covariației pot fi deduse elegant, asemănându-se proprietăților spațiilor prehilbertiene:

biliniaritatea: pentru constantele a și b, și variabile aleatoare X, Y, Z, cov(aX + bY, Z) = a cov(X, Z) + b cov(Y, Z);
simetria: cov(X, Y) = cov(Y, X);
pozitivism semi-definit: σ²(X) = cov(X, X) ≥ 0 pentru toate variabilele aleatoare X, și cov(X, X) = 0 implică faptul că X este o variabilă aleatoare constantă (K).

În fapt aceste proprietăți implică definirea de către covarianță a unui spațiu prehilbertian asupra spațiului vectorial fracționar obținut prin extragerea subspațiului de variabile aleatoare cu momente secundare finite și identificarea acelora (oricăror două) care diferă printr-o constantă. (Această identificare transformă pozitivitatea semi-definită de mai sus în pozitivitate definită absolut). Spațiul vectorial fracționar este izomorfic față de subspațiul variabilelor aleatorii cu momente secundare finite și medie zero; pe acel subspațiu, covarianța este exact spațiul prehilbertian L² al funcțiilor de valori reale definite pe acel spațiu.

Drept urmare, pentru variabilele aleatorii cu variații finite, inegalitatea

|\operatorname {cov} (X,Y)|\leq {\sqrt {\sigma ^{2}(X)\sigma ^{2}(Y)}}

este valabilă via inegalitatea Cauchy–Schwarz.

Demonstrație: Dacă σ²(Y) = 0, atunci demonstrația este trivială. Pentru soluția non-trivială, fie variabila aleatoare

$Z=X-{\frac {\operatorname {cov} (X,Y)}{\sigma ^{2}(Y)}}Y$

Atunci avem

{\begin{aligned}0\leq \sigma ^{2}(Z)&=\operatorname {cov} \left(X-{\frac {\operatorname {cov} (X,Y)}{\sigma ^{2}(Y)}}Y,X-{\frac {\operatorname {cov} (X,Y)}{\sigma ^{2}(Y)}}Y\right)\\[12pt]&=\sigma ^{2}(X)-{\frac {(\operatorname {cov} (X,Y))^{2}}{\sigma ^{2}(Y)}}.\end{aligned}}

Calcularea covarianței pentru un eșantion

Covarianțele eșantionului a K variabile cu câte N observații fiecare, extrase dintr-o populație, sunt date de matricea K x K: $\textstyle {\overline {\mathbf {q} }}=\left[q_{jk}\right]$ , cu intrările:

q_{jk}={\frac {1}{N-1}}\sum _{i=1}^{N}\left(X_{ij}-{\bar {X}}_{j}\right)\left(X_{ik}-{\bar {X}}_{k}\right),

ceea ce reprezintă o estimare a covarianței dintre variabila $j$ și variabila $k$ .

Media eșantionului și covariația eșantionului reprezintă estimatori nealterați ai matricelor mediei și covarianței vectorului aleatoriu $\textstyle \mathbf {X}$ , al cărui j-lea element (j = 1, ..., K) este una din variabilele aleatoare. Motivul pentru care matricea covarianței eșantionului are $\textstyle N-1$ la numitor, mai degrabă decât $\textstyle N$ este că media populației $\operatorname {E} (X)$ nu este cunoscută, fiind astfel înlocuită cu media eșantionului $\mathbf {\bar {X}}$ . Dacă media populației $\operatorname {E} (X)$ este cunoscută, estimarea nealterată analoagă este dată de:

$q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(X_{ij}-\operatorname {E} (X_{j})\right)\left(X_{ik}-\operatorname {E} (X_{k})\right)$

Comentarii adiționale

Covarianța este uneori numită „măsură a dependenței liniare” a două variabile aleatoare. Aceasta nu înseamnă același lucru ca în contextul algebrei liniare (vezi dependență liniară). Când covarianța este normalizată (i.e. standardizată), se obține coeficientul de corelație Pearson, ce dă calitatea modelării pentru cea mai bună funcție liniară posibilă ce descrie relația dintre variabile. În acest sens, covarianța este un instrument pentru dependența liniară.

Aplicații

În genetică și biologie moleculară

Covarianța este un indicator important în biologie. Anumite secvențe de ADN sunt conservate mai mult decât altele între specii, astfel, pentru a studia structurile secundare sau terțiare ale proteinelor, sau structurile ARN, secvențele sunt comparate pentru specii înrudite. Dacă schimbări secvențiale sunt găsite sau nu sunt găsite deloc în ARN non-codant (exp. microARN), se presupune că secvențele sunt necesare pentru forme structurale comune, precum buclele ARN. În genetică, covarianța servește ca bază pentru calcularea Matricei Relației Genetice (GRM), ce mai este numită și matricea de înrudire, permițând inferențierea asupra structurii unei populații pe baza unui eșantion, precum și inferențierea asupra moștenirii unor complexe de trăsături. .

În finanțe

Covarianțele joacă un rol esențial în finanțe, în special în teoria portofoliului și în modelul CAPM. Covarianțele, alături de randamentele așteptate pentru diferite active, se folosesc pentru determinarea proporțiilor de diferite active pe care investitorii ar trebui să le dețină în vederea diversificării (și scăderii riscului).

În meteorologie și oceanografie

Matricea covarianțelor este importantă în estimarea condițiilor inițiale necesare modelelor de estimare a vremii viitoare. Matricea covarianțelor erorilor estimate este construită în jurul perturbărilor de la o stare medie. Matricea covarianțelor erorilor observaților este construită pentru a reprezenta magnitudinea erorilor observaționale combinate (pe diagonală) și erorile corelate dintre măsurători (în afara diagonalei). Acesta este un exemplu al folosirii covarianței de către filtrul Kalman și în vederea estimarea stării (interne) pentru sistemele variabile în timp.

În micrometeorologie

Tehnica covarianței Eddy este un indicator atmosferic în cadrul căruia covarianța dintre deviațiile instantanee ale vitezelor vânturilor verticale de la valoarea medie, și deviațiile instantanee ale concentrării gazelor, reprezintă baza calculării fluxurilor turbulente verticale.

În extragerea și urmărirea caracteristicilor (vocale)

Matricea covarianțelor este folosită pentru a captura variabilitatea spectrală a unui semnal.^[9]

Referințe

^ Rice, John (2007). Mathematical Statistics and Data Analysis. Belmont, CA: Brooks/Cole Cengage Learning. p. 138. ISBN 978-0534-39942-9.
^ Eric W. Weisstein, Covarianță la MathWorld.
^
Oxford Dicționar de Statistică, Oxford University Press, 2002, p. 104.
^ Donald E. Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn., p. 232. Boston: Addison-Wesley.
^ Yuli Zhang,Huaiyu Wu,Lei Cheng (iunie 2012). Some new deformation formulas about variance and covariance. Proceedings of 4th International Conference on Modelling, Identification and Control(ICMIC2012). pp. 987–992.
^ „Covariance of X and Y | STAT 414/415”. The Pennsylvania State University. 12 d.Hr.. Accesat în 12 d.Hr..
^ Papoulis (1991). Probability, Random Variables and Stochastic Processes. McGraw-Hill.
^ Siegrist, Kyle. „Covariance and Correlation”. University of Alabama in Huntsville. Accesat în 12 d.Hr..
^ Sahidullah, Md.; Kinnunen, Tomi (martie 2016). „Local spectral variability features for speaker verification”. Digital Signal Processing. 50: 1–11. doi:10.1016/j.dsp.2015.10.011.

Link-uri externe

Hazewinkel, Michiel, ed. (2001), „Covariance”, Encyclopaedia of Mathematics, Kluwer Academic Publishers, ISBN 978-1556080104
MathWorld page on calculating the sample covariance
Covariance Tutorial using R
Covariance and Correlation

[1] Rice, John (2007). Mathematical Statistics and Data Analysis. Belmont, CA: Brooks/Cole Cengage Learning. p. 138. ISBN 978-0534-39942-9.

[2] Eric W. Weisstein, Covarianță la MathWorld.

[3] 
Oxford Dicționar de Statistică, Oxford University Press, 2002, p. 104.

[4] Donald E. Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn., p. 232. Boston: Addison-Wesley.

[5] Yuli Zhang,Huaiyu Wu,Lei Cheng (iunie 2012). Some new deformation formulas about variance and covariance. Proceedings of 4th International Conference on Modelling, Identification and Control(ICMIC2012). pp. 987–992.

[6] „Covariance of X and Y | STAT 414/415”. The Pennsylvania State University. 12 d.Hr.. Accesat în 12 d.Hr..

[7] Papoulis (1991). Probability, Random Variables and Stochastic Processes. McGraw-Hill.

[8] Siegrist, Kyle. „Covariance and Correlation”. University of Alabama in Huntsville. Accesat în 12 d.Hr..

[9] Sahidullah, Md.; Kinnunen, Tomi (martie 2016). „Local spectral variability features for speaker verification”. Digital Signal Processing. 50: 1–11. doi:10.1016/j.dsp.2015.10.011.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]