Korelacio

El Vikipedio, la libera enciklopedio
Saltu al: navigado, serĉo

En teorio de probablo kaj en statistiko, la korelacio, aŭ korelativeco, inter du aŭ pluraj hazardaj variabloj aŭ ciferaj statistikoj permesas studi intensecon de la ligo, kiu eblas ekzisti inter tiaj variabloj. Pri du nombraj variabloj, ĝi estas lineara regreso.

La mezuro de tia korelacio estas akirita per kalkulo de la koeficiento de lineara koeficiento. Tiu koeficiento egalas al kvociento inter la kunvarianco de la variabloj kaj la nenula produto de iliaj variancaj devioj. Korelaciokoeficiento[1] estas nombro (sen mezurunuo), kiu valoras inter -1 kaj +1.

Rekto de regreso[redakti | redakti fonton]

Kalkuli koeficienton de korelacio inter du nombraj variabloj estas serĉi resumi la ligon, kiu ekzistas inter la variabloj per rekto. Oni ial nomas ĝin lineara alĝustigo.

Kiel kalkuli la parametrojn de tia rekto? per minimumigo de la eraro, kiun ni kulpas fare de la reprezento de la ligo inter niaj variabloj per tia rekto. La formala kriterio ofte uzata, sed ne la ununura, estas minimumigi la sumon de ĉiuj kvadratoj de enhavantaj eraroj. Oni ial nomas ĝin alĝustigo laŭ la metodo de kvadrataj minimumoj. La rekto rezultigata de tia alĝustigo nomiĝas rekto de regreso.

Lineara korelaciokoeficiento de Pearson[redakti | redakti fonton]

Formulo[redakti | redakti fonton]

Kiam oni studas du hazardajn variabojn X kaj Y pri statistika loĝantaro, komune uzata metodo estas per la korelaciokoeficiento de Pearson, kies nomo devenas de la metodo kreita de la brita matematikisto Karl Pearson. Tiu koeficiento simboliĝas per \rho_{XY} \ , kaj kalkuliĝas per la sekvanta matematika esprimo:

\rho_{XY} = \mathrm{kor} (X,Y) = \frac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y}  =  \frac{
    \operatorname{E} [(X-\mu)(Y-\nu)]  }{
    \sqrt{\operatorname{E} [(X-\mu)^2]} \cdot \sqrt{\operatorname{E} [(Y-\nu)^2]}
  }
 \, ,

kie

  • \sigma_{X} estas la varianca devio de la variablo X (aŭ nefinia, aŭ kun N elementoj) ,
  • \sigma_{Y} estas la varianca devio de la variablo Y (aŭ nefinia, aŭ kun N elementoj) .

Se oni konsideras parton de la matematika loĝantaro, kun finia specimeno de la du vicoj (x_1,\dots,x_n) kaj (y_1,\dots,y_n), kie n < N, la korelaciokoeficiento estas:

r_{XY} = \frac{S_{XY}}{S_X \, S_Y} \, ,

kie

  • S_{XY} estas la specimena kunvarianco de la paro de variabloj (X,Y) ,
  • S_{X} estas la specimena varianca devio de la variablo X (kun n elementoj) ,
  • S_{Y} estas la specimena varianca devio de la variablo Y (kun n elementoj) .

Oni povas demonstri ke la korelaciokoeficientoj ĉiam valoras inter -1 kaj +1. Ankaŭ, oni povas konsideri ke la du esprimoj egalas, kiam n estas sufiĉe granda:

-1 \leq r_{XY} \simeq \rho_{XY} \leq +1 \, .

Empiria korelaciokoeficiento[redakti | redakti fonton]

Se oni anstataŭas la atenditaj valoroj \mu kaj \nu, respektive de X kaj Y per iliaj empiriaj meznombroj \bar{x} = \frac{1}{n} \sum_{i=1}^n{x_i} kaj \bar{y} = \frac{1}{n} \sum_{i=1}^n{x_i}, tiam la korelaciokoeficiento estas:

\begin{align}
 \rho_{xy} 
&=\frac{
  \frac{1}{n}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)
 }{
  \sqrt{
    \frac{1}{n}\sum_{i=1}^n(x_i-\bar x)^2
  }\cdot\sqrt{
    \frac{1}{n}\sum_{i=1}^n(y_i-\bar y)^2
  }
}\\
&=\frac{
  \sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)
 }{
  \sqrt{
    \sum_{i=1}^n(x_i-\bar x)^2\cdot
    \sum_{i=1}^n(y_i-\bar y)^2
  }
}.\end{align}

Se nun oni konsideras ke la n elementoj de ambaŭ vocoj estas subloĝantaro, tiam oni difinas:

\begin{align}
 r_{xy}
&=\frac{
  \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)
 }{
  \sqrt{
    \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2
  }\cdot\sqrt{
    \frac{1}{n-1}\sum_{i=1}^n(y_i-\bar y)^2
  }
}\\
&=\frac{
  \sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)
 }{
  \sqrt{
    \sum_{i=1}^n(x_i-\bar x)^2\cdot
    \sum_{i=1}^n(y_i-\bar y)^2
  }
}.\end{align}

Ĉi tie la du koeficientoj do egalas:

\begin{align}
 \rho_{xy} = r_{xy}\\
  
.\end{align}

Korelacio kaj lineareco[redakti | redakti fonton]

La korelaciokoeficiento de Pearson intervenas en la angula koeficiento[2] de la proksimuma rekto de regreso, tiel:

x_i =\bar x + \rho_{XY} \frac{\sigma_{X}}{\sigma_Y} (y_i - \bar y) \, ,

kaj

y_i =\bar y + \rho_{XY} \frac{\sigma_{Y}}{\sigma_X} (x_i - \bar x) \, .

Oni povas demonstri ke tiuj parametroj de rektoj kongruas kun la metodo de kvadrataj minimumoj.

Interpreto[redakti | redakti fonton]

Tiuj ekvacioj supozas ke kresko (\rho_{XY} >0 ) aŭ malkresko (\rho_{XY}<0)) de la eraroj de la variablo X (resp. Y) varias proporcie al la eraroj de la variablo Y (resp. X).

Kiam la variabloj estas nedependaj, tial \rho_{XY} = 0 (la angula koeficiento de la rekto nulas); sed nereciproke, ĉar eblas ke \rho_{XY}  = 0 , eĉ kiam variabloj estas interdependaj.

Ju pli la korelaciokoeficiento estas for de 0, des pli la variabloj estas korelativaj. Kiam la korelaciokoeficiento proksimumas +1 aŭ -1, oni diras ke la variabloj estas forte korelativaj.

Kvarteto de Ascombe[redakti | redakti fonton]

Kvar aroj de datenoj kun sama korelacio egala al 0.816

La korelaciokoeficiento de Pearson indikas la intensecon de la lineara rilato inter du variabloj, sed ĝia valoro ĝenerale ne tute karakterizas iliajn rilatojn. Aparte kiam la rilato inter X kaj Y estas forte nelineara, la korelaciokoeficiento ne klare determinas la formon de la rilato.

La bildo dekstere montras la kvarteton de Ascombe, aro de kvar malsamaj paroj de hazardaj variabloj kreita de brita statistikisto Francis Ascombe[3]. La kvar Y variabloj enhavas samajn meznombron \bar y = 7,5 , variancon \sigma_{Y}^2 = 3,75 , korelacion \rho_{xy} = 0,816 \ kaj rekton de regreso: y =7,5 + 0,816 \frac{\sqrt{3,75}}{\sqrt{10}} (x - 9) \simeq 3+ 0,5 x  \, .

Tamen oni povas vidi sur la grafikaĵoj, ke la distribuoj de la variabloj estas tre malsamaj. La unua (supre kaj maldekstre) ŝajnas esti ordinara distribuo, kaj korespondas al la atentitaĵo, kiam oni konsideras du korelativajn variablojn, kiuj sekvas la hipotezon de normaleco. La dua (supre kaj dekstre) estas ne ordinara distribuo, malgraŭ evidenta rilato inter la du variabloj vidiĝas, kiu estas nelineara. Pri tiu kazo, la korelaciokoeficiento de Pearson ne indikas ke ekzistas ekzakta funkcia rilato. La tria (malsupre kaj maldekstre) vidigas, ke la lineara rilato estas perfekta, krom pri ununura fora valoro, kiu malaltigas la korelaciokoeficienton de 1 al 0,816. Finfine, la kvara (malsupre kaj dekstre) montras alian ekzemplon, kie ununura aliloka valoro sufiĉas por implici grandan korelaciokoeficienton, malgraŭ ke la rilato inter la du variabloj estas tute nelineara.

Ĉi tiuj ekzemploj indikas ke la korelaciokoeficiento, kiel statistika resumo, ne permesas anstataŭigi vidan ekzamenon de la datenoj.

Matrico de korelacio[redakti | redakti fonton]

La matrico de korelacio de n hazardaj variabloj X1, ..., Xn estas la n  ×  n matrico, kies i,j elemento estas kor(XiXj). Se la korelacio estas taksita per linearaj korelaciokoeficientoj, la matrico de korelacio estas la sama ol la matrico de varianco-kunvarianco de la normigitaj hazardaj variabloj: Xi / σ(Xi) for i = 1, ..., n. Tio validas pri ambaŭ matrico de korelacioj de loĝantaro (tiel "σ" estas la loĝantara norma diferenco), kaj la matrico de specimenaj korelacioj (tiel "σ" estas la specimena norma diferenco). Konsekvence, ĉiu estas nepre pozitive duondifinita matrico.

La matrico de korelacio estas ankaŭ simetria, ĉar la korelacio inter Xi kaj Xj estas la sama ol la korelacio inter Xj kaj  Xi.

Vidu ankaŭ[redakti | redakti fonton]

Referencoj[redakti | redakti fonton]

  1. ReVo  korelacio en ReVo
  2. ReVo  Inklino en ReVo
  3. Anscombe (1973). Grafikajoj pri statistika analizo. The American Statistician 27.(angle)

Eksteraj ligiloj[redakti | redakti fonton]