Analizo al precipaj konsisteroj

El Vikipedio, la libera enciklopedio
Saltu al: navigado, serĉo

Analizo al precipaj konsisteroj (alinomita transformo de Karhunen-Loève (KLT), aŭ transformo de Hotelling) estas matematika teĥniko por plisimpligi la datumojn rezultantaj enkadre de statistiko multvariabla, kaj kiu ebligas evidentigi fenomenojn ial kaŝitajn en la komplekseco de multego da datumoj, determinante kunmetaĵojn da plej rezultivaj datumoj. Tiu metodo ne estis ebla ĝis la ekekzisto de komputiloj, ĉar ĝi bezonas egan amason da kalkulado, sed ekde informadiko, ĝi estas facila kaj fruktdona teĥniko, kiu ekzemple montris el la genaj datumoj de eŭropa loĝantaro la genetikan apartecon de la Eŭskoj de Ebro ĝis Garono, aŭ pruvi, ke la disvastiĝo de agrikulturo ne estis disvastiĝo de novkutimo, sed de gento da agrikulturantoj.

Analizo al precipaj konsisteroj de multvariebla normala distribuo centrata en (1,3) kun norma devio de 3 laŭ la direkto (0.878, 0.478), kaj de 1 laŭ la orta direkto. La montrataj vektoroj estas la ajgenvektoroj de la matrico de varianco- kunvarianco normigitaj per la kvadrata radiko de la dua ajgenvaloro, kaj ŝovitaj al la mezvaloro.

La analizo al precipaj konsisteroj estis inventita de Karl Pearson[1] en 1901. Ĝi estas la plej simpla multvariebla analizo aigenvektorbazita. Ĝi estas nun precipe uzata kiel ilo en esplora datumo analitiko kaj por prognozi modelojn. Eblas fari analizon al precipaj konsisteroj per ajgena malkomponaĵo de matrico de varianco-kunvarianco (aŭ de korelacio) de datenoj, aŭ per singulara valora malkomponaĵo de matrico de datenoj, kutime post centrigado rilate al la mezvaloroj (kaj normigado) de ĉiu elemento de la matrico. Ĝi estas orta transformo, kiu konvertas aron da observaĵoj de eblaj korelaciataj variabloj al aro de valoroj de precipaj konsisteroj (ankaŭ nomataj ĉefaj komponantoj), tielmaniere ke la unua precipa komponanto prezentas la kiel eble plej grandan variancon (ĉar variabloj estas supozitaj sendependaj laŭ tia metodo) laŭ sia direkto, la kiel eble plej malgranda varianco laŭ la orta direkto; ĉiu laŭvica komponanto havas la kiel eble plej granda varianco, sub la trudo, ke ĝi estu orta (t.e. ne-korelaciigita) al la antaŭa komponanto.

Tiu metodo permesas ankaŭ kompresadon de aro da N hazardaj variabloj, al la n-aj (n<N) unuaj komponantoj elektitaj kiel plej bonaj por priskribi la studaton.


Formulado pri statistiko[redakti | redakti fonton]

Konsideru p hazardajn variablojn X_j, kiuj estas centritaj rilate siaj atenditaj valoroj, t.e. pri kiuj iliaj atenditaj valoroj estas subtrahitaj de ĉiu el ili. Tiuj variabloj estas kunigitaj en unu (p \times 1) hazarda vektoro \underline x. Tiu kolumna vektoro, tiel difinita, havas nulan vektoron kiel atenditan mezvektoron, kaj la (p \times p) matrico de varianco-kunvarianco \underline \Sigma estas simetria kaj pozitive difinita. La ajgenaj valoroj \lambda_j, j = 1, \dots, p, de la matrico \underline\Sigma estas ordigitaj laŭ siaj grandoj en diagonala matrico \underline \Lambda. Iliaj respektivaj ajgenvektoroj faras la ortan matricon \underline \Gamma, pri kiu:

\underline \Lambda = \underline \Gamma^T \underline \Sigma  \underline \Gamma \ .

La hazarda vektoro  \underline x estas lineare transformita tiel:

\underline x \mapsto \underline y = \underline \Gamma^T \underline x \ (\underline x = \underline \Gamma \underline y) \  ,

per kiu la precipaj konsisteroj estas kalkulataj. Oni vidas ĉi tie la limon de la metodo, kiu do koncernas nur linearajn kombinaĵojn pri multvarieblaj sistemoj. Keklfoje, por kompensi tian malavantaĝon, la influoj de apartaj variabloj estas modifiataj per multipliko de taŭgaj koeficientoj.

Ekzemplo[redakti | redakti fonton]

Konsideru ni tridimensian hazardan vektoron:

\underline x =
  \begin{pmatrix}
    X_1\\
    X_2\\
    X_3 
\end{pmatrix} 
.

La matrico de la ajgenoj de la matrico de varianco-kunvarianco  \underline \Sigma rilatante al  \underline x estas:

\underline \Lambda=
  \begin{pmatrix}
    \lambda_A&  0 &0 \\
    0 &\lambda_B& 0 \\
    0&0&\lambda_C 
\end{pmatrix},

kie \lambda_A > \lambda_B > \lambda_C .

Eblas kunigi la (3 \times 1) kolumnajn vektorojn de ĉiu el le tri ajgenvektoroj \underline \gamma_j en unu matricon \underline \Gamma:

\underline \Gamma=
  \begin{pmatrix}
    \underline \gamma_A&\underline \gamma_B &\underline \gamma_C     
\end{pmatrix}

=
  \begin{pmatrix}
    \gamma_{1A}&\gamma_{1B}&\gamma_{1C}\\
    \gamma_{2A}&\gamma_{2B}&\gamma_{2C} \\
    \gamma_{3A}&\gamma_{3B}&\gamma_{3C} 
\end{pmatrix}
.

Per multipliko

\underline x \rightarrow \underline y = \underline \Gamma^T \underline x

sekvas la ekvacioj


Y_A=\gamma_{1A}X_1+\gamma_{2A}X_2+\gamma_{3A}X_3

Y_B=\gamma_{1B}X_1+\gamma_{2B}X_2+\gamma_{3B}X_3

Y_C=\gamma_{1C}X_1+\gamma_{2C}X_2+\gamma_{3C}X_3
.

La varianco de Y_A estas[2]

\operatorname{Var}(Y_A) = \lambda_A \  .

La precipa konsistero  Y_A estas la pli granda elemento de la variancaro de la datenoj, Y_B estas la dua komponanto, ktp. La koeficientoj  \gamma_{jk}, j=1,2,3; k=A,B,C, permesas kalkuli la efikojn de la variabloj  X_j rilate al  k komponanto. La matrico  \underline \Gamma indikas "kun kioma pezo, la variablo  X influas la komponanton  Y".

Uzoj[redakti | redakti fonton]

  • Pri statistika modelo kun multegaj parametroj, per analizo al precipaj konsisteroj, la elekto de la hazardaj variabloj de la modelo reduktiĝias, kaj permesas trakti kaj klarigi sufiĉe bone la konsideratan problemon.
  • Analizo de 11 sociekonomikaj indikiloj pri 96 landoj rivelas, ke la rezultoj priskribas landon kun alto grado, per nur 2 ĉefaj komponantoj, la unua estanta la tuta MEP de la lando, kaj la dua la indikilo pri la amplekso de ĝia kamparparto.
  • Por aĉetcentralo, tia analizo permesas koni la preferojn de konsumantoj laŭ iliaj sociaj statusoj, iliaj aĝoj aŭ iliaj familiaj statusoj. Tial, eblas kanaligi la reklamoj, kaj la produktojn al la taŭgaj klientoj.
  • Pri la traktado de bildoj, tia analizo estas uzata; aparte pri la distanca sondado, la bildoj de satelitoj estas analizataj, permesante observadon de iaj topografiaj evoluoj.
  • Danl'al analizo de vico de dinamikaj bildoj en nuklea medicino per scintigrafio, eblas detekti eventualan misfunkcion de koro aŭ de renoj.


Referencoj[redakti | redakti fonton]

  1. (angle) Pearson, K. . "On Lines and Planes of Closest Fit to Systems of Points in Space", gazeto : Philosophical Magazine, volumo : 2, numero : 6, paĝoj : 559–572 (PDF): Pri plej bona alĝustigo de punktaro.
  2. (angle) Jonathon Shlens.A Tutorial on Principal Component Analysis. Demonstro kial la ejgenvaloroj de la matrico de varianco-kunvarianco estas la variancoj de la transformitaj vektoroj.

Eksteraj ligiloj[redakti | redakti fonton]