Analizo al precipaj konsisteroj
Analizo al precipaj konsisteroj (alinomita transformo de Karhunen-Loève (KLT), aŭ transformo de Hotelling) estas matematika teĥniko por plisimpligi la datumojn rezultantaj enkadre de statistiko multvariabla, kaj kiu ebligas evidentigi fenomenojn ial kaŝitajn en la komplekseco de multego da datumoj, determinante kunmetaĵojn da plej rezultivaj datumoj. Tiu metodo ne estis ebla ĝis la ekekzisto de komputiloj, ĉar ĝi bezonas egan amason da kalkulado, sed ekde informadiko, ĝi estas facila kaj fruktdona teĥniko, kiu ekzemple montris el la genaj datumoj de eŭropa loĝantaro la genetikan apartecon de la Eŭskoj de Ebro ĝis Garono, aŭ pruvi, ke la disvastiĝo de agrikulturo ne estis disvastiĝo de novkutimo, sed de gento da agrikulturantoj.
La analizo al precipaj konsisteroj estis inventita de Karl Pearson[1] en 1901. Ĝi estas la plej simpla multvariebla analizo aigenvektorbazita. Ĝi estas nun precipe uzata kiel ilo en esplora datumo analitiko kaj por prognozi modelojn. Eblas fari analizon al precipaj konsisteroj per ajgena malkomponaĵo de matrico de varianco-kunvarianco (aŭ de korelacio) de datenoj, aŭ per singulara valora malkomponaĵo de matrico de datenoj, kutime post centrigado rilate al la mezvaloroj (kaj normigado) de ĉiu elemento de la matrico. Ĝi estas orta transformo, kiu konvertas aron da observaĵoj de eblaj korelaciataj variabloj al aro de valoroj de precipaj konsisteroj (ankaŭ nomataj ĉefaj komponantoj), tielmaniere ke la unua precipa komponanto prezentas la kiel eble plej grandan variancon (ĉar variabloj estas supozitaj sendependaj laŭ tia metodo) laŭ sia direkto, la kiel eble plej malgranda varianco laŭ la orta direkto; ĉiu laŭvica komponanto havas la kiel eble plej granda varianco, sub la trudo, ke ĝi estu orta (t.e. ne-korelaciigita) al la antaŭa komponanto.
Tiu metodo permesas ankaŭ kompresadon de aro da N hazardaj variabloj, al la n-aj (n<N) unuaj komponantoj elektitaj kiel plej bonaj por priskribi la studaton.
Formulado pri statistiko
[redakti | redakti fonton]Konsideru hazardajn variablojn , kiuj estas centritaj rilate siaj atenditaj valoroj, t.e. pri kiuj iliaj atenditaj valoroj estas subtrahitaj de ĉiu el ili. Tiuj variabloj estas kunigitaj en unu hazarda vektoro . Tiu kolumna vektoro, tiel difinita, havas nulan vektoron kiel atenditan mezvektoron, kaj la matrico de varianco-kunvarianco estas simetria kaj pozitive difinita. La ajgenaj valoroj , , de la matrico estas ordigitaj laŭ siaj grandoj en diagonala matrico . Iliaj respektivaj ajgenvektoroj faras la ortan matricon , pri kiu:
La hazarda vektoro estas lineare transformita tiel:
per kiu la precipaj konsisteroj estas kalkulataj. Oni vidas ĉi tie la limon de la metodo, kiu do koncernas nur linearajn kombinaĵojn pri multvarieblaj sistemoj. Kelkfoje, por kompensi tian malavantaĝon, la influoj de apartaj variabloj estas modifiataj per multipliko de taŭgaj koeficientoj.
Ekzemplo
[redakti | redakti fonton]Konsideru ni tridimensian hazardan vektoron:
- .
La matrico de la ajgenoj de la matrico de varianco-kunvarianco rilatante al estas:
kie .
Eblas kunigi la kolumnajn vektorojn de ĉiu el le tri ajgenvektoroj en unu matricon :
- .
Per multipliko
sekvas la ekvacioj
- .
La precipa konsistero estas la pli granda elemento de la variancaro de la datenoj, estas la dua komponanto, ktp. La koeficientoj , ; , permesas kalkuli la efikojn de la variabloj rilate al komponanto. La matrico indikas "kun kioma pezo, la variablo influas la komponanton ".
Uzoj
[redakti | redakti fonton]- Pri statistika modelo kun multegaj parametroj, per analizo al precipaj konsisteroj, la elekto de la hazardaj variabloj de la modelo reduktiĝas, kaj permesas trakti kaj klarigi sufiĉe bone la konsideratan problemon.
- Analizo de 11 sociekonomikaj indikiloj pri 96 landoj rivelas, ke la rezultoj priskribas landon kun alto grado, per nur 2 ĉefaj komponantoj, la unua estanta la tuta MEP de la lando, kaj la dua la indikilo pri la amplekso de ĝia kamparparto.
- Por aĉetcentralo, tia analizo permesas koni la preferojn de konsumantoj laŭ iliaj sociaj statusoj, iliaj aĝoj aŭ iliaj familiaj statusoj. Tial, eblas kanaligi la reklamoj, kaj la produktojn al la taŭgaj klientoj.
- Pri la traktado de bildoj, tia analizo estas uzata; aparte pri la distanca sondado, la bildoj de satelitoj estas analizataj, permesante observadon de iaj topografiaj evoluoj.
- Danke al analizo de vico de dinamikaj bildoj en nuklea medicino per scintigrafio, eblas detekti eventualan misfunkcion de koro aŭ de renoj.
- Alia uzo estas la artefarita intelekto, kune kun la neŭronaj retoj. Tie la analizo proponas referencoj kaj indikoj por klasifiko, aŭ rekonado de klasoj de specimenoj.
-
Variancoj de ĉefaj komponantoj
-
Korelacio
-
"Malkorelacio"
Referencoj
[redakti | redakti fonton]- ↑ (angle) Pearson, K. . “On Lines and Planes of Closest Fit to Systems of Points in Space”, Philosophical Magazine (PDF) 2 (6), p. 559–572. Arkivigite je 2018-06-22 per la retarkivo Wayback Machine: Pri plej bona alĝustigo de punktaro.
- ↑ (angle) Jonathon Shlens.A Tutorial on Principal Component Analysis. Arkivigite je 2010-02-15 per la retarkivo Wayback Machine Demonstro kial la ejgenvaloroj de la matrico de varianco-kunvarianco estas la variancoj de la transformitaj vektoroj.
Eksteraj ligiloj
[redakti | redakti fonton]- http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf
- http://robotics.eecs.berkeley.edu/~rvidal/cvpr03-gpca-final.pdf
- http://www.reindeergraphics.com/foveapro/pca.shtml Arkivigite je 2007-03-18 per la retarkivo Wayback Machine
- http://pbil.univ-lyon1.fr/R/liens/pearson1901.pdf Arkivigite je 2007-10-01 per la retarkivo Wayback Machine