Statistika semantiko

El Vikipedio, la libera enciklopedio
Saltu al: navigado, serĉo

Statistika semantiko estas la studo pri kiel la statistikaj ŝablonoj de vortuzado fare de homoj ebligas supozi tion kion la homoj volas diri, minimume je nivelo sufiĉa por aliro al la informo. Kiel eblas supozi kion vortoj signifas, simple per rigardado al ŝablonoj de vortoj en enormaj kolektoj de teksto? Kiuj estas la limoj al tiu aliro por komprenado de vortoj?

Historio[redakti | redakti fonton]

La esprimo "statistika semantiko" unue estis uzita fare de Warren Weaver (1955) en lia artikolo pri maŝintradukado. Li argumentis ke vorta senta malambiguigo por maŝintradukado devus esti bazita sur la kun-okaza ofteco de la kuntekstaj vortoj proksime de la donita cela vorto. La subesta supozo ke "vorto estas karakterizita per la marko kiun ĝi konservas" estis rekomendita fare de J. R. Firth (1957). Tiu supozo estas konata en lingvistiko kiel la distribua hipotezo. Delavenay (1960) difinis statistikan semantikon kiel statistika studo de signifoj de vortoj kaj ilia frekvenco kaj ordo de ripetiĝo. Laboro de George Furnas kaj aliaj (1983) estas ofte citata kiel fonda kontribuo al statistika semantiko. Frua sukceso en la kampo estis latenta semantika analizo.

Aplikoj de statistika semantiko[redakti | redakti fonton]

Esplorado en statistika semantiko gvidis al vasta aro de algoritmoj kiuj uzas la distribuan hipotezon por malkovri multajn aspektojn de semantiko, per uzado de statistikaj teknikoj por grandaj korpusoj:

  • Mezurado de simileco de vortosignifoj (Lund kaj aliaj, 1995; Landauer kaj Dumais, 1997; McDonald kaj Ramscar, 2001, Terra kaj Clarke, 2003)
  • Mezurado de simileco en vortaj rilatoj (Turney, 2006)
  • Modeligo de ĝeneraligado bazita sur simileco (Yarlett, 2008)
  • Malkovrado de vortoj kun donita rilato (Hearst, 1992)
  • Klasifikado de rilatoj inter vortoj (Turney kaj Littman, 2005)
  • Eltiro de ŝlosilvortoj el dokumentoj (Frank kaj aliaj, 1999; Turney, 2000)
  • Mezurado de kunligiteco de teksto (Turney, 2003)
  • Malkovrado de malsamaj signifoj de vortoj (Pantel kaj Lin, 2002)
  • Distingado de malsamaj signifoj de vortoj (Turney, 2004)
  • Subperceptaj aspektoj de vortoj (Turney, 2001)
  • Distingado de laŭdo kaj kritiko (Turney kaj Littman, 2003)

Rilataj kampoj[redakti | redakti fonton]

Statistika semantiko fokusas en la signifoj de oftaj vortoj kaj la rilatoj inter oftaj vortoj, male al tekstominado, kiu tendencas fokusiĝi je tutaj dokumentoj, dokumentaj kolektoj, aŭ nomitaj aĵoj (nomoj de homoj, lokoj, organizoj). Statistika semantiko estas subkampo de komputila semantiko, kiu estas subkampo de komputa lingvoscienco kaj komputila lingvistiko.

Multaj el la aplikoj de statistika semantiko (listigitaj pli supre) povas ankaŭ esti traktataj per leksiko-bazitaj algoritmoj, anstataŭe de la korpuso-bazitaj algoritmoj de statistika semantiko. Unu avantaĝo de korpuso-bazitaj algoritmoj estas ke ili tipe ne estas tiel laborintensaj kiel leksiko-bazitaj algoritmoj. Alia avantaĝo estas ke ili estas kutime pli facile adaptigeblaj al novaj lingvoj ol leksiko-bazitaj algoritmoj. Tamen, la plej bona prezento en apliko ofte estas atingata per kombinado de la du aliroj (Turney kaj aliaj, 2003).

Vidu ankaŭ[redakti | redakti fonton]

Eksteraj ligiloj[redakti | redakti fonton]