Vortlistoj laŭ ofteco

El Vikipedio, la libera enciklopedio

Vortlistoj de ofteco, foje nomataj oftecaj vortaroj, estas listoj de vortoj en iu lingvo grupigitaj laŭ ofteco de uzado ene de iuj korpusoj cele al akirado de lingvaĵo. Vortlisto de ofteco prefere celas leksikografiajn laborojn. Kelkaj gravaj enfalujoj estas la korpusa enhavo, la tekstara registro kaj la difino de "vorto".

En komputa lingvistiko, ofteca listo estas ordigita listo de vortoj (vorto-tipoj) kune kun ilia ofteco, kie ofteco ĉi tie kutime signifas la nombrojn de fojoj kiam vorto(j) aperas en donita tekstaro, de kiu la pozicio povas esti derivita kiel la pozicio en la listo.

La historio rilate al kompilado de oftecaj vortaroj estas sufiĉe nona (malpli ol unu jarcento en 2019). En relative mallonga tempo, tiaj vortaroj estis kreitaj por preskaŭ ĉiuj hindeŭropaj lingvoj same kiel por lingvoj de aliaj lingvofamilioj. Pli ol 400 oftecaj vortaroj jam estis eldonitaj, kaj la nombro de specialigitaj oftecaj vortaroj kial ofteca vortaroj pri prozo, poezio, stilo ktp kreskadas. La uzo de vortlistoj laŭ ofteco trovas praktikan aplikadon interalie en la instruado de lingvoj kaj ĉefe por la bezonoj de maŝintradukado.

Esperanto[redakti | redakti fonton]

Kvankam la komputa lingvisto okupiĝas prefere kun oftecaj listoj por grandaj lingvoj, tamen ekzistas ankaŭ Vortlistoj de ofteco por diversaj aliaj lingvoj bazitaj sur Vikipedio aŭ kombino de tekstaroj.[1] Unu el tiuj estas Most Common Words in Esperanto (plej oftaj vortoj en Esperanto)[2] kaj Facila Vento.

Ekzistas ankaŭ reta kurso de Esperanto per komuna baza lernilo por komencantoj en ĉiuj lingvoj de EU surbaze de la eltrovita fundamenta morfemlisto de la plej oftaj morfemoj en parole kaj skribe uzata Esperanto (esploroj de Z. Tišljar kaj R. Gerard) en la retejo www.learn.esperanto.com.

Korpusoj en Esperanto[redakti | redakti fonton]

Rilate al Esperanto eblus aserti 'kiom da korpusoj, tiom da rezultoj'. Alivorte la oftecoj dependas de la enhavo — do stilo kaj temo — de la esplorata korpuso.

En Interreto elŝuteblas plej ofte nur antikvaj senkopirajtaj tekstoj. Malmulte haveblas tekstoj el aktualaj revuoj, krom kelkaj retaj kiaj Le Monde Diplomatique en Esperanto kaj Global Voices en Esperanto. Aldone la skalo de temoj pritraktataj ne estas ege vasta, krom tiu en Vikipedio, sur kies tekstaro estas bazita la maŝintraduka sistemo de GramTrans.

Tekstaro.com (Tekstaro de Esperanto) estas teksta korpuso de la lingvo Esperanto, kiu konsistas el granda kolekto de tre diversaj tekstoj por lingva esplorado rilate al Esperanto. En marto 2019, la Tekstaro de Esperanto enhavas tekstojn kun entute 9 159 328 vortoj[3].

Analizon de 88 683 mesaĝoj senditaj en la Telegramo-grupo Esperantujo (dum 2016) faris Vanege; li publikigis la studon en decembro 2016.[4]

Referencoj[redakti | redakti fonton]

Vidu ankaŭ[redakti | redakti fonton]

Eksteraj ligiloj[redakti | redakti fonton]