Vikipedio:Diskutejo/Arkivo/2018/7

El Vikipedio, la libera enciklopedio
Salti al navigilo Salti al serĉilo

Diversejo[redakti fonton]

Pri Beletraj Almanakoj[redakti fonton]

Enestas en ĉi tiu enciklopedio artikoloj por ĉiu pulikigita Beletra Almanako. Ekzemple BA30. Unue, la titolo ne ĝustas, kaj nur respondas al nomenklaturo de la eldonejo. Due, ili ĉiuj nur estas indekso de la revuo, do ne enciklopedia artikolo. Tiel kiel ili estas verkitaj nun ne eblas inkluzivi ilin en Vikipedio. Ĉar ne estas encikopedieca enhavo en ili. Ekzemple, en BA30 la ero "Enhavo" nur diras "Prezento (Probal Daŝgupto)", ne diras pri kio temas la prezento, nek io ajn rilata al ĝi. Mi do proponas forigi ĉiujn artikolojn pri apartaj numeroj de Beletra Almanako. Sahaquiel9102 Flag of Colombia.svg Saluton el Kolombio! | Unu mondo, Unu Lingvo Flag of Esperanto.svg ---> Mia Diskutpaĝo 15:32, 29 jan. 2018 (UTC)

Mi delonge pliampleksigas tiujn artikolojn aldonante informon pri la unuopaj tekstoj, tiel ke ĝi povas esti utila kaj al legontoj kaj al esploristoj; plej ofte mi duobligas aŭ triobligas la amplekson. Tamen mi legas malrapide kaj iras ankoraŭ laŭ la BA16. Do, oni povas kontroli en antaŭaj numeroj. Tial mi tute kontraŭas la malaperon de tiaj artikoloj, kiuj tute estas bone aranĝitaj.--kani (diskuto) 00:52, 27 jul. 2018 (UTC)
Krome estas multaj internaj ligiloj al aliaj artikoloj kaj eĉ artikoloj kiuj estis kreitaj nur el ligiloj de tiuj artikoloj BAktp.--kani (diskuto) 14:55, 27 jul. 2018 (UTC)

Need help reviewing Esperanto stemming[redakti fonton]

Saluton—

I'm testing a stemmer for Esperanto, which will allow searches to match related forms of a word. For example, searching for any of studento, studentoj, studenton, studentojn, studenta, studentaj, studentan, studentajn, would return the others. I need someone who speaks Esperanto to review the words that the stemmer groups together to make sure they seem reasonable. If you speak Esperanto and can review the groupings, please take a look at the lists on MediaWiki. There are about 75 groups, but they should be relatively easy for a fluent speaker to review.

It isn't clear to me whether the noun, adjective, and verb forms of a word should all be stemmed together. This happens in other languages, including English, but because Esperanto is so regular, it happens much more frequently. Is that good?

For reference, here is the English Wikipedia article on stemming.

Feel free to respond here or on the talk page on MediaWiki. Dankon! TJones (WMF) (diskuto) 18:25, 18 jun. 2018 (UTC)

Hi. I am not fluent in English, since my international language is Esperanto. I am not sure if I could help to you. Certainly not for a big task. For your series studento, studentoj, studenton, studentojn, studenta, studentaj, studentan, studentajn, yes every word is used in Esperanto, but there are also studente, studenti, studentas, studentis, studentos, studentu, the first being adverb and the other the verbal forms. I am ready to work about these things in Esperanto but not in English, which is a big deal for me. Sincerely.--kani (diskuto) 15:08, 21 jun. 2018 (UTC)
¡Hola @Kani! No hablo Esperanto (pero puedo leerlo un poco). Hablo español un poco mejor. Si quiere, podemos intentar hablar en español. Possiblemente no funcionará porque no hablo español muy bien. ¡Vamonos! Tengo un "stemmer" (artículo de Wikipedia en español) por Esperanto. Hay 75 ejemplos de grupos de "stemming" aquí. Un grupo pequeño es "klav: [3 klavoj][2 klavojn]". Las palabras como "[3 klavoj][2 klavojn]" indica que la palabra klavoj ocurre 3 veces en un espécimen de 5,000 artículos del Wikipedia en Esperanto o del Wikcionario en Esperanto, y klavojn ocurre 2 veces. (klav es la representación interna del stemmer por los dos, pero no es muy importante.) En este caso, el grupo indica que si se busca klavoj, se encontrará klavoj y klavojn (y otras, como klavo, pero klavo no es en este espécimen). Mi pregunta es: ¿son los 75 grupos en la mayor parte buenos? Hay siempre algunos problemas, especialmente con nombres y palabras extranjeras—pero, ¿en general, son los grupos buenos mejores que los grupos malos? Espero y creo que si, pero no estoy seguro. ¡Gracias por su ayuda! (¡y es muy divertido discutir Esperanto en español!) TJones (WMF) (diskuto) 22:59, 21 jun. 2018 (UTC)
Las siguientes palabras a mí me parecen extranjeras al esperanto: mais, podlask, socorrens, dobr, dritt, kann, ple, richt, to. Necesitaría tener el contexto. --Dominik (diskuto) 05:00, 22 jun. 2018 (UTC)
Si he entendido bien, marcaré los errores o problemas. Por orden de aparición. Wikipedia: kant: la forma Kantaten es posible pero apenas usable desde la raíz kant-, pero existe también la raíz kantato (con significado musical) o sea coinciden la raíz kant con la raíz kantat, ahí sí es posible la forma kantaten, junto con kantato, kantata etc., que también son formas de kant. Wiktionary: est: Estate kaj estate son formas teóricamente posibles pero prácticamente inexistentes en esta raís, que no es transitiva, o sea que ludata, manĝata es posible pero estata no. Random Groups: bazarad es en realidad forma de la raíz bazar con sufijos. No existe la raíz demokr y Demokrito es nombre propio aparte; elkonstru es de la raíz konstru con prefijo; enketist es de la raíz enket con sufijo; halopreĝej es palabra compuesta con sufijo; en realidad aquí están raíces junto con grupos de raíz más afijo; como dijo Dominik son extranjeras al esperanto: mais, podlask, socorrens, dobr, dritt, kann, ple, richt, to. Wiktionary: bien. --kani (diskuto) 07:38, 22 jun. 2018 (UTC)
@Dominik kaj Kani:: Muchas gracias por todos los detalles! No sé si puedo explicar bien en español, pero lo intentaré. El stemmer no sabe qué palabras son nombres o palabras extranjeras; aplica las reglas a todo. Esto da resultados extraños como dritt, richt, to, etc. Los errores son inevitables, pero un stemmer útil tiene muchos más resultados correctos que resultados incorrectos. Para el contexto, puede buscar en Vikipedio o Vikivortaro para la palabra (no la raíz) y ver cómo se usa. Si eso no funciona para una palabra en particular, puedo proporcionar el contexto específico de mi espécimen.
Reconozco estate como una palabra en inglés, y buscarlo da muchos resultados en inglés con significado como EO bieno / ES finca. Palabras como kantato y demokrato también son un problema para el stemmer. Intentó eliminar el sufijo más grande que puede y elimina -ato cuando solo debería eliminar -o. Posiblemente podamos arreglar esto para algunas palabras comunes, pero puede no ser muy importante. Las raíces no tienen que ser correctas; ellos solo necesitan generalmente juntar las palabras correctas. (Ser correcto siempre es mejor, pero no es 100% necesario).
Para raíces como bazarad- y elkonstru- necesitamos distinguir flexión y derivación (ver Wikipedia en español para más información). Según entiendo, bazarad- está relacionado con bazar- y elkonstru- está relacionado con konstru-, pero tienen diferentes significados. Por otro lado, bazarado, bazaradoj, bazaradon, y bazaradojn son simplemente diferentes formas gramaticales de la misma palabra. En Esperanto, todas las relaciones entre palabras relacionadas son más obvias que en la mayoría de los idiomas, y por eso la distinción es a veces más difícil de hacer.
La gran pregunta es esta: ¿está el stemmer haciendo más buenos grupos que los malos? Tenga en cuenta los números, que indican cuántas veces ocurre una palabra en mi espécimen; los errores en palabras raras son menos importantes. También hay una preferencia por una resultado exacto por una palabra. Por ejemplo, en Wikipedia en español, buscando rápido y rápida da aproximadamente el mismo número de resultados (~45,230) pero en un orden diferente. Los resultados se ordenan parcialmente en función de los resultados exactos. Así "Comida rápida" es #2 en lugar de #5 cuando se busca rápida. Incluso con el stemmer, buscando estate pondrá resultados con la palabra exacta más alta. Y, por supuesto, se puede buscar con comillas para solicitar una resultado exacto: "rápido" y "rápida".
Si quieren ver más ejemplos, puedo obtener más ejemplos aleatorios. Es posible configurar una demostración con un stemmer que funciona, pero sería mucho trabajo porque este stemmer no está actualmente en una forma en que podamos usarlo en la búsqueda de wikis. Esperaba decidir si vale la pena trabajando en ello antes de convertirlo.
¡Gracias! TJones (WMF) (diskuto) 15:46, 22 jun. 2018 (UTC)
(Sé que Kani, por sus distinguidas contribuciones a Wikipedia, entiende muy bien el inglés) Before I can go on, here are some questions about stemmers in general: 1) How are handled "classes" in an african language like Swahili? Are class-markers, if any, stripped to obtain a stem or not? 2) Are reflexive verbs, in french for instance, considered the same as non-reflexive verbs or are they dealt apart? 3) Are perfective and imperfective forms in russian verbs considered the same or not, whenever the marker is a prefix? --Dominik (diskuto) 05:06, 23 jun. 2018 (UTC)
Those are some complicated questions! For stemmers in general, there are always potential trade-offs between accuracy and complexity. For on-wiki searching, we tend to prefer simplicity and speed over complexity, so we lose some accuracy. For other applications, where speed is less important, or where you have enough CPUs to throw at the problem, complexity may not be an issue. Another distinction to make is stemming versus lemmatization. Lemmatization tries to find the "lemma", or the exact root form of a word, like you'd expect to find in a dictionary. For stemming, it is okay to find an approximate root, as long as most or all of the related forms get the same root, and not too many unrelated forms get that root.
The simplest stemmers are rule-based, and either just remove affixes from the word or perhaps they remove an affix and change the resulting stem a little bit. These are fast and work on words they've never seen before, but also make more mistakes, and may or may not handle common exceptions (like be/been/is/am/are/was/were or sing/sang/sung in English). More complex stemmers or lemmatizers can use a dictionary for exceptions, and then apply rules to anything that's not in the dictionary. Of course, the dictionary still can't handle words it doesn't know, though you can try to match parts of words, too, so that a dictionary entry for national would apply to international, multinational, and transnational.
Another approach is to use a statistical/machine learning model, which may be able to generalize from the examples it trained on to new ones that are similar. Such models can find and exploit interesting patterns, but can also give terrible answers when given really unexpected input. For example, we use a statistical stemmer for Polish, and it does a good job on most Polish words, but sometimes goes a bit crazy when it gets input consisting of numbers or English words—which occur often in the Polish Wikipedia! You can see some examples here. The worst is the stem ć, which is the infinitive verb ending in Polish. Lots of words get reduced to just that ending. Since we also try to match on the exact string the user searched for, it is better than it could be, but some results are still very odd. Fortunately the words that it makes mistakes on are fairly rare.
To address some of your specific questions, a lot of what a stemmer should or shouldn't do depends on the goals of whoever is creating the stemmer. It's like deciding what forms to list in a dictionary. Should related forms all be listed under one headword (stem/lemma/root), or get their own entry? In English, words definitely belongs under word and hoping belongs under hope, but do wordy and hopefully get their own entries or not? It's a judgement call.
Sometimes it also depends on what is possible to do with the language you are working with, and the techniques you are willing or able to use (based on limits of complexity or available resources, for example). So in English, nouns and verbs that have the same root often end up together because the plural ("I have many hopes and dreams") is the same as the third person present indicative ("He hopes to see his friend."). Separating them is possible, but can be very, very complex. It requires doing much more complicated processing, typically using a part of speech tagger or even more complex parsing to identify nouns from verbs and then stem or lemmatize them appropriately. This also lets you distinguish homographs, like does, which can be a form of the verb do, or the plural of doe ("a female deer"). Often it is not worth the effort, though, and we generally ignore does because it is usually a form of do.
So decisions about whether Swahili class prefixes are stripped depend in part on how easy it is to do and whether it helps or not with grouping related words together. If the class prefixes are usually distinct and unambiguous, you are more likely to be able to strip them. If some forms of the word have the prefix and others do not, you are more likely to want to strip them. If words differ only by the prefix, then you might want to keep them. I don't know enough Swahili to say what the answers are.
Whether reflexive verbs are grouped with non-reflexive verbs depends on how hard they are to detect, and how much it matters to your application. In French, it's not incredibly hard to detect me souviens in "Je me souviens." but it's a bit harder to find the m(e) in "Je ne m'en souviens pas." Is it important to distinguish souvenir from se souvenir? It depends.
I'm less familiar with Russian, but certainly a stemmer can remove prefixes (Indonesian uses a lot of prefixes, suffixes, and circumfixes). Whether or not perfective and imperfective forms of Russian verbs should be stemmed together is a question for a Russian lexicographer, which I am not!
I hope that helps. TJones (WMF) (diskuto) 00:29, 24 jun. 2018 (UTC)
Thank you for your quick response. I fear I get more puzzled than before. There seems there are no general rules to apply for stemming, it depends very much of a previous minimum knowledge of the language you are dealing with. I first thought the aim was a linguistic one, so as to find the ultimate root of a word. Obviously I was wrong, the aim is to extract a rough approximation, so as to stay coherent with the meaning of a family of words. How is that relevant with what we are used to in esperanto is another question. --Dominik (diskuto) 05:03, 24 jun. 2018 (UTC)
I think lemmatization has a clearer and more consistent goal, which is to find the real root form. You will also sometimes see stemmers with two settings, "light" and "aggressive", where "light" includes easy affixes or only inflectional affixes, and "aggressive" either includes some derivational affixes or tries to remove more difficult and error-prone affixes. (By the way, we're mostly talking about affixes, but stemmers can do other things, too, like undoing Germanic umlaut.)
For me, the practical question is this: would searching on Esperanto-language wikis be better if searching for words in the sample groups found all of the other ones? The additional ranking constraint that prefers the exact form usually makes very short queries (one or two words or a name) still give good results, and the stemming usually improves longer queries that are more like a phrase or sentence where the exact form of all the words are less likely to be in an article exactly as they are in the query. There's lots of middle ground between those extremes, too. If you have any specific questions, let me know. TJones (WMF) (diskuto) 14:12, 24 jun. 2018 (UTC)
Hoy en día, claro que cuando se busca la raíz nuda, es decir, si se busca "lern", no da otra cosa que "lern-". Bueno, no puedo decir si eso es una buena cosa o no. Depiende de lo que se busca. Supongo que si uno quiere buscar "lern" y no "lerno" o "lernanto", es que tiene buena razón para hacerlo. Me parece difícil decidir para los otros. Lo que puedo decir, es que a mí me da toda satisfacción el buscador de Wikipedia que es mucho mejor que antes (es mucho más rápido y da más resultados). Tal vez "stemming" podría ser útil para añadir o sugerir une lista de palabras relacionadas con la que se está buscando. --Dominik (diskuto) 05:16, 25 jun. 2018 (UTC)
El stemmer no tiene que dar la raíz nuda, aunque este sí lo hace. Un stemmer también podría dar la forma base del sustantivo, adjetivo, verbo, etc. Así, lerno, lernoj, lernon, lernojn todos darían lerno, mientras que lerna, lernaj, lernan, lernajn todos darían lerna. Eso es un poco más complejo; es posible que sea más difícil y cause algunos errores más. Sin embargo, eso podría equilibrarse con precisión mejorada. Es bueno saber que la búsqueda es mejor que antes. Siempre estamos trabajando para mejorar la búsqueda en general. Desafortunadamente, no creo que sugerir una lista de palabras relacionadas para buscar sea algo que podamos hacer en este momento. En general, es una buena idea, pero es mucho más complicado que el proyecto actual. TJones (WMF) (diskuto) 15:20, 25 jun. 2018 (UTC)

@Kani, @Dominik, and any others who are interested: My plan is to go ahead with the implementation of the Esperanto stemmer as an Elasticsearch plugin, and then deployment on Esperanto-language wikis. The results look reasonable to me, several people have given generally positive feedback, and the questions and concerns people have had don’t indicate that the word groupings are so bad that they wouldn’t be useful, overall. More details are on the discussion page of my report. If you have any objections to me continuing with this implementation plan, please let me know. Thanks to everyone who has commented and asked questions! TJones (WMF) (diskuto) 20:34, 17 jul. 2018 (UTC)

Tidy to RemexHtml[redakti fonton]

m:User:Elitre (WMF) 14:38, 2 jul. 2018 (UTC)

Maijdee[redakti fonton]

Kiu volas skribi la prononcon de bengala urbo en:Maijdee al Esperantaj literoj?--Crosstor (diskuto) 05:03, 5 jul. 2018 (UTC)

Global preferences are available[redakti fonton]

19:19, 10 jul. 2018 (UTC)

New user group for editing sitewide CSS/JS[redakti fonton]

Stipendioj por Vikimedia renkontiĝo de Centra kaj Orienta Eŭropo[redakti fonton]

Meze de Oktobro 2015 en Lvivo, Ukrainio okazos Vikimedia renkontiĝo de Centra kaj Orienta Eŭropo - ELiSo en ĝi jam tradicie partoprenas kaj ni estas denove invititaj kun plena repago. (lastjare ni tamen havis nur 1 lokon, mi ankoraŭ esploras)

En la programo estas multaj prelegoj, foje diskutoj kaj trejnadoj; en la neoficiala programo vi ekkonos regionan kolegojn, babilos, cerbumos (ekz. la tre sukcesa konkurso "VikiPrintempo" estis elpensita en drinkejo...). Al mi tiaj renkontiĝoj donas multan energion kaj inspiron por plia laboro, kaj kompreneble mi lernas, do mi povas labori pli efike. Mi strebas tiujn spertojn plu diskonigi, sed sperti ilin mem estas io tute alia!

Dum antaŭaj jaroj ELiSon-n reprezentis precipe mi, krome ankaŭ Lingveno kaj nome de aliaj organizoj partoprenis ankaŭ Blahma kaj Petro Baláž. Bonus, ke ne ĉiam venadu la sama homo sed ankaŭ aliaj povu plispertiĝi kaj inspiriĝi de regionaj kolegoj (kaj plispertigi kaj inspiri ilin ;). Tial mi alvokas - ĉu vi estas de Centra aŭ Orienta Eŭropo kaj volas partopreni? Skribu al la dissendolisto de ELiSo ĝis la 7a de Aŭgusto kaj ni komune elektos.

La ideala partoprenonto estas:

  • envolvita en decidad-procezo ene de ELiSo,
  • strebas helpi formi estontecon de la Vikimedia movado,
  • aŭ estas specialisto pri partneriĝoj,
  • aŭ estas projekta gvidanto.

Resume: Kandidatiĝu en la dissendolisto de ELiSo ĝis la 7a de Aŭgusto ĝis noktomezo laŭ UTC.

Mi kandiadtiĝas jam nun, sed mi pretas mem rezigni, se estos tro multaj taŭgaj kandidatoj (speco de problemo, kiun mi ŝatas :). --KuboF Hromoslav (diskuto) 18:36, 31 jul. 2018 (UTC)

Lingvejo[redakti fonton]

Intarsia[redakti fonton]

en:Intarsia mankas en PIV, same en Vikipedio. Kiel mi uzu ĝin?--Crosstor (diskuto) 08:07, 10 jul. 2018 (UTC)

Ŝajnas esti speco de inkrustado, mozaiko enigita en surfacon. La vortoj 'inkrusti' kaj la rilata 'marketri' estas ankaŭ en PIV. Marketro troviĝas ankaŭ en Vikipedio, kaj la artikolo mencias la esprimon ligna intarsio. Vikipedio havas ankaŭ la kapvorton intarzio, sed nur kiel redirektilon. – Mi ne konas la teknikojn sufiĉe por konsili, sed ioma retumado montras, ke similaj vortoj estas uzataj iom malsame en malsamaj lingvoj. --Surfo 12:04, 10 jul. 2018 (UTC)
Intarsio estas enmeto. Do unue oni ĉizadas malreliefojn, en kiu oni metas diversajn, sed similajn materialojn. Ekzemple en kverka tabulo oni enmetas betulajn kaj ĉerizajn pecetojn. Koloro de la 3 lignaĵoj estas malsamaj, tiel povas aperi kolora intarsia formo. Tiu vorto staris antaŭ mi kiel kreaĵo el marmoro, kion mi ĝis tiam neniam sciis. La marketro uzas laktavolojn, kiuj donas aliajn kolorojn, do formojn. Estas interese, ke la hungaraj vortaroj ne enhavas la intarsion, kiu hungare estas intarzia. Mi provas skribi al hungara vortaristo. Hungara vorto marketéria. Ne estas klara diferenco inter ambaŭ hungaraj vortoj (intarzia, marketéria). Tamen tio estas problemo, ke la angla Vp prezentas po unu artikolojn pri tio, la maŝina traduko ne sufiĉas por mi. --Crosstor (diskuto) 16:36, 10 jul. 2018 (UTC)

Teknikejo[redakti fonton]

Anstataŭaj aŭtomataj paĝoj por neekzistantaj paĝoj ligataj de informkestoj[redakti fonton]

Lastan nokton mi adaptis la ŝablonon Geokesto. Nun ĝi uzas kromprogramon ArticlePlaceholder.

Fono: Ofte okazas, ke en nia Vikipedio ne ekzistas artikolo pri flago aŭ blazono de la koncerna loko. Tamen, en Vikidatumoj estas iuj informoj pri tiu flago aŭ blazono. Ĝis nun Geokesto montris ruĝan ligilon (ofte kun anglalingva nomo aŭ simple identigilo en Vikidatumoj, ekz Q456461).

Rezulto: Nun en tia situacio aperas blua ligilo al paĝo en nia Vikipedio, kiu estas aŭtomate konstruita per informoj de Vikidatumoj. Tiu paĝo enhavas nur bazajn informojn pri la temo, intervikiojn, ofte bildon. Neniun veran artikolan tekston. Samtempe ĝi per granda butono invitas al kreo de artikolo pri la temo (ĉu laŭ kutima maniero aŭ asistante tradukon). Mi atentigas, ke ne okazas memstara maŝina traduko, nek konservo de teksto sen volo de redaktanto!

Rezulton vi povas vidi en la informksto de Moskvo. Konkrete temas pri paĝoj flago de Moskvo kaj blazono de Moskvo.

Kion vi opinias pri tia ĉi funkciado? Mi ŝatus, ke ni pli profitu de Vikidatumoj, ekz. ankaŭ per tiaj ĉi manieroj. Longtempa celo estas, ke ĉiuj informkestoj transprenadu ĉiujn datumoj rekte de Vikidatumoj. Amike. --KuboF Hromoslav (diskuto) 15:06, 17 maj. 2018 (UTC)

Saluton, KuboF. Ĉu vi eble havus ideon kiel enmunti tiun trajton el {{geokesto}} kaj {{geokesto2}} en la novan ŝablonon {{Informkesto geografiaĵo}}? Ĉar mi lastatempe sufiĉe pigris en la vikipedio, mi iomete devus rerigardi, kiel funkcias la Lua-modulo {{Geografiaĵoj}}. Krome necesus eĉ ŝanĝo de la helpa modulo {{Geografiaĵoj/geokesto}}. Ĉu ekde aprilo 2017 (lasta ŝanĝo de la unue menciita modulo) okazis pliaj aldonoj al {{geokesto}} kaj {{geokesto2}}, kiujn mi devus atenti ĉe {{Informkesto geografiaĵo}}? --Tlustulimu (diskuto) 17:10, 1 jul. 2018 (UTC)
Bedaŭrinde, mi ne scias :-(. La programadan logikon mi komprenas (ja mi ĝin implementis en la Geokestoj), sed mi ne lernis Lua-n kaj tial ne povas tion reimplementi per Lua. Sed la logiko estas simpla:
  1. se artikolo pri blazono / flago ekzistas en Esperanta Vikipedio - ligu al ĝi
  2. se artikolo pri blazono / flago ne ekzistas en Esperanta Vikipedio, sed ja en Vikidatumoj - ligu al ĝia paĝo per ArticlePlaceholder
  3. se artikolo pri blazono / flago ekzistas nek en Esperanta vikipedio, nek en Vikidatumoj - montru tekston sen ligilo
Geokestoj evoluas malrapide kaj konsulti ties historion tial facilas.
Mi esperas, ke tio almenaŭ iom helpis, Tlustulimu! --KuboF Hromoslav (diskuto) 18:02, 1 jul. 2018 (UTC)

Administrejo[redakti fonton]