Unikodo

El Vikipedio

Saltu al: navigado, serĉo

Unikodo (de la angla nomo Unicode [JUnikoŭd]) estas signokodo, per kiu eblas prezenti ĉiun literon kaj skribsignon de pli-malpli ĉiu homa skribsistemo: latine, arabe, cirile, greke, ĉine, japane, kartvele, ktp. Kelkaj arkaikaj skriboj, kaj ankaŭ kelkaj plu uzataj skriboj, estas tamen ankoraŭ ne aldonitaj al Unikodo, ekz. hieroglifoj ankoraŭ mankas.

La Unicode Consortium ("Unikoda Konsorcio") difinadas Unikodon ekde 1991. La internacia normo ISO-10646 sekvas ĉiupaŝe la normon Unikodan.

Enhavo

[redakti] Unikodo kaj Esperanto

Oktobre 1993 aperis en Eventoj n.ro 43 tiu malespera noto de Pejno Simono:

En preskaŭ ĉiu magazino oni entuziasme raportas, ke post la baldaŭa enkonduko de unikodo la esperantistoj nun fine ne plu havos problemojn komputile skribi siajn kuriozajn ĉapelitaĵojn kaj sian strangan literon Ŭo. Ne tiel estas! Unikodo estas nenio escepte de kodo. Kodo estas, simpligite, vico da numeroj, indikantaj signejojn por deponi signojn. Nu, ne ekzistas la leĝo, kiu postulas, ke ĉiu signejo de kodo estas ŝarĝenda per signo. Tial mi avertas ĉiujn entuziasmulojn, ke kiam unikodo aperos sur la merkato, la esperantaj signejoj estos verŝajne vakaj.

Feliĉe, la malesperanta esperantisto estis parte erara. Kelkaj oftaj hodiaŭaj unikodaj tiparoj ja entenas ĉiujn esperantajn signojn. Jen kelkaj ekzemploj:

  • ĉe Vindozo, la tre uzata tiparo “Times New Roman” kaj certe kelkaj aliaj,
  • ĉe makintoŝoj, la kutimaj tiparoj “Courier”, “Helvetica”, “Lucida Grande”, “Monaco” kaj “Times”,
    kaj ankaŭ la belegaj “Didot”, “Futura” kaj “Zapfino”.

Bedaŭrinde, tamen, multaj unikodaj tiparoj ankoraŭ ne enhavas ĉiujn esperantajn signojn. Unikodo tamen vere taŭgas por esperantaj literoj kaj hodiaŭ ĝi estas la plej fleksebla rimedo por prezenti la ĉapelitajn literojn de Esperanto:

  • Ĉ - 264 ĉ - 265 (ĉemizo, ĉevalo, eĉ, ĉi-matene, dimanĉo)
  • Ĝ - 284 ĝ - 285 (ĝi, vojaĝo, reĝo, naskiĝis)
  • Ĥ - 292 ĥ - 293 (monaĥejo, ĉeĥa, draĥmo)
  • Ĵ - 308 ĵ - 309 (aĵo, ĵus, ĵeti)
  • Ŝ - 348 ŝ - 349 (ŝipo, ŝi, maŝino, ŝati, ŝajne)
  • Ŭ - 364 ŭ - 365 (aŭ, laŭ, Paŭlo, antaŭ, aŭto, Eŭropo)

[redakti] Metodo por kontroli, ĉu certa unikoda tiparo taŭgas por Esperanto

Oni atentu, ke, kiam oni tajpas signon uzante unikodan tiparon, kiu ne enhavas tiun signon, povas unuavide ŝajni, ke la tiparo ja entenas ĝin — pro tio ke, kiam la dezirata tiparo ne entenas la signon, la komputilo aŭtomate enmetos la saman signon en alia simila unikoda tiparo ja entenanta la signon! Tiam foje tuj evidentas, ke la signo estas el malĝusta tiparo. Sed ofte oni devus grandigi la signojn kaj tre zorge kompari ilin por noti, ke la celata signo estas el tiparo malsama ol la aliaj.

Jen tamen alia, pli praktika, maniero kontroli, el kiu tiparo estas iu aparta litero. Oni alklaku inter la celata signo kaj la sekva. Tio metos la enigan punkton (la blinkantan vertikalan stangeton) inter ambaŭ literojn. Se oni tiam tajpus, la novtajpitaj literoj enŝoviĝus en tiun lokon. En preskaŭ ĉiuj tekstprilaboriloj estas fenestro aŭ fenestreto, ĉu jam videbla, ĉu aperigebla, montranta la nomon de la tiparo de la signo staranta antaŭ la eniga punkto. Kompreneble, anstataŭ meti la enigan punkton tuj post la literon, oni povas ankaŭ elekti (permuse aŭ alie) la tutan literon.

Por kontroli, ĉu iu tiparo havas ĉiujn dekdu esperantajn signojn, tajpu ilin unue en ajna tiparo, elektu la dekdu signojn kune, kaj ŝanĝu la tiparon de la elektaĵo al la dezirata tiparo. Tiam ekzamenu signon post signo per la ĉi-supra metodo kaj vi konstatos, ĉu ĝi estas el la ĝusta tiparo aŭ ne.

Notu, ke, ĉe makintoŝaj komputiloj, oni povas, sen aldona programo, rekte tajpi la ĉapelaĵojn uzante la klavararanĝon, kies angla nomo estas “U.S. Extended” (la nomo estos alia, sed simila, se vi uzas alian sisteman lingvon ol la anglan). La simbolo de tiu klavararanĝo estas usona flago, sub kiu staras nigra kvadrateto entenanta blankan u-on (“u” por Unikodo). Por uzi tiun makintoŝan klavararanĝon, necesas elekti ĝin en la “Sistemaj preferoj”. Por tio, unue malfermu ĉi-lastajn, klaku ĉe “Internacia”, poste ĉe “Entajpa menuo”, kaj tiam elektu la klavararanĝon “U.S. Extended”. Samloke elektu ankaŭ la “Klavarvidebligilo”-n. Nun kaj la nova klavararanĝo kaj la Klavarvidebligilo aperos en la flageta menuo kuŝanta en la menustango. Por tajpi en Esperanto, unue elektu “U.S. Extended” en la flageta menuo. Poste elektu en la sama menueto la klavarvidebligilon, kiu montros al vi, per kiuj klavoj vi povos tajpi multegajn kromsignajn literojn el multegaj lingvoj, inkluzive Esperanton.

[redakti] Se iu tiparo ne havas la Esperantajn literojn, aldonu ilin!

Tio eblas, per tipar-prilaborilo kiel Fontographer. Por kelkaj tiparspecoj, tio postulos nur horon, se vi jam scias kiel uzi tian programon.

[redakti] Avantaĝoj de Unikodo

  • Ĉiu ĉapelita litero havas sian unikan kodpozicion (tio eblas ankaŭ en Latino 3).
  • Oni povas intermiksi Esperantaĵojn kaj tekston de lingvoj kun aliaj specialaj signoj ankaŭ ne-latinliteraj (tio ne eblas en Latino 3).

[redakti] Malavantaĝoj de Unikodo

  • Kelkaj programoj ankoraŭ ne funkcias unikode (aliflanke preskaŭ neniu programo funkcias laŭ Latino 3, krom tiuj, kiuj scias ankaŭ Unikodon).
  • Ofte speciala adapto, eble eĉ instalo de speciala klavara programeto, estas necesa por povi tajpi ĉapelitajn literojn (ekzemple Ek por Vindozo, kaj .xmodmap-dosiero por Linukso). Tia aldona programo tamen ne necesas ĉe makintoŝoj (vd. ĉi-supren).
  • Ankoraŭ, en iuj malmodernaj komputiloj, tiparoj kun la Esperantaj literoj ne estas instalitaj.

[redakti] Kodprezentoj

Unikodo mem estas nur signokodo, kiu difinas numeron por ĉiu signo. La duumaĵa formo, la kodprezento, povas varii. Plej ofte oni trovos la jenajn kodprezentojn:

  • UTF-8: Ĉiu signo estas prezentata per po 1 ĝis 4 bitokoj. La signoj de Askio uzas po 1 bitokon, kaj prezentiĝas do tute same kiel en Askio. UTF-8 estas uzata en Unikso kaj tre ofte en la Interreto. La operaciumoj Plan-9 kaj BeOS "denaske parolas" per UTF-8. La programada lingvo Perl en novaj versioj uzas laŭbezone UTF-8 interne.
  • UTF-16: Preskaŭ ĉiu signo estas prezentata per 2 bitokoj. La maloftaj signoj preter la 16-bita limo bezonas po 4 bitokojn. UTF-16 estas uzata precipe en Vindozo NT, makintoŝoj kaj la programadaj lingvoj Python, Ĝavo, Objective-C (kun “Foundation Framework”) kaj aliaj.
  • UTF-32: Ĉiu signo estas prezentata per precize 4 bitokoj. Supozeble malmultaj, se iuj, operaciumoj aŭ programoj komprenas nur UTF-32. La tekstoredakta programo vim, havebla por multaj operaciumoj, kapablas trakti tekstojn en, inter aliaj, UTF-8, UTF-16 aŭ UTF-32.

En XML kaj HTML oni ankaŭ povas prezenti ĉiun ajn signon de la Unikoda signorepertuaro per numeraj signoreferencoj. Ekz. la litero "ĉ" estas tiam skribata kiel ĉ (dekume) aŭ kiel ĉ (deksesume).

[redakti] Kodpunktoj

La numeroj, kiujn Unikodo asignas al signoj, nomiĝas kod-punktoj. Origine Unikodo antaŭvidis maksimume 65.536 (= 216) kodpunktojn, sed tio montriĝis nesufiĉa. Jam en versio 4.0 Unikodo havis 96.382 kodojn, kaj oni difinis la tutan spacon de eblaj kodpunktoj al 1.114.112 (= 17×216). Ĝis nun ekzistis jenaj versioj:

[redakti] Unikodo en Esperantaj TTT-paĝoj

En 2004 ĉirkaŭ 70% de la TTT-paĝoj en Esperanto uzas Unikodon. Vidu cetere ĉe Esperanto.

La kutima metodo por prezenti Unikodon en TTT-paĝo estas per signokodo UTF-8. La servilo eble aŭtomate sendas la informon pri signokodo, sed oni povas eksplicite aldoni tiun informon en la HTML-kodo de la paĝo. Ene de la "head"-elemento oni tiam metu jenan "meta"-elementon:

  • <meta http-equiv="Content-type" content="text/html; charset=utf-8" />

(Ekzemple, Vikipedio mem uzas ĉi tiun metodon.) Ĉiu moderna foliumilo bone traktas ĉapelitajn literojn en UTF-8-paĝoj. Foje tamen nek la HTML-kodo nek la servilo sendas tiun informon, kaj la uzanto devas eksplicite elekti la UTF-8-enkodigon en sia softvaro, kio ofte konfuzigas kaj ĝenas uzantojn. Ĝenerale, tamen, la uzanto ne devas ion ajn fari, por ke la unikodaj signoj estu bone traktataj.

[redakti] Vidu ankaŭ


Listo de signoj de Unikodo
0000-03FF 0400-07FF 0800-0BFF 0C00-0FFF 1000-13FF 1400-17FF 1800-1BFF 1C00-1FFF
2000-23FF 2400-27FF 2800-2BFF 2C00-2FFF 3000-33FF 3400-37FF 3800-3BFF 3C00-3FFF
4000-43FF 4400-47FF 4800-4BFF 4C00-4FFF 5000-53FF 5400-57FF 5800-5BFF 5C00-5FFF
6000-63FF 6400-67FF 6800-6BFF 6C00-6FFF 7000-73FF 7400-77FF 7800-7BFF 7C00-7FFF
8000-83FF 8400-87FF 8800-8BFF 8C00-8FFF 9000-93FF 9400-97FF 9800-9BFF 9C00-9FFF
A000-A3FF A400-A7FF A800-ABFF AC00-AFFF B000-B3FF B400-B7FF B800-BBFF BC00-BFFF
C000-C3FF C400-C7FF C800-CBFF CC00-CFFF D000-D3FF D400-D7FF D800-DBFF DC00-DFFF
E000-E3FF E400-E7FF E800-EBFF EC00-EFFF F000-F3FF F400-F7FF F800-FBFF FC00-FFFF
Listo de speciale nomataj signoj de HTML

[redakti] Eksteraj ligoj