Rovina (anglicky plane ) v štandarde Unicode je spojitá skupina 65536 ( = 2 16 ) kódových bodov, ktoré sa líšia iba v najnižších 16 bitoch . Unicode predpokladá použitie najviac 17 rovín identifikovaných číslami 0 až 16 desiatkovo, ktoré zodpovedajú hodnotám 00–10 šestnástkovo prvých dvoch číslic v šesťcifernom zápise hodnoty kódového bodu ( U+ hh hhhh ). Prvá rovina (s číslom 0) sa nazýva základná viacjazyčná rovina, BMP ( anglicky Basic Multilingual Plane ), ďalšie roviny (1–16) sa nazývajú „doplnkové“ ( anglicky supplementary planes ), [1] alebo úsmevne „astrálne roviny“. Unicode verzia 8.0 definuje priradenie kódových bodov patriacich do piatich polrovín.

17 rovín môže pojať 1114112 kódových bodov. Toto čudne vyzerajúce číslo (ktoré nie je mocninou 2 ) je maximálnou hodnotou, ktorú možno zobraziť pomocou kódovania UTF-16 . [2] Predpokladá sa, že 1114112 kódových bodov bude stačiť, aj keby sa objavili doposiaľ neznáme písma s desiatkami tisíc znakov; Unicode Consortium vydalo vyhlásenie, že uvedený limit nebude nikdy zmenený. [3] Kódovanie UTF-8 bolo navrhnuté pre kódovanie až 2 31 kódových bodov (32768 rovín) pôvodného ISO/IEC 10646 kódy dĺžky 1 až 6 bytov; pre 17 rovín stačí postupnosti maximálnej dĺžky 4 byty . [4]

Roviny sú ďalej rozdelené na Unicode bloky, ktoré na rozdiel od rovín nemajú pevnú veľkosť. Unicode 5.0 definuje 262 blokov s veľkosťou od 16 kódových bodov (túto veľkosť má jedenásť blokov) po 65536 kódových bodov (túto veľkosť má Doplnková oblasť pre súkromné použitie A a Doplnková oblasť pre súkromné použitie B, ktoré zaberajú celú rovinu 15 a 16). Jednotlivé bloky boli predbežne vyhradené pre všetky známe súčasné aj historické písma [5] a pokrývajú 24 percent možného priestoru kódových bodov.

Počty priradených znakov

upraviť
Priradené znaky v Unicode verzie 8.0
Rovina Pridelené kódové body [1] Priradené znaky [2]
0 BMP 65392 55181
1 SMP 14000 11833
2 SIP 53424 53386
3 TIP 16672 799
14 SSP 368 337
15 PUA-A 65536
16 PUA-B 65536
Celkom 264256 120737


Základná viacjazyčná rovina

upraviť
 
Základná multilinguálna rovina (BMP). Každý očíslovaný štvorček reprezentuje 256 kódových bodov.

Základná viacjazyčná rovina, BMP (anglicky Basic Multilingual Plane ) je prvá rovina Unicode (rovina číslo 0) ktorá obsahuje znaky pre takmer všetky moderné jazyky a veľký počet symbolov . Primárnym cieľom BMP je unifikácia predchádzajúcich znakových sád a znakov pre písanie.

Prvé bloky sú predurčené pre písma používajúce latinku, ďalšie pre ostatné európske a ázijské písma. Väčšina priradených kódových bodov v BMP slúži na kódovanie čínštiny, japončiny a kórejčiny ( CJK ).

Oblasti vyšších ( U+D800–U+DBFF ) a nižších ( U+DC00–U+DFFF ) náhradných hodnôt ( anglicky High a Low Surrogate ) sú rezervované pre kódovanie znakov mimo BMP pomocou tzv. náhradných dvojíc 16 bitových kódov pozostávajúcich z jednej vyššej a jednej nižšej náhradnej hodnoty. Unicode znaky nikdy neboli ani nebudú z tohto rozsahu priradené samostatným kódovým bodom.

Blokom Unicode bolo v BMP pridelených už 65392 zo 65536 kódových bodov, pričom v nepridelených rozsahoch zostáva iba 144 kódových bodov (64 kódových bodov v rozsahu 0860 až 089F, 64 kódových bodov v rozsahu 1C80 až 1CBF a 12 kódových bodov.

BMP 8.0 obsahuje v Unicode celkom 160 blokov.

Doplnková viacjazyčná rovina

upraviť

 
Doplnková viacjazyčná rovina (SMP). Každý očíslovaný štvorček reprezentuje 256 kódových bodov.

Doplnková viacjazyčná rovina, SMP ( anglicky Supplementary Multilingual Plane ) má číslo 1; obsahuje historické písma ako napríklad Lineárne písmo B, Egyptské hieroglyfy a klinové písmo, ďalej historické a moderné hudobné notácie, matematické alfanumerické symboly, Emoji a iné sady piktografov, reformované pravopisy ako Shavian a Deseret a herné symboly pre hracie karty, Mahjong a domino .

V Unicode 8.0 je v SMP definovaných 93 blokov.

Doplnková ideografická rovina

upraviť
 
Doplnková ideografická rovina (SIP). Každý očíslovaný štvorček reprezentuje 256 kódových bodov.

Doplnková ideografická rovina, SIP ( anglicky Supplementary Ideographic Plane ) je rovina číslo 2; ktorá je určená pre CJK Ideografy, väčšinou CJK zjednotené ideografy, ktoré neboli obsiahnuté v starších štandardoch znakových kódov.

V Unicode 8.0 SIP obsahuje nasledujúcich 5 blokov:

Nepriradené roviny

upraviť

Roviny 3 až 13: týmto rovinám zatiaľ neboli priradené žiadne znaky. Rovina 3 je predbežne pomenovaná Terciárna ideografická rovina, TIP (anglicky Tertiary Ideographic Plane), ale v Unicode verzie 8.0 v nej nie sú priradené žiadne znaky.[6] Je rezervovaná pre symboly z písiem používaných v nápisoch na vešteckých kostiach, nápisoch na bronze, v malom pečatnom písme, prídavné jednotné ideografy CJK a ďalšie historické ideografické písma.[7]

Vzhľadom na nízky počet doposiaľ nepriradených písiem sa ani neočakáva, že by v dohľadnej dobe boli všetky tieto roviny použité, aj keď počet možných symbolov, ktoré by sa mohli objaviť mimo kontextu písiem, môže byť obrovský. V súčasnosti je 11 zo 17 rovín nepoužitých.

Doplnková rovina na špeciálne účely

upraviť

Doplnková rovina na špeciálne účely, SSP ( anglicky Supplementary Special-purpose Plane ) je rovina číslo 14 ( E šestnástkovo ) a aktuálne obsahuje negrafické znaky. Prvý blok obsahuje znaky pre jazykové menovky určené na identifikáciu jazyka, ak jazyk nemôže byť indikovaný pomocou iných protokolov (napríklad atribútom xml:lang v XML ); tieto kódy sa neodporúčajú. Ďalší blok obsahuje selektory pre výber variant rôznych glyfov pre určitý znak, pokiaľ variant nemožno určiť z kontextu.

V Unicode 8.0 SSP obsahuje nasledujúce 2 bloky:

Oblasti na súkromné použitie

upraviť

Doplnková oblasť pre súkromné použitie-A a Doplnková oblasť pre súkromné použitie-B ( anglicky Supplementray Private Use Area-A and B) sú roviny 15 a 16; tieto roviny sú voľné pre priradenie znakov inými inštitúciami ako je Medzinárodná organizácia pre normalizáciu a Unicode Consortium . Vo fontoch môžu byť použité pre glyfy neobsiahnuté v Unicode, napríklad pre zliatky (ligatúry), stavebné bloky iných glyfov alebo pre glyfy, ktoré zatiaľ súčasťou Unicode nie sú. Tieto znaky budú mať obmedzenú interoperabilitu; softvér a fonty podporujúce Unicode pravdepodobne nebude podporovať priradenie znakov iných výrobcov.

Referencie

upraviť

Tento článok je čiastočný alebo úplný preklad článku Plane (Unicode) na anglickej Wikipédii.

  1. Unicode Consortium Glossary—Supplementary Planes
  2. Hodnota najvyšších štyroch bitov (wwww) v náhradnom páre je o jednotku menšia ako číslo Unicode roviny, tj. Unicode rovina = wwww + 1. Najvyššia hodnota, ktorú wwww môže reprezentovať je 1111binárne = Fšestnástkovo = 15desiatkovo. Rovina (15 + 1)=16 je preto najvyššia rovina, ktorú môžeme reprezentovať pomocou náhradných párov. Vďaka tomu možno náhradným párom reprezentovať kódový bod najviac 10 FFFFhex. Viď Tabuľka 3.5 „UTF-16 Bit Distribution“ v štandarde Unicode http://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  3. . Dostupné online.
  4. Viď Tabuľka 3.6 „UTF-8 Bit Distribution“ v štandarde Unicode http://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  5. Unicode roadmaps
  6. Unicode Data [online]. . Dostupné online.
  7. TIP Roadmap