Unicode: Rozdiel medzi revíziami

Smazaný obsah Přidaný obsah
Abyss (diskusia | príspevky)
História revízií Unicode
Abyss (diskusia | príspevky)
komplexná revízia článku po Problémy s kódovaním UNICODE
Riadok 3:
'''Unicode''' je medzinárodný štandard, ktorého cieľom je definovať kódovaciu schému schopnú reprezentovať väčšinu znakov používaných v písaných jazykoch spolu s inými symbolmi.
 
Napriek technickým problémom, obmedzeniam a kritike sa zo štandardu Unicode stala dominantná kódovacia schéma používaná pri [[Internacionalizáciainternacionalizácia|internacionalizácii]] softvéru a viacjazyčných prostredí.
 
Operačné systémy Microsoft [[Windows NT]] a odvodené verzie [[Windows 2000]] a [[Windows XP]] používajú Unicode, presnejšie [[UTF-16]], na internú reprezentáciu textu.
Operačné systémy [[UNIX]]ového typu ako [[GNU/Linux]], [[BSD]] a [[Mac OS X]], prijali Unicode, presnejšie [[UTF-8]], ako základ pre reprezentáciu viacjazyčného textu.
 
Unicode je štandard pre univerzálne kódovanie znakov pre počítače. Toto kódovanie navrhla nezisková organizácia s názvom '''The Unicode Consortium''', ktorej cieľom bolo vytvoriť jednotnú sadu znakov [[UCS]] (Universal Character Set), ktorá by nahradila množstvo rozdielnych sád znakov používaných v jednotlivých krajinách. Tento štandard publikovala v knihe '''The Unicode Standard'''. Okrem znakovej sady, ktorá bola tiež normalizovaná ako ISO/IEC 10646, dokument obsahuje i ďalšie veci súvisiace s počítačovým písmom (spôsob dekompozície, vykresľovania, metódy kódovania…). Tento štandard bol implementovaný do moderných operačných systémov a jeho modifikácia [[UTF]] (Unicode Transformation Format) je implementovaná v jazykoch [[XML]] a [[Java]].
 
== Vývoj štandardu ==
Vznik jednotného kódu znakov podmienila existencia množstva znakových sád. Znakové sady sa líšili nielen pre jednotlivé krajiny, ale i v rámci jednej z krajín existovalo viacero znakových sád. Všetky znakové sady boli navrhnuté na základe americkej normy [[ASCII]], ktorá pevne určovala prvých 128 znakov sady a zvyšných 128 sa líšilo v závislosti od krajiny. Na Slovensku sa najčastejšie používali (a ešte stále používajú) kódy [[ISO 8859-2]], známy tiež ako Latin-2 alebo CP 852, ktorý definovala medzinárodná organizácia [[Medzinárodná organizácia pre normalizáciu|ISO]], ďalej kód [[ANSI 1250]], známy tiež ako Windows 1250, definovaný americkou organizáciou, ale najčastejšie používaný bol [[kód bratov Kamenických]], známy tiež ako CP 895, ktorý nebol štandardizovaný. Podobné to bolo i v iných krajinách. Celý problém bol v tom, že kód ASCII bol navrhnutý tak, že jednému znaku zodpovedal jeden [[bajt]]. Takéto kódovanie umožňovalo vytvárať sady s 256 znakmi. Kódovanie Unicode je navrhnuté pomocou dvojbajtového kódovania znakov, čo umožňuje vytvárať sady s 65 536 znakmi. Štandard je navrhnutý tak, že všetky možné znaky rozdeľuje do sedemnástich dvojbajtových rovín. Takéto rozdelenie umožňuje definovať až 1 114 112 (= 17 × 2<sup>16</sup>) znakov. Prvá verzia štandardu – Unicode 1.0.0 – vznikla v októbri 1991 no, súčasná verzia štandardu je už '''Unicode 56.01''' z roku 2012. Táto definuje 101viac ako 110 063000 znakov, čo je ibavšak 9,1stále menej než 10 % zo všetkých možných.
 
== Problémy s kódovaním UNICODE ==