UTF-8: Rozdiel medzi revíziami

Smazaný obsah Přidaný obsah
gramatika
korekcia UTF-8, ktoré podľa eng wiki kóduje max. štyrmi bajtami (32 bitmi) a nie šiestimi bajtami (48 bitmi). Rovnako Unicode ide maximálne do troj-bajtového U-10 FF FF a nie až do štvorbajtového 1F FF FF FF
Riadok 6:
je špeciálne užitočné pre prenos cez 8-bitové systémy elektronickej pošty.
 
Používa 1 až 64 bajtovbajty na zapísanie znaku podľa toho, o ktorý Unicode symbol
ide. Napríklad, len jeden UTF-8 bajt je potrebný na zakódovanie
všetkých 128 [[US-ASCII]] znakov z Unicode rozsahu U+0000 až U+007F.
 
Aj keď sa môže zdať neefektívne reprezentovať Unicode znaky až štyrmi bajtmi, UTF-8 umožňuje starým systémom prenášať túto
prípadne až šiestimi bajtmi, UTF-8 umožňuje starým systémom prenášať túto
ASCII nadmnožinu. Dodatočne, dátová kompresia môže byť stále vykonaná nezávisle
od použitia UTF-8.
 
Zatiaľ čo pri UNICODEUnicode bol každý znak zakódovaný 16-mi bitmi, pri UTF-8 je prvých 128 znakov (tieto sú pre všetky krajiny rovnaké) zakódovaných 8-mimi bitmi a zvyšné sú zakódované 16-timi až 4832-mimimi bitmi. Tento spôsob je výhodný pre krajiny, kde väčšina znakov textu tvorí prvých 128 znakov, pretože uložený text tak zaberá menej miesta ako pri UNICODEUnicode.
 
[[IETF]] požaduje od všetkých internetových protokolov, aby UTF-8 bolo aspoň
Řádek 25 ⟶ 24:
! UTF-8 sekvencia
|-
| U-000000000000 – U-0000007F007F || 0xxxxxxx
|-
| U-000000800080 – U-000007FF07FF || 110xxxxx 10xxxxxx
|-
| U-000008000800 – U-0000FFFFFFFF || 1110xxxx 10xxxxxx 10xxxxxx
|-
| U-00010000010000 – U-001FFFFF1FFFFF || 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
|-
| U-00200000 – U-03FFFFFF || 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
|-
| U-04000000 – U-7FFFFFFF || 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
|}