3. Polyadické soustavy, reprezentace čísel v počítači
Níže je uveden pouze náhled materiálu. Kliknutím na tlačítko 'Stáhnout soubor' stáhnete kompletní formátovaný materiál ve formátu PDF.
• nekompatibilita s ASCII 
• nekompatibilita s programovacími jazyky a operačními systémy 
• větší textové soubory 
• rozsáhlá grafická reprezentace všech znaků (fonty) 
– dnes 1 114 112 znaků s kódy 0x0 až 0x10FFFF
• 17 stránek o velikosti 216 
• základní stránka označována jako BMP (basic multilingual plane) 
• flexibilní délka kódu, definuje i varianty kódování  
– UTF-32 (UCS-4) 
– UTF-16 (UCS-2) 
– UTF-8 
–
Reprezentace textu v počítači
 UniCode
– vždy je třeba definovat endianitu – BE, LE, případně BOM (byte
order mark)
– kódování UTF32 (UCS-4)
• pouze 4 bajtové znaky
– kódování USC-2
• pouze 2 bajtové znaky 
• umožňuje reprezentovat pouze BMP 
– kódování UTF-16
• 2 bajtové znaky pro BMP 
• 4 bajtové znaky pro zbytek (surrogate pairs) 
• U+10000 – U+10FFFF  
– 110110xxxxxxxxxx 110111xxxxxxxxxx 
– 0xD800 až 0xDFFF 
• tyto kódy musí být z BMP vyňaty
–
Reprezentace textu v počítači
 UniCode
– kódování UTF-8
• pouze 1 až 4 (původně 6) bajtové znaky 
• poskytuje zpětnou kompatibilitu s ASCII 
• U+00000000 - U+0000007F 
– 0xxxxxxx
• U+00000080 - U+000007FF
– 110xxxxx 10xxxxxx
• U+00000800 - U+0000FFFF
– 1110xxxx 10xxxxxx 10xxxxxx
• U+00010000 - U+0010FFFF
– 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
• U+00200000 - U+03FFFFFF
– 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
• U+04000000 - U+7FFFFFFF
– 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
–
