3. Polyadické soustavy, reprezentace čísel v počítači
Níže je uveden pouze náhled materiálu. Kliknutím na tlačítko 'Stáhnout soubor' stáhnete kompletní formátovaný materiál ve formátu PDF.
• nekompatibilita s ASCII
• nekompatibilita s programovacími jazyky a operačními systémy
• větší textové soubory
• rozsáhlá grafická reprezentace všech znaků (fonty)
– dnes 1 114 112 znaků s kódy 0x0 až 0x10FFFF
• 17 stránek o velikosti 216
• základní stránka označována jako BMP (basic multilingual plane)
• flexibilní délka kódu, definuje i varianty kódování
– UTF-32 (UCS-4)
– UTF-16 (UCS-2)
– UTF-8
–
Reprezentace textu v počítači
UniCode
– vždy je třeba definovat endianitu – BE, LE, případně BOM (byte
order mark)
– kódování UTF32 (UCS-4)
• pouze 4 bajtové znaky
– kódování USC-2
• pouze 2 bajtové znaky
• umožňuje reprezentovat pouze BMP
– kódování UTF-16
• 2 bajtové znaky pro BMP
• 4 bajtové znaky pro zbytek (surrogate pairs)
• U+10000 – U+10FFFF
– 110110xxxxxxxxxx 110111xxxxxxxxxx
– 0xD800 až 0xDFFF
• tyto kódy musí být z BMP vyňaty
–
Reprezentace textu v počítači
UniCode
– kódování UTF-8
• pouze 1 až 4 (původně 6) bajtové znaky
• poskytuje zpětnou kompatibilitu s ASCII
• U+00000000 - U+0000007F
– 0xxxxxxx
• U+00000080 - U+000007FF
– 110xxxxx 10xxxxxx
• U+00000800 - U+0000FFFF
– 1110xxxx 10xxxxxx 10xxxxxx
• U+00010000 - U+0010FFFF
– 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
• U+00200000 - U+03FFFFFF
– 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
• U+04000000 - U+7FFFFFFF
– 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
–