Řetězce (kódování znaků, regulární výrazy, funkce pro práci s řetězci)
Níže je uveden pouze náhled materiálu. Kliknutím na tlačítko 'Stáhnout soubor' stáhnete kompletní formátovaný materiál ve formátu PDF.
PAD Programování a databáze
Téma 12
Školní rok 2017/2018
1/2
Jan Švábík, V4D
Řetězce (kódování znaků, regulární
výrazy, funkce pro práci s řetězci)
Řetězce
Řetězec je datový typ sloužící k uložení posloupnosti znaků. Řetězec může být konstantní (obsah
proměnné nelze měnit), se staticky alokovaným prostorem (řetězec má omezenou maximální délku)
nebo s dynamicky alokovaným prostorem (řetězec má maximální délku omezenu jen velikostí volné
paměti).
Kódování znaků
Kódování znaků je způsob prezentování binárně zapsaných znaků v aplikaci či např. operačním
systému. Existuje velká spousta různých kódování, dnes je nejpoužívanější UTF-8, které umí
zapsat znaky z různých národních abeced. Pro češtinu se dříve používalo například windows-1250
či iso-8851-2.
V Číně či např. Japonsku se používá kódování UTF-16, které obsahuje znaky národních abeced
zmíněných zemí, UTF-32 pak zahrnuje také znaky již zaniklých abeced a jazyků, jako byla např.
hlaholice. Číslo za pomlčkou určuje, na kolika bajtech je zapsán jeden znak. Kódování UTF jsou
částmi tzv. tabulky UNICODE.
Za prapůvodní kódování lze považovat ASCII tabulku, která nejprve obsahovala 128 znaků, a to
anglickou abecedu, číslice a speciální znaky. Později byla rozšířena na 256 znaků a zahrnovala také
znaky některých národních abeced. Prvních 128/256 znaků všech kódování obvykle odpovídá
ASCII tabulce.
Regulární výrazy
Regulární výraz je speciálně zapsaný řetězec, který definuje tvar jiného řetězce. Používá se pro
kontrolu, zda je nějaký řetězec v požadovaném tvaru (například PSČ či nějaké datum). Rozlišují se
dva typy zápisu regulárního výrazu – tzv. posixový a perlový.