:

Szerző: roberto

2003. április 30. 11:55

Több mint 96000 karaktert támogat a Unicode 4.0

[Unicode.org, HWSW] A béta időszak lezárultával

[Unicode.org, HWSW] A béta időszak lezárultával néhány napja megjelent a Unicode 4.0-s verziója. A szabvány teljes szövegét, és a hozzá tartozó kódtáblázatokat tartalmazó könyv azonban csak később, várhatóan szeptemberben fog megjelenni. Néhány fejezet publikálás előtti változata, illetve a karakterhelyeket és a karakterek képét bemutató táblázatok már elérhetőek a Unicode Consortium webhelyén.

A szabványból mindig csak az újabb főverziók megjelenésekor készül nyomtatott könyv, utoljára a 3.0 kiadásakor készült ilyen kiadvány. A köztes változatok (pl. 3.1, 3.2) újításait csupán az ún. UAX (Unicode Standard Annex) dokumentumokból lehet megismerni. A friss Unicode a 3.2-es változathoz képest 1226 új karakterhelyet definiál, köztük pénznemek szimbólumait, további latin és cirill karaktereket, ázsiai írásrendszerek által igényelt karaktereket (Limbu, Tai Le), CJK-kiegészítéseket (kínai, japán és koreai), és olyan történelmi ábécék kódolásához szükséges karaktereket, mint amilyen a Lineáris B. Az összes használható karakter száma így már több mint 96000-re emelkedett.

A friss karakterpozíciók szokás szerint szinkronban vannak a vonatkozó ISO szabvánnyal, az ISO/IEC 10646-tal, bár a Unicode bizonyos tekintetben szigorúbb az ISO előírásánál, mivel a használat módjára vonatkozó megkötéseket is tartalmaz. További újdonság, hogy az eddig UAX-ként definiált UTF-32 átírási formátum bekerült a szabvány szövegébe. Az UTF-32 ideális választás, ha nincsenek memóriahasználati korlátok, ugyanakkor fontos a karakterkódok hosszának állandósága, az UTF-32 ugyanis az egyéb átírási formátumokkal (UTF-7, UTF-8, UTF-16) ellentétben mindig ugyanannyi biten tárolja a karakterkódokat.

a címlapról