add hkscs/big5-2003/eten extensions to iconv big5
authorRich Felker <dalias@aerifal.cx>
Sat, 17 Aug 2013 20:23:22 +0000 (16:23 -0400)
committerRich Felker <dalias@aerifal.cx>
Sat, 17 Aug 2013 20:23:22 +0000 (16:23 -0400)
commit109bd65acf5180f0a48ea4c4e5f2bc6884be202d
treea80cfd23f3d6b6df794c3658231f7e3c46ff2c6b
parent453f462297062f9444ba1517d592cf31c7d7fce5
add hkscs/big5-2003/eten extensions to iconv big5

with these changes, the character set implemented as "big5" in musl is
a pure superset of cp950, the canonical "big5", and agrees with the
normative parts of Unicode. this means it has minor differences from
both hkscs and big5-2003:

- the range A2CC-A2CE maps to CJK ideographs rather than numerals,
  contrary to changes made in big5-2003.

- C6CD maps to a CJK ideograph rather than its corresponding Kangxi
  radical character, contrary to changes made in hkscs.

- F9FE maps to U+2593 rather than U+FFED.

of these differences, none but the last are visually distinct, and the
last is a character used purely for text-based graphics, not to convey
linguistic content.

should there be future demand for strict conformance to big5-2003 or
hkscs mappings, the present charset aliases can be replaced with
distinct variants.

reportedly there are other non-standard big5 extensions in common use
in Taiwan and perhaps elsewhere, which could also be added as layers
on top of the existing big5 support.

there may be additional characters which should be added to the hkscs
table: the whatwg standard for big5 defines what appears to be a
superset of hkscs.
src/locale/big5.h
src/locale/hkscs.h [new file with mode: 0644]
src/locale/iconv.c