[ ← to upper level ]

Unicodeのことば

　Unicode（というか、ISO 10646というか）を中心とした、文字コードに関する用語集のようなもの。「小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの」を読むための個人メモとして、あちこちのwebサイト参照しながらまとめたメモ。

UCS

　ISO 10646の文字集合。UCS:Universal Multiple-Octet Coded Character Set

UCS-4

　4bytes(厳密には31bit)の領域を持つ文字集合。本来の意味でのUCS。
　あるいは、その4バイトをそのまま文字符号とする符号化法を指す。この場合、エンディアンによって、LittleEndian型とBigEndian型があり、テキストの先頭に0x0000feffを配置して区別できる（L型なら「0xff、0xfe、0x00、0x00」、B型なら「0x00、0x00、0xfe、0xff」になる）。

UCS-2

　UCS-4のうち2bytesであらわせる基本部分(BMP)のみを抽出したサブセット文字集合。
　あるいは、その2バイトをそのまま文字符号とする符号化法を指す。この場合、エンディアンによって、LittleEndian型とBigEndian型があり、テキストの先頭に0xfeffを配置して区別できる（L型なら「0xff、0xfe」、B型なら「0xfe、0xff」になる）。
　Windowsにおける標準的なUnicode。

UTF

　ISO 10646の符号化法。UTF:UCS transformation format

UTF-1

　削除された。

UTF-2、UTF-8、UTF-FSS(FileSystemSafe)

　UCSを、1～6bytesの可変長に符号化する。英数字は1byte、主要日本文字は3bytes、それ以外は4bytes以上になる。符号化手順の都合で、エンディアン問題は発生しない。
　欧米系で人気らしい。

UTF-7(RFC-2152)

　通信用途（メール等）向けの7bit系符号化法。おおまかには、UTF-16LをBASE64だかuuencodeだかするらしい。

UTF-16(surrogate pair)

　（符号化法としての）UCS-2に、（文字集合としての）UCS-4の一部を埋め込む符号化法。BMP外の一部の文字を、サロゲート領域の2文字の組み合わせで表現するらしい。
　Windowsにおける標準的なUnicode。
　BMP以外の領域はまだ未定義らしいので、いまのところ（符号化法としての）UCS-2と事実上同義か。

基本概念

文字集合

　文字の集まり。

文字コード(character code)

　文字と1対1で対応させた、文字を識別するための数字。

ビット(bit)

　情報処理の単位。0か1。

バイト(byte)

　文字の単位。普通1byte＝8bitだが、そうでない環境もある。

オクテット(octet)

　8bitで1になる単位。通信分野でよく使われる。

国際規格

ISO 646

　ASCIIの国際化版文字集合。ただし制御文字部分は含まない。
　ここから、各国ローカライズ版の規格が生まれる（記号がASCIIと異なる場合がある）。

ISO 6429

　ASCIIの国際化版文字集合。ただし制御文字部分のみ。

ISO 8859

　ASCIIに欧州文字などを加えた文字集合。言語別のコードページを持つ。

ISO 2022

　文字コードの符号化ガイドライン？

ISO 10646

　全世界の主要な文字を含んだ単一の文字集合を目指す規格。おおもとの原案が没になり、Unicode1.1がISO 10646-1として成立。

Unicode

　国際規格ではなく私企業連合「Unicodeコンソーシアム」による規格。

欧米系

ASCII(American Standard Code for Information Interchange)

　いわゆる英数字と、制御文字をあわせた文字集合。7bit体系。

ANSI X 3.4-1968

　ISO 646の米国版……という理解でいいのか。

JIS規格の文字集合（JISコード）

JIS X 0201

　ISO 646のJIS版。
「＼」→「￥」、「～」→「￣」への変化と、いわゆる半角カナの追加等。

JIS X 0208:1997

　いわゆる全角文字（漢字）の文字集合。

JIS X 0212:1990

　いわゆる補助漢字。0208への追加。
　第三水準と言われるのは俗称。SJISで使えないのでめったに見ない。

JIS X 0213:2000

　2000年にできた新しいJIS規格。0208とで二重になっている部分がある。
　単体では利用されていないらしいが、UCSに含む形で利用されているらしい。

JIS X 0202

ISO 2022の邦訳JIS。

JIS X 0221-1

ISO 10646-1の邦訳JIS。JIS X 0208と0212を含み、JIS外字をも含むよう拡張されつつある。

符号化法

junetコード

　いわゆる（符号化法としての）JISコード(JIS X 2022)。メール送信とか。

EUC-JP

　unix方面でく使われる。

ShiftJIS

　PC、Mac方面で使われる。

[ ← to upper level ]