[ ← to upper level ]
Unicodeのことば
Unicode(というか、ISO 10646というか)を中心とした、文字コードに関する用語集のようなもの。
「小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの」
を読むための個人メモとして、
あちこちのwebサイト
参照しながらまとめたメモ。
UCS
ISO 10646の文字集合。UCS:Universal Multiple-Octet Coded Character Set
UCS-4
4bytes(厳密には31bit)の領域を持つ文字集合。本来の意味でのUCS。
あるいは、その4バイトをそのまま文字符号とする符号化法を指す。この場合、エンディアンによって、LittleEndian型とBigEndian型があり、テキストの先頭に0x0000feffを配置して区別できる(L型なら「0xff、0xfe、0x00、0x00」、B型なら「0x00、0x00、0xfe、0xff」になる)。
UCS-2
UCS-4のうち2bytesであらわせる基本部分(BMP)のみを抽出したサブセット文字集合。
あるいは、その2バイトをそのまま文字符号とする符号化法を指す。この場合、エンディアンによって、LittleEndian型とBigEndian型があり、テキストの先頭に0xfeffを配置して区別できる(L型なら「0xff、0xfe」、B型なら「0xfe、0xff」になる)。
Windowsにおける標準的なUnicode。
UTF
ISO 10646の符号化法。UTF:UCS transformation format
UTF-1
削除された。
UTF-2、UTF-8、UTF-FSS(FileSystemSafe)
UCSを、1〜6bytesの可変長に符号化する。英数字は1byte、主要日本文字は3bytes、それ以外は4bytes以上になる。符号化手順の都合で、エンディアン問題は発生しない。
欧米系で人気らしい。
UTF-7(RFC-2152)
通信用途(メール等)向けの7bit系符号化法。おおまかには、UTF-16LをBASE64だかuuencodeだかするらしい。
UTF-16(surrogate pair)
(符号化法としての)UCS-2に、(文字集合としての)UCS-4の一部を埋め込む符号化法。BMP外の一部の文字を、サロゲート領域の2文字の組み合わせで表現するらしい。
Windowsにおける標準的なUnicode。
BMP以外の領域はまだ未定義らしいので、いまのところ(符号化法としての)UCS-2と事実上同義か。
基本概念
文字集合
文字の集まり。
文字コード(character code)
文字と1対1で対応させた、文字を識別するための数字。
ビット(bit)
情報処理の単位。0か1。
バイト(byte)
文字の単位。普通1byte=8bitだが、そうでない環境もある。
オクテット(octet)
8bitで1になる単位。通信分野でよく使われる。
国際規格
ISO 646
ASCIIの国際化版文字集合。ただし制御文字部分は含まない。
ここから、各国ローカライズ版の規格が生まれる(記号がASCIIと異なる場合がある)。
ISO 6429
ASCIIの国際化版文字集合。ただし制御文字部分のみ。
ISO 8859
ASCIIに欧州文字などを加えた文字集合。言語別のコードページを持つ。
ISO 2022
文字コードの符号化ガイドライン?
ISO 10646
全世界の主要な文字を含んだ単一の文字集合を目指す規格。おおもとの原案が没になり、Unicode1.1がISO 10646-1として成立。
Unicode
国際規格ではなく私企業連合「Unicodeコンソーシアム」による規格。
欧米系
ASCII(American Standard Code for Information Interchange)
いわゆる英数字と、制御文字をあわせた文字集合。7bit体系。
ANSI X 3.4-1968
ISO 646の米国版……という理解でいいのか。
JIS規格の文字集合(JISコード)
JIS X 0201
ISO 646のJIS版。
「\」→「¥」、「〜」→「 ̄」への変化と、いわゆる半角カナの追加等。
JIS X 0208:1997
いわゆる全角文字(漢字)の文字集合。
JIS X 0212:1990
いわゆる補助漢字。0208への追加。
第三水準と言われるのは俗称。SJISで使えないのでめったに見ない。
JIS X 0213:2000
2000年にできた新しいJIS規格。0208とで二重になっている部分がある。
単体では利用されていないらしいが、UCSに含む形で利用されているらしい。
JIS X 0202
ISO 2022の邦訳JIS。
JIS X 0221-1
ISO 10646-1の邦訳JIS。JIS X 0208と0212を含み、JIS外字をも含むよう拡張されつつある。
符号化法
junetコード
いわゆる(符号化法としての)JISコード(JIS X 2022)。メール送信とか。
EUC-JP
unix方面でく使われる。
ShiftJIS
PC、Mac方面で使われる。
[ ← to upper level ]
(C)1999-2001 Shinra Kawasemi, all rights reserved.
This site is written in Japanese(require Japanese fonts to read).
You may link to this site freely.