Last Update : 2002.02.06(06:46:13)[JST]
[Top] [Toraha] [Software] [Computer] [Profile] [Diary] [BBS]
[ ← to upper level ]

Unicodeのことば

 Unicode(というか、ISO 10646というか)を中心とした、文字コードに関する用語集のようなもの。 「小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの」 を読むための個人メモとして、 あちこちのwebサイト 参照しながらまとめたメモ。

UCS

 ISO 10646の文字集合。UCS:Universal Multiple-Octet Coded Character Set

UCS-4

 4bytes(厳密には31bit)の領域を持つ文字集合。本来の意味でのUCS。
 あるいは、その4バイトをそのまま文字符号とする符号化法を指す。この場合、エンディアンによって、LittleEndian型とBigEndian型があり、テキストの先頭に0x0000feffを配置して区別できる(L型なら「0xff、0xfe、0x00、0x00」、B型なら「0x00、0x00、0xfe、0xff」になる)。

UCS-2

 UCS-4のうち2bytesであらわせる基本部分(BMP)のみを抽出したサブセット文字集合。
 あるいは、その2バイトをそのまま文字符号とする符号化法を指す。この場合、エンディアンによって、LittleEndian型とBigEndian型があり、テキストの先頭に0xfeffを配置して区別できる(L型なら「0xff、0xfe」、B型なら「0xfe、0xff」になる)。
 Windowsにおける標準的なUnicode。

UTF

 ISO 10646の符号化法。UTF:UCS transformation format

UTF-1

 削除された。

UTF-2、UTF-8、UTF-FSS(FileSystemSafe)

 UCSを、1〜6bytesの可変長に符号化する。英数字は1byte、主要日本文字は3bytes、それ以外は4bytes以上になる。符号化手順の都合で、エンディアン問題は発生しない。
 欧米系で人気らしい。

UTF-7(RFC-2152)

 通信用途(メール等)向けの7bit系符号化法。おおまかには、UTF-16LをBASE64だかuuencodeだかするらしい。

UTF-16(surrogate pair)

 (符号化法としての)UCS-2に、(文字集合としての)UCS-4の一部を埋め込む符号化法。BMP外の一部の文字を、サロゲート領域の2文字の組み合わせで表現するらしい。
 Windowsにおける標準的なUnicode。
 BMP以外の領域はまだ未定義らしいので、いまのところ(符号化法としての)UCS-2と事実上同義か。

基本概念

文字集合

 文字の集まり。

文字コード(character code)

 文字と1対1で対応させた、文字を識別するための数字。

ビット(bit)

 情報処理の単位。0か1。

バイト(byte)

 文字の単位。普通1byte=8bitだが、そうでない環境もある。

オクテット(octet)

 8bitで1になる単位。通信分野でよく使われる。

国際規格

ISO 646

 ASCIIの国際化版文字集合。ただし制御文字部分は含まない。
 ここから、各国ローカライズ版の規格が生まれる(記号がASCIIと異なる場合がある)。

ISO 6429

 ASCIIの国際化版文字集合。ただし制御文字部分のみ。

ISO 8859

 ASCIIに欧州文字などを加えた文字集合。言語別のコードページを持つ。

ISO 2022

 文字コードの符号化ガイドライン?

ISO 10646

 全世界の主要な文字を含んだ単一の文字集合を目指す規格。おおもとの原案が没になり、Unicode1.1がISO 10646-1として成立。

Unicode

 国際規格ではなく私企業連合「Unicodeコンソーシアム」による規格。

欧米系

ASCII(American Standard Code for Information Interchange)

 いわゆる英数字と、制御文字をあわせた文字集合。7bit体系。

ANSI X 3.4-1968

 ISO 646の米国版……という理解でいいのか。

JIS規格の文字集合(JISコード)

JIS X 0201

 ISO 646のJIS版。
「\」→「¥」、「〜」→「 ̄」への変化と、いわゆる半角カナの追加等。

JIS X 0208:1997

 いわゆる全角文字(漢字)の文字集合。

JIS X 0212:1990

 いわゆる補助漢字。0208への追加。
 第三水準と言われるのは俗称。SJISで使えないのでめったに見ない。

JIS X 0213:2000

 2000年にできた新しいJIS規格。0208とで二重になっている部分がある。
 単体では利用されていないらしいが、UCSに含む形で利用されているらしい。

JIS X 0202

ISO 2022の邦訳JIS。

JIS X 0221-1

ISO 10646-1の邦訳JIS。JIS X 0208と0212を含み、JIS外字をも含むよう拡張されつつある。

符号化法

junetコード

 いわゆる(符号化法としての)JISコード(JIS X 2022)。メール送信とか。

EUC-JP

 unix方面でく使われる。

ShiftJIS

 PC、Mac方面で使われる。

[ ← to upper level ]

Kawasemi's Temporary
(C)1999-2001 Shinra Kawasemi, all rights reserved.
This site is written in Japanese(require Japanese fonts to read).
You may link to this site freely.