データの内部表現（文字列）＜ハードウェアとソフトウェア＜Ｗｅｂ教材＜木暮仁

キーワード

情報交換用コード（文字コード体系，キャラクタ・セット），ＡＮＳＩ，ＥＢＣＤＩＣ，ＪＩＳ漢字コード，シフトＪＩＳコード，ＥＵＣコード，Unicode，ＵＴＦ

文字コードとは

例えば半角の英字「A」は 01000001₂＝41₁₆，漢字の「亜」は，1000 1000 1001 1111₂＝889F₁₆のように数値が対応しています。コンピュータ内部では文字はこの数値で取り扱われます。
　ここで，対象にする文字の範囲（「半角英数字のみ」とか「第４水準漢字」など）を文字集合といいます。そして，文字集合のどの文字にどのビット列を対応させるかの体系を情報交換用コード，文字コード体系，キャラクタ・セットといいます。
　英語国での文字集合は，英字（A-Z，a-z）と数字（0-9）で６２個，$や%などの特殊文字を加えても２５６個あれば十分（７ビット＝１２８でも十分）ですから，１バイト（＝８ビット）ですべての文字種が扱え，ＡＮＳＩコードのような文字コードは１バイトで構成されています。
　それに対して，漢字も含む日本語の文字集合を扱うには，１バイトでは無理なので，２バイトで１文字を表す文字コードが必要になります。

この文字コード体系は，歴史的な事情により現在ではいくつかの体系が並存しています。例えば「亜」は，ＪＩＳでは3021₁₆，シフトＪＩＳでは888F₁₆，ＥＵＣではB0A1₁₆，ＵＴＦ－８ではE4BA9C₁₆のようにバラバラです。これでは不便ですので，現在ＵＴＦで統一する動きが進んでいます。

主な文字コード

ＡＮＳＩコード＝ＡＳＣＩＩコード＝ＩＳＯコード

ＡＮＳＩ（米国規格協会）が制定し，その後ＩＳＯ（国際標準化機構）により，。細かい部分では両者の違いはありますが，国際規格ＩＳＯ６４６になりました（それでＩＳＯコードともいいます）。７ビット系のコードです（パリティビットをつけて８ビット＝１バイトにしていますが，コードとしては７ビットです）。最も広く用いられているコードであり，インターネットでの電子メールもこのコードが用いられています。

ＪＩＳコード

ＪＩＳ（日本工業規格）がＩＳＯコードに準拠して設定したもので，英数字だけ／カタカナだけを対象にした７ビットコードと，両者を含んだ８ビットコードのものがあります。（ＪＩＳコード表）

		0000 (00)	0001 (10)	0010 (20)	0011 (30)	0100 (40)	0101 (50)	0110 (60)	0111 (70)	1010 (A0)	1011 (B0)	1100 (C0)	1101 (D0)
0000	(00)		DE		０	＠	Ｐ		ｐ		ー	タ	ミ
0001	(01)	SH	D1	！	１	Ａ	Ｑ	ａ	ｑ	。	ア	チ	ム
0010	(02)	SX	D2	”	２	Ｂ	Ｒ	ｂ	ｒ	「	イ	ツ	メ
0011	(03)	EX	D3	＃	３	Ｃ	Ｓ	ｃ	ｓ	」	ウ	テ	モ
0100	(04)	ET	D4	＄	４	Ｄ	Ｔ	ｄ	ｔ	，	エ	ト	ヤ
0101	(05)	EQ	NK	％	５	Ｅ	Ｕ	ｅ	ｕ	・	オ	ナ	ユ
0110	(06)	AK	SN	＆	６	Ｆ	Ｖ	ｆ	ｖ	ヲ	カ	ニ	ヨ
0111	(07)	BL	EB	’	７	Ｇ	Ｗ	ｇ	ｗ	ァ	キ	ヌ	ラ
1000	(08)	BS	CN	（	８	Ｈ	Ｘ	ｈ	ｘ	ィ	ク	ネ	リ
1001	(09)	HT	EM	）	９	Ｉ	Ｙ	ｉ	ｙ	ゥ	ケ	ノ	ル
1010	(0A)	LF	SB	＊	：	Ｊ	Ｚ	ｊ	ｚ	ェ	コ	ハ	レ
1011	(0B)	HM	EC	＋	；	Ｋ	［	ｋ	｛	ォ	サ	ヒ	ロ
1100	(0C)	CL	→	，	＜	Ｌ	￥	ｌ	｜	ャ	シ	フ	ワ
1101	(0D)	CR	←	－	＝	Ｍ	］	ｍ	｝	ュ	ス	ヘ	ン
1110	(0E)	SO	↑	．	＞	Ｎ	＾	ｎ	￣	ョ	セ	ホ	゛
1111	(0F)	SI	↓	／	？	Ｏ	＿	ｏ		ッ	ソ	マ	゜

ＪＩＳ漢字コード＝ISO-2022-JP

ＪＩＳコードに２バイトでの漢字を追加したものがＪＩＳ漢字コード（正式名称は「情報交換用漢字符号系」JIS X 0208）です。国際的にはISO-2022-JPになっています。
　１バイトのＡＮＳＩコードと２バイトの漢字コードを識別するために，ＡＮＳＩ→漢字，漢字→ＡＮＳＩの切り替え部分にエスケープ・シーケンスという特殊文字を入れるのが特徴です。
　その文字集合は次のように拡大してきました。

第１水準漢字
約５００字の記号，英数字，ひらがな，カタカナ等の非漢字と，約３０００字の基本的な漢字を含む２９５６字。その読みがなで分類されています。例：亜（889F）～腕（9872）
第２水準漢字
人名，地名などの固有名詞に必要な文字や旧漢字など３３８８文字を加えた。漢字の部首によって分類されています。
第３／第４水準漢字
実際の出版物では第１／第２水準漢字だけでは，まだ人名や地名，異体字，記号などが不足しているので，非漢字６５９字，第３水準漢字１２４９字，第４水準漢字２４３６字が追加され，全体として１万あまりの文字種になりました。

ＥＢＣＤＩＣ（エビシディック）コード

ＩＢＭが，それまで使われていた４ビットのＢＣＤコード（２進法の数字を表すコード）を８ビット（これからバイトという概念が生まれました）に拡張して英文字などを加えたコードです。システム３６０と同時に発表し，その後の汎用コンピュータでの標準的なコードとして広く用いられています。日本では，さらにそれを２バイトに拡張して漢字も使えるようにしましたが，メーカーごとに異なるコード体系を持っていました。パソコンでは使われていません。

シフトＪＩＳコード

マイクロソフトにより開発されたコードで，ＷｉｎｄｏｗｓやＭａｃＯＳなど，パソコンで広く用いられているコードです。ＡＳＣＩＩと半角カタカナを継承してさらに漢字を混在させたコードで，文字の割付に工夫することにより，エスケープ・シーケンスなしに識別できるようにしています。

ＥＵＣコード

ＵＮＩＸで広く用いられているコードです。特に日本語に適用させたものをＥＵＣ－ＪＰといいます。半角カタカナよりもＪＩＳ漢字を優先させており，半角カタカナは補助的な扱いでプレフィックスという特殊文字をつけた２バイトになっています。

Unicode，ＵＴＦ

上記のように多くのコードがあるのは困りますので，マイクロソフト，ＩＢＭ，アップルなどのメーカーが世界中の文字をカバーした文字集合Unicode（Universal multiple-octet coded Character Set）を対象にしてＵＴＦ（UCS Transformation Format）を開発しました。これを基に国際規格（ISO 10646-1），ＪＩＳ規格（JIS X 0221）になりました。
　ＵＴＦは１バイトを単位に可変長バイトにしたＵＴＦ－８と２バイトを単位にしたＵＴＦ－１６があります。パソコンでは，従来はシフトＪＩＳが主流でしたが，最近はＵＴＦ－８を広める傾向になっています。特にＷｅｂではＵＴＦ－８が標準になっています。