DTP制作一番よく扱うのが文字の情報である「テキストデータ」です。DTP制作でテキストデータをレイアウト作業で効率よく使えるように、その基本的なしくみとルールをマスターしておきましょう。
1バイト文字と2バイト文字
DTP制作の際、コンピュータで扱う文字は、その文字を表現するために必要データ容量によって、「1バイト文字」と「2バイト文字」に大別でます。1バイトは28= D 256通りの表現が可能です。英語やフランス語などは、アルファベット、数字、記号など使用する文字をすべて含めても256通り以内で表現できるため、1バイト文字と呼びます。英字や数字の「半角文字」がこれにあたります。一方、ひらがな、カタカナ、漢字など日本語で使用する文字の種類ははるかに多いため、2バイトつまり28×28 = 65,536通りの範囲で表現します。これらの文字を2バイト文字または「全角文字」と呼びます。日本語のDTP制作では、2バイト文字には和文フォントでしか指定ができません。
2バイト文字の記号と文字化け
テキストデータの中で2バイトの記号、ローマ数字、単位などを使用している場合、それらの文字が違う文字に置き換わってしまうことがあります。これを「文字化け」といいます。文字化けは、そのテキストデータを作成したときに使用されていた和文フォントと、「文字セット」が異なる和文フォントで表示されることによって起こります。
コンピュータ上で扱う文字の総称を「キャラクタ」といい、それそれを認識するための「文字コード」が与えられています。そのなかで記号、ローマ数字、単位記号などを規定以外の文字ということで「外字」と呼び、文字セットごとに異なる文字コードが割り振られているものがあります。このため、Windows用のTrueTypeフォントで入力した文字をMac用のPostScriptフォントで開いたりすると、文字コードが異なる文字に置き換わり、その結果文字化けや文字抜けが起こることがあります。
テキストデータの保存形式
DTP制作でテキストデータを扱うワープロやエディタなどでは、データを保存する際に保存形式を選択することができます。DTP制作ではフォントの種類や文字のサイズなどの情報をもたない「テキスト形式(プレーンテキスト)」で保存したデータを使います。レイアウトソフトにそのテキストデータを流し込み、文字サイスやフォントなどを指定して整えていくのが、DTP制作の基本作業です。余分な情報がなく文字化けも起こりにくい「プレーンテキスト」を使うことで、あとのDTP作業の効率が上がり、トラブルを防ぐことにもなります。表計算ソフトのMicrosoft Excelのアータをテキスト形式で書き出して利用する場合もあります。
解説1
「文字セット」とは、その名の通り文字の集まりのことで、文字がどのように収録されているかの情報です。日本語用は「JIS X 0208(JIS第一水準・第二水準の漢字、かな、記号類)」+「JIS X 0201」+「JIS外字」から構成されています。文字セットは、JIS、シフトJIS、EUCなどのエンコーディング(符号化の方法)との組み合わせで「文字コード」と呼ばれます。
解説2
「文字コード」のひとつである「Unicode」は、世界中の文字にそれぞれ異なる番号を与えてひとつの文字コードとしてとり扱うために1990年前後にユニコードコンソーシアムによりつくられました。Unicodeは、Mac OS X Windows XP、Windows Vistaで、基本的な文字コードして使用されています。
解説3
データ容量と表現できる情報量の関係は次のとおりです。
1 bit = 21→2通り
1 byte = 8 bit →28 →256通り
2 byte = 16 bit→216 →65,536通り
注意
コンピュータで扱える日本語に「半角カタカナ」がありますが、濁点などが1文字分になり、きれいな組版にならないうえ、使用しているフォントによっては文字化けがおこるため、DTPでは使用しません。
用語解説
- バイト
コンピュータで扱うデータの情報量を表す単位。バイトは8ビット。1ビットは0か1を表すことができるので、1バイトで256通りの情報を表現できる。
- エディタ
フォント、サイズ、カラーなどの属性情報を設定せずに文字のみを入力するワープロソフト。Macでは「Jedit」、Windowsでは「秀丸エディタ」が有名。
- プレーンテキスト
フォント、サイズ、カラーなどの情報をもつリッチテキスト形式(RTF)に対し、それらの属性情報をもたないテキストファイルのことを指す。
- 流し込み
ページレイアウトソフトで、指定の位置にテキストデータを配置していくこと。
- 改行コード
テキストデータ上で改行を表す文字コードのこと。CR(Carriage Return3D行頭復帰)、LF(Line Feed3D改行)などがあり、OSによってコードが異なる。流し込みページレイアウトソフトで、指定の位置にテキストデータを配置していくこと。
(続く)